AT3.1 M1 M2 Regresie Liniara Simpla

Aplicaţii rezolvate - Modele de Regresie liniară unifactorială (simplă)
M1. Consumul unei familii în funcţie de Venitul disponibil
Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: Venitul disponibil al familiei si Cheltuielile
de Consum ale familiei.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
Fiecare familie a fost selectată, la întâmplare, dintr-un grup de familii cu un venit net disponibil fixat.
Valorile celor două variabile sunt exprimate în mii lei, astfel încât prima familie câştigă 80 mii lei şi
consumă 70 mii lei anual.
Variabilele sunt:
X – Venitul disponibil al familiei, exprimat în mii lei
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei
(variabila dependentă sau variabila explicată sau variabila endogenă)
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
5. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
6. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson si testaţi semnificaţia statistică a acestuia.
7. Să se rezolve problema în Excel
8. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
9. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
10. Să se raporteze rezultatele analizei de regresie
11. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil este
280 mii lei.
Rezolvare:
1. Pentru a identifica existenţa unei relaţii de dependenţă între variabilele analizate, ca şi forma şi sensul
relaţiei de dependenţă, construim diagrama împrăştierii datelor. Pentru a crea o diagramă a datelor trebuie
să stabilim care variabilă ar trebui să apară pe axa orizontală. În analiza de regresie, variabila explicativă
apare totdeauna pe axa orizontală iar variabila explicată pe axa verticală.
Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele X şi Y pot fi introduse în coloanele A şi B.
Reprezentăm grafic perechile de puncte observate 𝑥 , 𝑦 .
În Excel, selectăm: Insert / Chart / XY(Scatter)…
1
Se observă că între variabilele X şi Y există o legătură directă şi liniară.
2. Rezultă că putem considera că între cele două variabile există o relaţie de forma: 𝑌 𝛽 𝛽𝑋 𝜀
𝑦 𝛽 𝛽𝑥 𝜀 ; 𝑖 1,2, . . . , 𝑛.
Notăm estimatorii parametrilor 𝛽 şi 𝛽 cu 𝑏 şi 𝑏 sau 𝛽 şi 𝛽
Pentru a determina estimatorii 𝑏 şi 𝑏 ai parametrilor 𝛽 şi 𝛽 , rezolvăm sistemul de ecuaţii normale:
𝑏 𝑛 𝑏 ∑𝑥 ∑𝑦 10𝑏 1700𝑏 1110
𝑏 ∑𝑥 𝑏 ∑𝑥 ∑𝑥 𝑦 1700𝑏 322000𝑏 205500
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
∑ ∑ ∑ ∑
𝑏 ∑ ∑
⇒ 𝑏 24,4545
∑ ∑ ∑
𝑏 ∑ ∑
⇒ 𝑏 0,5091
𝑛 ∑𝑥 ∑𝑦 ∑𝑥 𝑛 ∑𝑦
unde ∆ ; ∆ ; ∆
∑𝑥 ∑𝑥 ∑𝑥 𝑦 ∑𝑥 ∑𝑥 ∑𝑥 𝑦
Valorile estimatorii 𝑏 şi 𝑏 se pot afla și folosind formulele:
∑ ̄ ̄
𝑏 ∑ ̄
⇒ 𝑏 0,5091
𝑏 𝑦̄ 𝑏 𝑥̄ ⇒ 𝑏 111 0,5091 170 24,4545
Dreapta de regresie estimată este 𝑦 24,4545 0,5091 ⋅ 𝑥

Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦 este o estimaţie pentru 𝐸 𝑌|𝑋 .
Interpretarea parametrilor obţinuţi:
𝑏 𝛽 0,5091 măsoară panta dreptei de regresie şi arată că, atunci când Venitul (X) creşte cu o
unitate, adica cu 1000 lei, Cheltuielile de consum (Y) cresc, în medie, cu 0,5091 mii lei.
𝑏 𝛽 24,4545 arată nivelul cheltuielilor de consum, atunci când venitul este 0.
Interpretăm pe 𝑏 24,4545 ca fiind efectul mediu asupra lui Y, al tuturor factorilor care nu sunt luaţi în
considerare în modelul de regresie.
3. Testarea validităţii modelului de regresie folosind metoda ANOVA

Să se verifice dacă modelul de regresie identificat este valid statistic
(valoare tabelară: 5,32 pentru un nivel de semnificaţie de 0,05).
2
Fie α nivelul sau pragul de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 sau 100α% = 5%, iar 1-=0,95 sau 100(1-α)% = 95%.
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:
Sursă variaţie df SS MS F Fcritic

Regression k SSR=∑ 𝑦 𝑦̄ MSR= F= 𝐹; ,
Residual n-k-1 SSE=∑ 𝑦 𝑦 MSE=𝑠

Total n-1 SST=∑ 𝑦 𝑦̄
Aici k reprezintă numărul de variabile explicative din model
Se completează tabelul de analiză a varianţei (ANOVA)

Sursă Nr grade Suma pătratelor Media pătratelor Statistica
variaţie libertate (df) abaterilor (SS) (MS) F
Regresia k=1 SSR=8552,73 MSR=SSR/1=8552,73 F=MSR/MSE=202,87
Eroarea n-2=8 SSE=337,27 MSE=SSE/(n-2)=42,159
Totală n-1=9 SST=8890,00
𝑆𝑆𝑇 ∑ 𝑦 𝑦̄ 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 ∑ 𝑦 𝑦̄ 8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 ∑ 𝑦 𝑦 ∑𝑒 337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE
𝑀𝑆𝐸 𝑠 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)
𝑠 este abaterea standard a erorilor în eşantion

De asemenea, se poate calcula si dispersia de selecţie a lui Y, adică 𝑠
Pentru testarea validităţii modelului se formulează 2 ipoteze:

H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
Folosim statistica: 𝐹 care urmează o distribuţie 𝐹𝑖𝑠h𝑒𝑟 , .
Regiunea critică: 𝑅 : 𝐹 𝐹; ,
Dacă 𝐹calculat 𝐹 ; , respingem H0 şi acceptăm H1
𝐹calculat 8552,73/42,159 202,87,
𝐹tabelat 𝐹critic 𝐹 ; , 𝐹, ; , 5,32
Deoarece 202,87 > 5,32 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.
Observaţie: În tabelul din Excel apare şi o probabilitate (Significance F)
4. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut.

Coeficientul de determinaţie arată proporţia din variaţia totală a variabilei dependente Y, explicată de
variaţia variabilei independente X, deci prin modelul de regresie estimat.
3
∑ ̄ ∑
𝑅 ∑ ̄
sau 𝑅 1 1 ∑ ̄
0 𝑅 1
În ce măsură, variaţia cheltuielilor de consum este influenţată de venitul disponibil al familiei, pe baza
modelului de regresie determinat?
𝑹𝟐 𝟎, 𝟗𝟔𝟐𝟏, arată că 96,21% din variaţia cheltuielilor de consum (Y) este explicată prin variaţia
venitului disponibil (X). Deoarece 𝑅 poate fi cel mult 1, valoarea obţinută sugerează că dreapta de
regresie estimată aproximează (ajustează) foarte bine datele de observaţie.
5. Determinarea raportului de corelaţie şi testarea semnificaţiei acestuia

Raportul de corelaţie (Multiple R) dintre cele două variabile este:
∑ ̄ ∑
𝑅 ∑ ̄
sau 𝑅 1 1 ∑ ̄
0 𝑅 1
𝑹 𝟎, 𝟗𝟖𝟎𝟖
Raportul de corelaţie se determină pentru legături liniare sau neliniare.
Egalitatea |𝑟| = R este un test de liniaritate pentru model.
Valoarea apropiată de 1 a raportului de corelatie arată că între cele două variabile există o legătură foarte
puternică.
Coeficientul de determinaţie ajustat (Adjusted R-squared)
/
𝑹𝟐 1 . Totdeauna avem: 𝑹𝟐 𝑹𝟐 . Coeficientul de determinaţie ajustat se utilizează
/
pentru a identifica variabilele independente care au influenţă asupra lui Y. Dacă în model se introduce o
variabilă independentă care are efect explicativ asupra lui Y, valoarea lui 𝑹𝟐 creşte. Dacă în model se
introduce o variabilă independentă care nu are efect explicativ asupra lui Y, valoarea lui 𝑹𝟐 scade.
Testarea semnificaţiei Raportului de corelaţie

Cele două ipoteze ale testului sunt:
𝐻 :𝑅 0 ( Raportul de corelaţie nu este semnificativ statistic; modelul nu este corect specificat)
(adică variabila X nu are efect asupra variabilei Y)
𝐻 :𝑅 0 ( Raportul de corelaţie este semnificativ statistic; modelul este corect specificat)
( adică variabila X are efect asupra variabilei Y)
𝑅
𝐹 𝑛 2 ~𝐹𝑖𝑠h𝑒𝑟 ,
1 𝑅
Se aplică regula de decizie: dacă 𝐹calc 𝐹 ; , se respinge ipoteza nulă în favoarea ipotezei alternative.
Deoarece 𝐹calc 202 şi 𝐹 ; , 5,32 respingem H0 şi acceptăm H1, modelul este corect specificat
⇒ Raportul de corelaţie este semnificativ statistic
⇒ variabila X are efect asupra variabilei Y.
6. Calculaţi coeficientul liniar de corelaţie Pearson şi testaţi semnificaţia statistică a acestuia.

Se notează cu ρ coeficientul de corelaţie din colectivitatea generală.
Se notează cu r coeficientul de corelaţie liniara din esantion
Media estimatorului r este ρ şi abaterea standard este 𝑠
Coeficientul de corelaţie de selecţie caracterizează direcţia şi intensitatea legăturii liniare dintre două
variabile. Semnul acestui coeficient indică direcţia legături iar valoarea sa indică intensitatea legăturii.
4
∑ ̄ ̄ ∑ ∑ ∑
𝑟 ∈ 1, 1
∑ ̄ ∑ ̄ ∑ ∑ ∑ ∑
∑ ̄ ̄
𝑏 ∑ ̄
⇒ 𝑟 𝑏 .
Rezultă că 𝑟 are acelaşi semn cu coeficientul de regresie 𝑏 .
𝑟 𝑟 0,9808 ⇒ există o legătură directă şi foarte puternică între cele două variabile analizate.
În EXCEL se utilizează funcţia CORREL pentru determinarea coeficientului de corelaţie Pearson.
Testarea semnificaţiei coeficientului de corelaţie liniară se face utilizând testul t.
𝐻: 𝜌 0 (coeficientul de corelaţie 𝜌 nu este semnificativ statistic)

(între cele două variabile nu există o dependenţă liniară semnificativă)
𝐻: 𝜌 0 ( coeficientul de corelaţie 𝜌 este semnificativ statistic).
(între cele două variabile există o dependenţă liniară semnificativă)
Statistica testului urmează o distribuţie Student cu (n-2) grade de libertate.

𝑡 ⋅ √𝑛 2 ~ 𝑆𝑡𝑢𝑑𝑒𝑛𝑡
√
Dacă 𝑡calculat 𝑡critic , respingem 𝐻 şi acceptăm 𝐻 , adică 𝜌 este semnificativ statistic.
𝑡critic 𝑡α,n-2 𝑡, ; 2,306
0,980847
𝑡calculat ⋅ √10 2 14,25039
1 0,980847
Doarece 14,25039 2,306, deci avem 𝑡calculat 𝑡α;n-2 rezultă că
vom respinge 𝐻 şi vom accepta 𝐻 ;
⇒ Coeficientul de corelaţie liniara este semnificativ statistic.
⇒ Între cele două variabile există o dependenţă liniară semnificativă.
7. Estimarea parametrilor modelului de regresie liniară unifactorială utilizând EXCEL
Microsoft Excel conţine un instrument pentru a efectua regresii folosind MCMMP.

Selectăm: Data, apoi Data Analysis şi apoi Regression din lista de instrumente de analiză afişate.
Ce facem dacă nu apare Data Analysis în menu?
Selectăm File  Options  Add-Ins  Go  bifăm opţiunea Analysis ToolPak  OK.
5
Introducem valorile pentru variabilele Y şi X.
Bifăm Level, Confidence Level şi alegem Output Range.
Putem bifa si Residual.
6
8. Să se testeze semnificaţia statistică a parametrilor modelului
Inferenţa statistică privind parametrii modelului se poate realiza prin:
 Testarea ipotezei statistice referitoare la semnificaţia parametrilor;
 Estimarea pe interval de încredere a parametrilor modelului.
Calculăm abaterile medii pătratice ale estimatorilor parametrilor modelului

Varianţele estimatorilor 𝛽 şi 𝛽 sunt date de următoarele relaţii:
̄ ∑
𝑉𝑎𝑟 𝛽 ∑ ̄
; 𝑉𝑎𝑟 𝛽 𝜎 ∑ ̄ ∑ ̄
Varianţa erorilor aleatoare este 𝜎 , dar este necunoscută şi trebuie estimată.
Un estimator nedeplasat pentru 𝝈𝟐 este varianţa erorilor estimate: 𝜎 𝑠 = 42,159.
Abaterea medie pătratică a erorilor estimate este: 𝑠 42,159 6,493
Estimaţiile abaterilor medii pătratice ale estimatorilor parametrilor modelului sunt:
𝑠 𝑠 𝑠 ⋅ = 0,0357
∑ ̄
∑ ̄
𝑠 𝑠 𝑠 ⋅ ∑ ̄
𝑠 ⋅ ∑ ̄
= 6,4138
Testarea semnificaţiei parametrului pantă 1

𝐻 :𝛽 0 (parametrul pantă 𝛽 nu este semnificativ statistic; 𝛽 nu diferă semnificativ de zero)
𝐻 :𝛽 0 (parametrul pantă 𝛽 este semnificativ statistic; 𝛽 diferă semnificativ de zero).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
adică urmează o distribuţie Student cu (n-2) grade de libertate dacă H0 este adevărată.
Avem: 𝑡
Avem TB (Test Bilateral)
Vom determina Regiunea critică sau de respingere a ipotezei H0.
Regiunea critică: 𝑅 : 𝑡 𝑡 , sau 𝑡 𝑡 ,

sau 𝑅 : |𝑡calc | 𝑡 ;
Decizia: Dacă 𝑡 ∈ 𝑅 respingem H0 şi acceptăm H1
Dacă |𝑡calc | 𝑡 ; atunci respingem 𝐻 şi acceptăm 𝐻 la un nivel de semnificaţie de 𝛼%.
,
𝑡calc = 14,2432
,
𝑡critic 𝑡tabela 𝑡 , ; =2,306
Deoarece 14,2432>2,306  𝑡 ∈ 𝑅  respingem H0 şi acceptăm H1 ⇒ 𝛽 este semnificativ statistic.
(Spunem că o statistică este semnificativă dacă valoarea testului statistic se găseşte în regiunea critică.
În acest caz se respinge H0.)
7
Observaţie:
Pentru cazul k=1 şi coeficientul pantă avem 𝑡 𝐹
Verificare: 14,2432 = 202,87
Testarea semnificaţiei parametrului de interceptare 𝛽

𝐻 :𝛽 0 (𝛽 nu este semnificativ statistic; 𝛽 nu diferă semnificativ de zero)
𝐻 :𝛽 0 (𝛽 este semnificativ statistic; 𝛽 diferă semnificativ de zero).
Sub ipoteza nulă statistica: 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
Vom determina Regiunea critică sau de respingere a ipotezei H0
Regiunea critică: 𝑅 : 𝑡 𝑡 , sau 𝑡 𝑡 ,
Decizia: Dacă 𝑡 ∈ 𝑅 respingem H0 şi acceptăm H1
Dacă |𝑡calc | 𝑡 ; atunci respingem 𝐻 şi acceptăm 𝐻 la un nivel de semnificaţie de 𝛼%.

,
𝑡calc = 3,8128
,
𝑡calc 24,4545/6,4138 3,8128; 𝑡critic 𝑡tabela 𝑡, ; 2,306

Deoarece 3,8128>2,306  𝑡 ∈ 𝑅  respingem H0 şi acceptăm H1 ⇒ 𝛽 este semnificativ statistic.
9. Estimarea pe interval de încredere a parametrilor modelului.

Un interval de încredere 𝟏𝟎𝟎 𝟏 𝜶 % pentru parametrul pantă 𝜷𝟏 este de forma:
𝛽 𝑡 ; ∙𝑠 𝛽 𝛽 𝑡 ; ∙𝑠
𝑏 𝑡 ;
∙𝑠 𝛽 𝑏 𝑡 ;
∙𝑠
0,5091 2,306 0,0357 𝛽 0,5901 2,306 0,0357
0,4268 𝛽 0,5914
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul 0,4268 𝛽 0,5914, vor include valoarea reală a lui 𝛽 .
Intervalul 0,4268; 0,5914 acoperă valoarea reală a parametrului 𝛽 cu o probabilitate de 95%.
Se poate testa dacă 𝛽 0 privind la intervalul de încredere pentru 𝛽 şi observând dacă acesta conţine
valoarea zero. Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽 0. Spunem că:
„Factorul X are putere explicativă semnificativă pentru Y” sau „𝛽 este semnificativ diferit de zero” sau
„𝛽 este semnificativ statistic”.
Un interval de încredere 100(1-α)% pentru parametrul 𝜷𝟎 este de forma:
𝛽 𝑡 ;
𝑠 𝛽 𝛽 𝑡 ;
𝑠
𝑏 𝑡 ;
∙𝑠 𝛽 𝑏 𝑡 ;
∙𝑠
24,4545 2,306 6,4138 ; 24,4545 2,306 6,4138 ⇒
9,6643 𝛽 39,2448 ⇒ Interpretare...
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul 9,6643 𝛽 39,2448 , vor include valoarea reală a lui 𝛽 .
Intervalul 9,6643; 39,2448 acoperă valoarea reală a parametrului 𝛽 cu o probabilitate de 95%.
Se poate testa dacă 𝛽 0 privind la intervalul de încredere pentru 𝛽 şi observând dacă acesta conţine
valoarea zero. Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽 0.
8
Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
 Folosim testul t
 Folosim P-value
 Folosim intervalele de încredere
10. Raportarea rezultatelor analizei de regresie

𝑦 = 24,4545 + 0,5091 𝑥
𝑠𝑒 (6,4138) (0,0357) 𝑅 0,9621
𝑡 (3,8128) (14,2432) 𝑑𝑓 8
𝑝 (0,0051) (0,0000) 𝐹 202,8679
11. Să se previzioneze (prognozeze) cheltuielile de consum ale unei familii, în ipoteza că

venitul disponibil este 𝑥 𝑥 280 mii lei.
Putem obţine estimaţii punctuale sau prin intervale de încredere
Folosim ecuaţia de regresie estimată: 𝑦 𝛽 𝛽𝑥 24,4545 0,5091 ⋅ 𝑥
Se doreşte predicţia unei valori individuale

𝑦 𝛽 𝛽𝑥 24,4545 0,5091 ⋅ 280 = 167,0025 mii lei este o estimaţie (predicţie) a valorii
individuale 𝑦 𝛽 𝛽𝑥 𝜀
M2. Cererea pentru un produs în funcţie de Preţ
Legea cererii postulează o relaţie inversă între cantitatea cerută dintr-un produs şi preţul său, toate celelalte
variabile care afectează cererea fiind considerate constante.
O editură doreşte să studieze legătura dintre numărul de albume vândute şi preţul unui anumit album (de
pictură). În acest scop, au fost înregistrate, în 10 oraşe, valorile următoarelor variabile:
Y – numărul de albume vândute;
X – preţul albumului (în euro).
Y 49 45 44 39 38 37 34 33 30 29
X 1 2 3 4 5 6 7 8 9 10
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
Se observă că între variabilele X şi Y există o legătură liniară inversă.
Modelul Cerere-Pret
60
40
cantitate
Seri…
20
0
0 5 10 15
pret
9
2. Pe baza datelor de la nivelul eşantionului, să se determine ecuaţia de regresie liniară care modelează
legătura dintre cele două variabile. Să se estimeze parametrii modelului şi să se interpreteze rezultatele
obţinute.
Considerăm modelul:
𝑦 𝛽 𝛽𝑥 𝜀, 𝑖 1,2, . . . , 𝑛.
Pentru a determina estimatorii 𝛽 şi 𝛽 ai parametrilor 𝛽 şi 𝛽 , rezolvăm sistemul de ecuaţii normale ale
lui Gauss.
𝛽 𝑛 𝛽 ∑𝑥 ∑𝑦 10𝛽 55𝛽 378
𝛽 ∑𝑥 𝛽 ∑𝑥 ∑𝑥 𝑦 55𝛽 385𝛽 1901
Obţinem: 𝛽 49,6667 şi 𝛽 2,1575

Dreapta de regresie estimată este
𝑦 49,6667 2,1575 ⋅ 𝑥
Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦 este o estimaţie pentru 𝐸 𝑌|𝑋 .
Interpretarea parametrilor obţinuţi:

𝛽 2,1575 măsoară panta dreptei de regresie şi arată că, atunci când Preţul (X) creşte cu un euro,
numărul de albume vândute (Y) scade, în medie, cu două unităţi (bucăţi).
Valoarea 𝛽 49,6667 arată numărul de albume vândute, atunci când preţul unui album este 0. În
general, parametrul de interceptare nu are semnificaţie economică. Interpretăm pe 𝛽 49,6667 ca fiind
efectul mediu asupra lui Y, al tuturor factorilor care nu sunt luaţi în considerare în modelul de regresie.
Output-ul obţinut din Excel:
Regression Statistics
Multiple R 0.9878
R Square 0.9757
Adjusted R Square 0.9727
Standard Error 1.0927
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 384.0485 384.0485 321.6650 9.57605E-08
Residual 8 9.5515 1.1939
Total 9 393.6000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 49.6667 0.7464 66.5381 0.0000 47.9454 51.3880
X -2.1576 0.1203 -17.9350 0.0000 -2.4350 -1.8802
10

AT3.1 M1 M2 Regresie Liniara Simpla

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

AT3.1 M1 M2 Regresie Liniara Simpla

Încărcat de

Drepturi de autor:

Formate disponibile

Aplicaţii rezolvate - Modele de Regresie liniară unifactorială (simplă)

M1. Consumul unei familii în funcţie de Venitul disponibil

Dreapta de regresie estimată este 𝑦 24,4545 0,5091 ⋅ 𝑥

3. Testarea validităţii modelului de regresie folosind metoda ANOVA

Sursă variaţie df SS MS F Fcritic

Residual n-k-1 SSE=∑ 𝑦 𝑦 MSE=𝑠

Se completează tabelul de analiză a varianţei (ANOVA)

𝑀𝑆𝐸 𝑠 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)

𝑠 este abaterea standard a erorilor în eşantion

Pentru testarea validităţii modelului se formulează 2 ipoteze:

Folosim statistica: 𝐹 care urmează o distribuţie 𝐹𝑖𝑠h𝑒𝑟 , .

4. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut.

5. Determinarea raportului de corelaţie şi testarea semnificaţiei acestuia

Testarea semnificaţiei Raportului de corelaţie

6. Calculaţi coeficientul liniar de corelaţie Pearson şi testaţi semnificaţia statistică a acestuia.

Testarea semnificaţiei coeficientului de corelaţie liniară se face utilizând testul t.

𝐻: 𝜌 0 (coeficientul de corelaţie 𝜌 nu este semnificativ statistic)

Statistica testului urmează o distribuţie Student cu (n-2) grade de libertate.

7. Estimarea parametrilor modelului de regresie liniară unifactorială utilizând EXCEL

Microsoft Excel conţine un instrument pentru a efectua regresii folosind MCMMP.

Calculăm abaterile medii pătratice ale estimatorilor parametrilor modelului

Testarea semnificaţiei parametrului pantă 1

Regiunea critică: 𝑅 : 𝑡 𝑡 , sau 𝑡 𝑡 ,

Testarea semnificaţiei parametrului de interceptare 𝛽

Dacă |𝑡calc | 𝑡 ; atunci respingem 𝐻 şi acceptăm 𝐻 la un nivel de semnificaţie de 𝛼%.

𝑡calc 24,4545/6,4138 3,8128; 𝑡critic 𝑡tabela 𝑡, ; 2,306

9. Estimarea pe interval de încredere a parametrilor modelului.

10. Raportarea rezultatelor analizei de regresie

11. Să se previzioneze (prognozeze) cheltuielile de consum ale unei familii, în ipoteza că

Se doreşte predicţia unei valori individuale

M2. Cererea pentru un produs în funcţie de Preţ

Obţinem: 𝛽 49,6667 şi 𝛽 2,1575

Interpretarea parametrilor obţinuţi:

Output-ul obţinut din Excel:

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

S-ar putea să vă placă și