Documente Academic
Documente Profesional
Documente Cultură
Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: Venitul disponibil al familiei si Cheltuielile
de Consum ale familiei.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
Fiecare familie a fost selectată, la întâmplare, dintr-un grup de familii cu un venit net disponibil fixat.
Valorile celor două variabile sunt exprimate în mii lei, astfel încât prima familie câştigă 80 mii lei şi
consumă 70 mii lei anual.
Variabilele sunt:
X – Venitul disponibil al familiei, exprimat în mii lei
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei
(variabila dependentă sau variabila explicată sau variabila endogenă)
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
5. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
6. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson si testaţi semnificaţia statistică a acestuia.
7. Să se rezolve problema în Excel
8. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
9. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
10. Să se raporteze rezultatele analizei de regresie
11. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil este
280 mii lei.
Rezolvare:
1. Pentru a identifica existenţa unei relaţii de dependenţă între variabilele analizate, ca şi forma şi sensul
relaţiei de dependenţă, construim diagrama împrăştierii datelor. Pentru a crea o diagramă a datelor trebuie
să stabilim care variabilă ar trebui să apară pe axa orizontală. În analiza de regresie, variabila explicativă
apare totdeauna pe axa orizontală iar variabila explicată pe axa verticală.
Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele X şi Y pot fi introduse în coloanele A şi B.
Reprezentăm grafic perechile de puncte observate 𝑥 , 𝑦 .
În Excel, selectăm: Insert / Chart / XY(Scatter)…
1
Se observă că între variabilele X şi Y există o legătură directă şi liniară.
2. Rezultă că putem considera că între cele două variabile există o relaţie de forma: 𝑌 𝛽 𝛽𝑋 𝜀
𝑦 𝛽 𝛽𝑥 𝜀 ; 𝑖 1,2, . . . , 𝑛.
Notăm estimatorii parametrilor 𝛽 şi 𝛽 cu 𝑏 şi 𝑏 sau 𝛽 şi 𝛽
Pentru a determina estimatorii 𝑏 şi 𝑏 ai parametrilor 𝛽 şi 𝛽 , rezolvăm sistemul de ecuaţii normale:
𝑏 𝑛 𝑏 ∑𝑥 ∑𝑦 10𝑏 1700𝑏 1110
𝑏 ∑𝑥 𝑏 ∑𝑥 ∑𝑥 𝑦 1700𝑏 322000𝑏 205500
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
∑ ∑ ∑ ∑
𝑏 ∑ ∑
⇒ 𝑏 24,4545
∑ ∑ ∑
𝑏 ∑ ∑
⇒ 𝑏 0,5091
𝑛 ∑𝑥 ∑𝑦 ∑𝑥 𝑛 ∑𝑦
unde ∆ ; ∆ ; ∆
∑𝑥 ∑𝑥 ∑𝑥 𝑦 ∑𝑥 ∑𝑥 ∑𝑥 𝑦
Valorile estimatorii 𝑏 şi 𝑏 se pot afla și folosind formulele:
∑ ̄ ̄
𝑏 ∑ ̄
⇒ 𝑏 0,5091
𝑏 𝑦̄ 𝑏 𝑥̄ ⇒ 𝑏 111 0,5091 170 24,4545
2
Fie α nivelul sau pragul de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 sau 100α% = 5%, iar 1-=0,95 sau 100(1-α)% = 95%.
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:
𝑆𝑆𝑇 ∑ 𝑦 𝑦̄ 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 ∑ 𝑦 𝑦̄ 8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 ∑ 𝑦 𝑦 ∑𝑒 337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE
Regiunea critică: 𝑅 : 𝐹 𝐹; ,
Dacă 𝐹calculat 𝐹 ; , respingem H0 şi acceptăm H1
𝐹calculat 8552,73/42,159 202,87,
𝐹tabelat 𝐹critic 𝐹 ; , 𝐹, ; , 5,32
Deoarece 202,87 > 5,32 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.
Observaţie: În tabelul din Excel apare şi o probabilitate (Significance F)
3
∑ ̄ ∑
𝑅 ∑ ̄
sau 𝑅 1 1 ∑ ̄
0 𝑅 1
În ce măsură, variaţia cheltuielilor de consum este influenţată de venitul disponibil al familiei, pe baza
modelului de regresie determinat?
𝑹𝟐 𝟎, 𝟗𝟔𝟐𝟏, arată că 96,21% din variaţia cheltuielilor de consum (Y) este explicată prin variaţia
venitului disponibil (X). Deoarece 𝑅 poate fi cel mult 1, valoarea obţinută sugerează că dreapta de
regresie estimată aproximează (ajustează) foarte bine datele de observaţie.
Coeficientul de corelaţie de selecţie caracterizează direcţia şi intensitatea legăturii liniare dintre două
variabile. Semnul acestui coeficient indică direcţia legături iar valoarea sa indică intensitatea legăturii.
4
∑ ̄ ̄ ∑ ∑ ∑
𝑟 ∈ 1, 1
∑ ̄ ∑ ̄ ∑ ∑ ∑ ∑
∑ ̄ ̄
𝑏 ∑ ̄
⇒ 𝑟 𝑏 .
Rezultă că 𝑟 are acelaşi semn cu coeficientul de regresie 𝑏 .
𝑟 𝑟 0,9808 ⇒ există o legătură directă şi foarte puternică între cele două variabile analizate.
În EXCEL se utilizează funcţia CORREL pentru determinarea coeficientului de corelaţie Pearson.
5
Introducem valorile pentru variabilele Y şi X.
Bifăm Level, Confidence Level şi alegem Output Range.
Putem bifa si Residual.
6
8. Să se testeze semnificaţia statistică a parametrilor modelului
Inferenţa statistică privind parametrii modelului se poate realiza prin:
Testarea ipotezei statistice referitoare la semnificaţia parametrilor;
Estimarea pe interval de încredere a parametrilor modelului.
7
Observaţie:
Pentru cazul k=1 şi coeficientul pantă avem 𝑡 𝐹
Verificare: 14,2432 = 202,87
8
Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
Folosim testul t
Folosim P-value
Folosim intervalele de încredere
Legea cererii postulează o relaţie inversă între cantitatea cerută dintr-un produs şi preţul său, toate celelalte
variabile care afectează cererea fiind considerate constante.
O editură doreşte să studieze legătura dintre numărul de albume vândute şi preţul unui anumit album (de
pictură). În acest scop, au fost înregistrate, în 10 oraşe, valorile următoarelor variabile:
Y – numărul de albume vândute;
X – preţul albumului (în euro).
Y 49 45 44 39 38 37 34 33 30 29
X 1 2 3 4 5 6 7 8 9 10
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
Se observă că între variabilele X şi Y există o legătură liniară inversă.
Modelul Cerere-Pret
60
40
cantitate
Seri…
20
0
0 5 10 15
pret
9
2. Pe baza datelor de la nivelul eşantionului, să se determine ecuaţia de regresie liniară care modelează
legătura dintre cele două variabile. Să se estimeze parametrii modelului şi să se interpreteze rezultatele
obţinute.
Considerăm modelul:
𝑦 𝛽 𝛽𝑥 𝜀, 𝑖 1,2, . . . , 𝑛.
Pentru a determina estimatorii 𝛽 şi 𝛽 ai parametrilor 𝛽 şi 𝛽 , rezolvăm sistemul de ecuaţii normale ale
lui Gauss.
𝛽 𝑛 𝛽 ∑𝑥 ∑𝑦 10𝛽 55𝛽 378
𝛽 ∑𝑥 𝛽 ∑𝑥 ∑𝑥 𝑦 55𝛽 385𝛽 1901
Regression Statistics
Multiple R 0.9878
R Square 0.9757
Adjusted R Square 0.9727
Standard Error 1.0927
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 384.0485 384.0485 321.6650 9.57605E-08
Residual 8 9.5515 1.1939
Total 9 393.6000
10