Sunteți pe pagina 1din 7

Modele de Regresie liniară unifactorială (simplă)

Ex1. Consumul unei familii în funcţie de Venitul disponibil

Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: X si Y.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
X – Venitul disponibil al familiei, exprimat în mii lei (variabila independentă sau exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei (variabila dependentă sau endogenă)

1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
5. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
6. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
7. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
8. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul de corelaţie liniară
Pearson si testaţi semnificaţia statistică a acestuia.
9. Să se raporteze rezultatele analizei de regresie
10. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.
11. Să se previzioneze cheltuielile medii de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.

Rezolvare: Punctele 1 și 2 în Seminarul 2.


Dreapta de regresie estimată este 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ⋅ 𝑥𝑖
𝑦̂𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦̂𝑖 este o estimaţie pentru 𝐸(𝑌|𝑋𝑖 ).
Interpretarea parametrilor obţinuţi:
𝛽̂1 ≈ 0,5091 măsoară panta dreptei de regresie şi arată că, atunci când Venitul (X) creşte cu o unitate,
adică cu 1000 lei, Cheltuielile de consum (Y) cresc, în medie, cu 0,5091 mii lei.
𝛽̂0 ≈ 24,4545 arată nivelul cheltuielilor de consum, atunci când venitul este 0.

Estimarea parametrilor modelului de regresie liniară unifactorială utilizând EXCEL


Selectăm: Data, apoi Data Analysis şi apoi Regression din lista de instrumente de analiză afişate.
Introducem valorile pentru variabilele Y şi X.

1
3. Testarea validităţii modelului de regresie folosind metoda ANOVA
Să se verifice dacă modelul de regresie identificat este valid statistic
(valoare tabelară: 5,32 pentru un nivel de semnificaţie de 0,05).
Fie α nivelul (pragul) de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 iar 1-=0,95 (sau 100α% = 5% iar 100(1-α)% = 95%).
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:

Sursă variaţie df SS MS F Fcritic


Regression k-1 SSR=∑(𝑦̂𝑖 − 𝑦̄ )2 MSR=𝑘−1
𝑆𝑆𝑅 𝑀𝑆𝑅
F=𝑀𝑆𝐸 𝐹𝛼;𝑘−1,𝑛−𝑘
Residual n-k SSE=∑(𝑦𝑖 − 𝑦̂𝑖 )2 MSE=𝑠𝑒2 = 𝑛−𝑘
𝑆𝑆𝐸

Total n-1 SST=∑(𝑦𝑖 − 𝑦̄ )2


Aici k reprezintă numărul de parametri de estimat, din model

Se completează tabelul de analiză a varianţei (ANOVA)


Sursă Nr grade Suma pătratelor Media pătratelor Statistica
variaţie libertate (df) abaterilor (SS) (MS) F
Regresia k-1=1 SSR=8552,73 MSR=SSR/1=8552,73 F=MSR/MSE=202,87
Eroarea n-2=8 SSE=337,27 MSE=SSE/(n-2)=42,159
Totală n-1=9 SST=8890,00
𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ )2 = 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ )2 =8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 =337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE
𝑆𝑆𝐸
𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)
𝑆𝑆𝐸
𝑠𝑒 = 𝑠𝜀̂ = √𝑛−2 este abaterea standard a erorilor în eşantion
𝑆𝑆𝑇
De asemenea, se poate calcula si dispersia de selecţie a lui Y, adică 𝑠𝑦2 = 𝑛−1

2
Pentru testarea validităţii modelului se formulează 2 ipoteze:
H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
𝑆𝑆𝑅
𝑀𝑆𝑅 𝑘−1
Folosim statistica: 𝐹 = = 𝑆𝑆𝐸 care urmează o distribuţie 𝐹𝑖𝑠h𝑒𝑟 1,𝑛−2
𝑀𝑆𝐸
𝑛−𝑘
Regiunea critică: 𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;1,𝑛−2
Dacă 𝐹calculat > 𝐹𝛼;1,𝑛−2 respingem H0 şi acceptăm H1
𝐹calculat = 8552,73/42,159 = 202,87,
𝐹tabelat = 𝐹critic = 𝐹𝛼;1,𝑛−2 = 𝐹0,05;1,8 = 5,32 ( = 5,317655)

În Excel scriem: Rezultă: 5,317655.


Deoarece 202,87 > 5,32 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.
Observaţie: În tabelul din Excel apare şi o probabilitate (Significance F)

4. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut.


Coeficientul de determinaţie arată proporţia din variaţia totală a variabilei dependente Y, explicată de
variaţia variabilei independente X, deci prin modelul de regresie estimat.
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 2 = 𝑆𝑆𝑇 = ∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 2 = 1 − 𝑆𝑆𝑇 = 1 − ∑(𝑦𝑖 −𝑦̄ )2
0 ≤ 𝑅2 ≤ 1
𝑖
În ce măsură, variaţia cheltuielilor de consum este influenţată de venitul disponibil al familiei, pe baza
modelului de regresie determinat?
𝑹𝟐 ≈ 𝟎, 𝟗𝟔𝟐𝟏, arată că 96,21% din variaţia cheltuielilor de consum (Y) este explicată prin variaţia
venitului disponibil (X). Deoarece 𝑅 2 poate fi cel mult 1, valoarea obţinută sugerează că dreapta de
regresie estimată aproximează (ajustează) foarte bine datele de observaţie.

5. Determinarea raportului de corelaţie şi testarea semnificaţiei acestuia


Raportul de corelaţie (Multiple R) dintre cele două variabile este:
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 = √𝑆𝑆𝑇 = √∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 = √1 − 𝑆𝑆𝑇 = √1 − ∑(𝑦𝑖 −𝑦̄ )2
0≤𝑅≤1
𝑖
𝑹 ≈ 𝟎, 𝟗𝟖𝟎𝟖
Avem |𝑟𝑥𝑦 | = R. Valoarea apropiată de 1 a raportului de corelatie arată că între cele două variabile
există o legătură foarte puternică.

Coeficientul de determinaţie ajustat (Adjusted R-squared)


̅ 𝟐 = 1 − 𝑆𝑆𝐸/(𝑛−𝑘). Totdeauna avem: 𝑹
𝑹 ̅ 𝟐 < 𝑹𝟐 . Coeficientul de determinaţie ajustat se utilizează pentru
𝑆𝑆𝑇/(𝑛−1)
a identifica variabilele independente care au influenţă asupra lui Y. Dacă în model se introduce o variabilă
independentă care are efect explicativ asupra lui Y, valoarea lui 𝑹 ̅ 𝟐 creşte. Dacă în model se introduce o
variabilă independentă care nu are efect explicativ asupra lui Y, valoarea lui 𝑹 ̅ 𝟐 scade.
Testarea semnificaţiei Raportului de corelaţie
Cele două ipoteze ale testului sunt:
𝐻0 : 𝑅 2 = 0 ( Raportul de corelaţie nu este semnificativ statistic; modelul nu este corect specificat)
(adică variabila X nu are efect asupra variabilei Y)
2
𝐻1 : 𝑅 > 0 ( Raportul de corelaţie este semnificativ statistic; modelul este corect specificat)
( adică variabila X are efect asupra variabilei Y)

3
𝑅2
𝐹= (𝑛 − 2)~𝐹𝑖𝑠h𝑒𝑟1,𝑛−2
1 − 𝑅2
Se aplică regula de decizie: dacă 𝐹calc > 𝐹𝛼;1,𝑛−2 se respinge ipoteza nulă în favoarea ipotezei alternative.
Deoarece 𝐹calc ≈ 202 şi 𝐹𝛼;1,𝑛−2 = 5,32 respingem H0 şi acceptăm H1, modelul este corect specificat
⇒ Raportul de corelaţie este semnificativ statistic
⇒ variabila X are efect asupra variabilei Y.

6. Să se testeze semnificaţia statistică a parametrilor modelului


Inferenţa statistică privind parametrii modelului se poate realiza prin:
• Testarea ipotezei statistice referitoare la semnificaţia parametrilor;
• Estimarea pe interval de încredere a parametrilor modelului.
Calculăm abaterile medii pătratice ale estimatorilor parametrilor modelului
Varianţele estimatorilor 𝛽̂1 şi 𝛽̂0 sunt date de următoarele relaţii:
𝜎2 1 𝑥̄ 2 𝜎2 ∑ 𝑥𝑖2
𝑉𝑎𝑟(𝛽̂1 ) = ; 𝑉𝑎𝑟(𝛽̂0 ) = 𝜎 2 ( +
∑(𝑥𝑖 −𝑥̄ )2
)= ∑(𝑥𝑖 −𝑥̄ )2
𝑛 𝑛 ∑(𝑥𝑖 −𝑥̄ )2
2
Varianţa erorilor aleatoare este 𝜎 , dar este necunoscută şi trebuie estimată.
Un estimator nedeplasat pentru 𝝈𝟐 este varianţa erorilor estimate: 𝜎̂ 2 = 𝑠𝑒2 = 42,159.
Abaterea medie pătratică a erorilor estimate este: 𝑠𝑒 = √42,159 = 6,493
Estimaţiile abaterilor medii pătratice ale estimatorilor parametrilor modelului sunt:
1
𝑠𝛽̂1 = 𝑠𝑒 ⋅ 2
= 0,0357
√∑(𝑥𝑖 −𝑥̄ )

𝑖 ∑ 𝑥2 1 𝑥̄ 2
𝑠𝛽̂0 = 𝑠𝑒 ⋅ √𝑛 ∑(𝑥 −𝑥̄ = 𝑠𝑒 ⋅ √𝑛 + ∑(𝑥 −𝑥̄ )2 = 6,4138
)2 𝑖 𝑖

Testarea semnificaţiei parametrului pantă 1


𝐻0 : 𝛽1 = 0 (parametrul pantă 𝛽1 nu este semnificativ statistic; 𝛽1 nu diferă semnificativ de zero)
𝐻1 : 𝛽1 ≠ 0 (parametrul pantă 𝛽1 este semnificativ statistic; 𝛽1 diferă semnificativ de zero).
̂1 −0
𝛽 𝑏1 −0
Statistica testului este 𝑡= = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑏1
1
adică urmează o distribuţie Student cu (n-2) grade de libertate dacă H0 este adevărată.
𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟−𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢
Avem: 𝑡 = 𝑎𝑏𝑎𝑡𝑒𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑢𝑙𝑢𝑖
Avem TB (Test Bilateral)
Vom determina Regiunea critică sau de respingere a ipotezei H0.

Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2


2 2
sau 𝑅𝑐 : |𝑡calc | > 𝑡𝛼;𝑛−2
2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1
Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏1 −0 0,5091
𝑡calc = = 0,0357 = 14,2432
𝑠𝑏1

4
𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 =2,306

În Excel scriem . Rezultă: 2,3060041


Deoarece 14,2432>2,306  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽1 este semnificativ statistic.
(Spunem că o statistică este semnificativă dacă valoarea testului statistic se găseşte în regiunea critică.
În acest caz se respinge H0.)
Observaţie:
Pentru cazul k=2 , pentru coeficientul pantă avem 𝒕𝟐𝒄𝒂𝒍𝒄 = 𝑭𝒄𝒂𝒍𝒄
Verificare: (14,2432)2 = 202,87

Testarea semnificaţiei parametrului de interceptare 𝛽0


𝐻0 : 𝛽0 = 0 (𝛽0 nu este semnificativ statistic; 𝛽0 nu diferă semnificativ de zero)
𝐻1 : 𝛽0 ≠ 0 (𝛽0 este semnificativ statistic; 𝛽0 diferă semnificativ de zero).
̂0 −0
𝛽 𝑏0 −0
Sub ipoteza nulă statistica: 𝑡 = = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑏0
0
Vom determina Regiunea critică sau de respingere a ipotezei H0
Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2
2 2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1

Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏0 −0 24,4545
𝑡calc = = = 3,8128
𝑠𝑏0 6,4138
𝑡calc = 24,4545/6,4138 = 3,8128; 𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 = 2,306
Deoarece 3,8128>2,306  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽0 este semnificativ statistic.

7. Estimarea pe interval de încredere a parametrilor modelului.


Un interval de încredere 𝟏𝟎𝟎(𝟏 − 𝜶)% pentru parametrul pantă 𝜷𝟏 este de forma:
(𝛽̂1 − 𝑡𝛼;𝑛−2 ∙ 𝑠𝛽̂1 ≤ 𝛽1 ≤ 𝛽̂1 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝛽̂1 )
2 2
(0,5091 − (2,306)(0,0357) ≤ 𝛽1 ≤ 0,5901 + 2,306(0,0357))
0,4268 ≤ 𝛽1 ≤ 0,5914
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul 0,4268 ≤ 𝛽1 ≤ 0,5914, vor include valoarea reală a lui 𝛽1.
Intervalul [0,4268; 0,5914] acoperă valoarea reală a parametrului 𝛽1 cu o probabilitate de 95%.
Se poate testa dacă 𝛽1 = 0 privind la intervalul de încredere pentru 𝛽1 şi observând dacă acesta conţine
valoarea zero. Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽1 ≠ 0. Spunem că:
„Factorul X are putere explicativă semnificativă pentru Y” sau „𝛽1 este semnificativ diferit de zero” sau
„𝛽1 este semnificativ statistic”.
Un interval de încredere 100(1-α)% pentru parametrul 𝜷𝟎 este de forma:
(𝛽̂0 − 𝑡𝛼 𝑠𝛽̂ ≤ 𝛽0 ≤ 𝛽̂0 + 𝑡𝛼
;𝑛−2 0
𝑠𝛽̂ ) ;𝑛−2 0
2 2
(24,4545 − (2,306)(6,4138); 24,4545 + 2,306(6,4138)) ⇒
9,6643 ≤ 𝛽0 ≤ 39,2448 ⇒ Interpretare...
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul [9,6643 ≤ 𝛽0 ≤ 39,2448], vor include valoarea reală a lui 𝛽0.

5
Intervalul [9,6643; 39,2448] acoperă valoarea reală a parametrului 𝛽0 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽0 ≠ 0.
Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
• Folosim testul t
• Folosim P-value
• Folosim intervalele de încredere

8. Calculaţi coeficientul liniar de corelaţie Pearson şi testaţi semnificaţia statistică a acestuia.


Se notează cu ρ coeficientul de corelaţie din colectivitatea generală.
Se notează cu r coeficientul de corelaţie liniara din esantion
1−𝑟 2
Media estimatorului r este ρ şi abaterea standard este 𝑠𝑟 = √ 𝑛−2
Coeficientul de corelaţie de selecţie caracterizează direcţia şi intensitatea legăturii liniare dintre două
variabile. Semnul acestui coeficient indică direcţia legături iar valoarea sa indică intensitatea legăturii.
𝑆𝑥𝑦 ∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = 𝑆 𝑆 = 2 2
= ∈ [−1, +1]
𝑥 𝑦 √[∑(𝑥𝑖 −𝑥̄ ) ][∑(𝑦𝑖 −𝑦̄ ) ] √[𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 ][𝑛 ∑ 𝑦𝑖2 −(∑ 𝑦𝑖 )2 ]
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑆𝑥𝑦 𝑆
𝛽̂1 = ∑(𝑥 2 = ⇒ 𝑟𝑥𝑦 = 𝛽̂1 𝑆𝑥 .
−𝑥̄ )
𝑖 𝑆 𝑥𝑥 𝑦

Rezultă că 𝑟𝑥𝑦 are acelaşi semn cu coeficientul de regresie 𝛽̂1.


𝑟 = 𝑟𝑥𝑦 = 0,9808 ⇒ există o legătură directă şi foarte puternică între cele două variabile analizate.

Testarea semnificaţiei coeficientului de corelaţie liniară se face utilizând testul t.


𝐻0 : 𝜌 = 0 (coeficientul de corelaţie 𝜌 nu este semnificativ statistic)
(între cele două variabile nu există o dependenţă liniară semnificativă)
𝐻1 : 𝜌 ≠ 0 ( coeficientul de corelaţie 𝜌 este semnificativ statistic).
(între cele două variabile există o dependenţă liniară semnificativă)

Statistica testului urmează o distribuţie Student cu (n-2) grade de libertate.


𝑟−0 𝑟
𝑡 = 𝑠 = √1−𝑟2 ⋅ √𝑛 − 2 ~ 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑟
Dacă 𝑡calculat > 𝑡critic , respingem 𝐻0 şi acceptăm 𝐻1 , adică 𝜌 este semnificativ statistic.
𝑡critic = 𝑡α/2,n-2 = 𝑡0,025;8 = 2,306
0,980847
𝑡calculat = ⋅ √10 − 2 = 14,25039
√1 − (0,980847)2
Doarece 14,25039 > 2,306, deci avem 𝑡calculat > 𝑡α/2;n-2 rezultă că
vom respinge 𝐻0 şi vom accepta 𝐻1 ;
⇒ Coeficientul de corelaţie liniara este semnificativ statistic.
⇒ Între cele două variabile există o dependenţă liniară semnificativă.

9. Raportarea rezultatelor analizei de regresie


𝑦̂𝑖 = 24,4545 + 0,5091 × 𝑥𝑖
𝑠𝑒 (6,4138) (0,0357) 𝑅 2 = 0,9621
𝑡 (3,8128) (14,2432) 𝑑𝑓 = 8
𝑝 (0,0051) (0,0000) 𝐹 = 202,8679

6
10. Să se previzioneze (prognozeze) cheltuielile de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Putem obţine estimaţii punctuale sau prin intervale de încredere
Se doreşte predicţia unei valori individuale
𝑦̂𝑝 = 𝛽̂0 + 𝛽̂1 𝑥𝑝 = 24,4545 + 0,5091 ⋅ 280 = 167,0025 mii lei
este o estimaţie (predicţie) a valorii individuale 𝑦𝑝 = 𝛽0 + 𝛽1 𝑥𝑝 + 𝜀𝑝

Un Interval de încredere pentru predicţia valorii individuale 𝑦𝑝 este de forma :


1 (𝑥𝑝 − 𝑥̄ )2
𝑦̂𝑝 ± 𝑡𝛼/2,𝑛−2 ⋅ √𝑠𝑒2 (1 + + )
𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (7,8634) 
148,8695 ≤ (𝑦𝑝 |𝑥𝑝 = 280) ≤ 185,1355

11. Să se previzioneze (prognozeze) cheltuielile medii de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Suntem în situaţia de a prognoza 𝐸(𝑌|𝑋 = 𝑥𝑝 ) = 𝛽0 + 𝛽1 𝑥𝑝
Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
𝑦̂𝑝 este un estimator (predictor) al mediei condiţionate 𝐸(𝑌|𝑋 = 𝑥𝑝 ).
O estimaţie punctuală a previziunii mediei este
𝑦̂𝑝 = 𝛽̂0 + 𝛽̂1 𝑥𝑝 = 24,4545 + 0,5091 ⋅ 280=167,0025 mii lei

Un Interval de încredere pentru predicţia mediei condiţionate este de forma :


1 (𝑥𝑝 − 𝑥̄ )2
𝑦̂𝑝 ± 𝑡𝛼/2,𝑛−2 ⋅ √𝑠𝑒2 ( + )
𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (4,4356)
156,7741 ≤ 𝐸(𝑌|𝑥𝑝 = 280) ≤ 177,2310
Dacă obţinem intervale de încredere 95% pentru fiecare X dat, vom obţine, ca interval de încredere, o
bandă de încredere pentru funcţia de regresie a populaţiei.

Observaţie: Se obţine un interval de lungime mai mare pentru 𝑦𝑝 decât pentru 𝐸(𝑌|𝑥𝑝 ). Banda de
încredere este mai mică atunci când valoarea lui 𝑥𝑝 = 𝑥𝑛+1 se apropie de media de selecţie 𝑥̄ .

S-ar putea să vă placă și