Sunteți pe pagina 1din 15

Regresie liniară

Conf. univ. dr. Costel Ionașcu


Craiova, 2020
Populație (Mulțime de elemente)
Conține N elemente.
Eșantion 2 Ex: Mulțimea tuturor consumatorilor de energie electrica
𝒚𝒊 𝒄𝟎 𝒄𝟏 ⋅ 𝒙𝒊 𝒆𝒊 din România
𝒚𝒊 𝜷𝟎 𝜷𝟏 ⋅ 𝒙𝒊 𝜺𝒊
Caracteristici (variabile) ale elementelor
multimii ce prezintă interes pentru noi în
cercetare
Consum en. el. azi Y

Consum en. el. ieri X1

Tip client X2
(casnic, firma)
Loc de consum ‐ X3
pozitie
Temperatura azi X4

Nebulozitate azi X5

… …

sezon Xn

Eșantion 1
Exemplu contine n emenete: Ex. doar consumatorii CEZ
𝒚𝒊 𝒃𝟎 𝒃𝟏 ⋅ 𝒙𝒊 𝒆𝒊
Specificarea econometrică a modelului

Ecuația reală a modelului


𝒚𝒊 𝜷𝟎 𝜷𝟏 ⋅ 𝒙𝒊 𝜺𝒊 𝑖 1,2 …

𝑦 𝐸𝑌𝑥 𝜀

𝜀 𝑦 𝐸𝑌𝑥 𝑦 𝛽 𝛽 ⋅𝑥

Ecuația modelului estimată pe baza unui eșantion


𝑦 𝑏 𝑏 ⋅𝑥 𝑒 𝑖 1,2 … 𝑛 unde:
𝒚𝒊 ‐ estimația lui 𝒚𝒊
b0 ‐ estimatorul lui 𝜷𝟎
𝑒 𝑦 𝑦 𝑦 𝑏 𝑏 ⋅𝑥 b1 ‐ estimatorul lui 𝜷𝟏
𝒆𝒊 ‐ estimația lui 𝜺𝒊
n ‐ volumul eșantionului
Dreapta de regresie reală și
dreapta de regresie determinată pe baza unui eșantion oarecare

P(Y|xi)

Y 𝑁 𝛽 𝛽 ⋅ 𝑥 ,𝜎
𝑦 𝑏 𝑏 ⋅𝑥

𝐸 𝑌|𝑥 𝛽 𝛽 ⋅𝑥

x1 x2 x3
Ipoteze care stau la baza modelului de regresie liniară

i1. Liniaritatea modelului. Modelul poate fi scris ca o funcție liniară.

𝒇 𝒚𝒊 𝜷𝟎 𝜷𝟏 ⋅ 𝒈 𝒙𝒊 𝜺𝒊 𝑦 𝛽 ⋅𝑥
𝑙𝑛 𝑦 ln 𝛽 𝛽 ln 𝑥

i2. Ipoteze cu privire la eroarea 𝜺𝒊


‐ eroarea este aditivă 𝑦 ℎ⋅𝑥 ⋅𝑘
i2.a. Speranța matematică a erorii este 0. 𝐄 𝜺𝒊 𝟎 ∀𝒊
e
40.00
30.00
20.00
10.00
0.00 x
20 30 40 50 60 70 80 90
‐10.00
‐20.00
Ipoteze care stau la baza modelului de regresie liniară
i2. Ipoteze cu privire la eroarea 𝜺𝒊
i2.b. Distribuția de probabilități a erorii este independentă de valorile lui X, adică
realizările lui 𝜺𝒊 au o dispersie constantă:
Var 𝜺𝒊 𝑬 𝜺𝒊 𝑬 𝜺𝒊 𝟐
𝑬 𝜺𝟐𝒊 𝝈𝟐 𝒄𝒐𝒏𝒔𝒕𝒂𝒏𝒕 ∀𝒊 (homoscedasticitate)

în contrast cu situația 𝐸 𝜀 𝜎 𝐸𝜀 𝜎 , pentru 𝑖 𝑗 (heteroscedasticitate)


40

20
20

0
e
e
0

-20
-20

-40

0 50 100 150 200 250 0 50 100 150 200 250

x x
dispersie constantă dispersie variabilă
homoscedasticitate heteroscedasticitate
Ipoteze care stau la baza modelului de regresie liniară
i2. Ipoteze cu privire la eroarea 𝜺𝒊
i2.c. Erorile reprezintă o secvență de variabile aleatoare necorelate între ele (nu
sunt autocorelate):
Cov 𝜺𝒊 , 𝜺𝒋 𝑬 𝜺𝒊 𝑬 𝜺𝒊 𝜺𝒋 𝑬 𝜺𝒋 𝑬 𝜺𝒊 ⋅ 𝜺𝒋 𝟎, ∀𝒊 𝒋

8
6
40

4
20

2
e
e

0
0

-2
-4
-20

-6

0 50 100 150 200 250 0 50 100 150 200 250 300

x x

erori care nu sunt erori autocorelate


autocorelate
Ipoteze care stau la baza modelului de regresie liniară
i2. Ipoteze cu privire la eroarea 𝜺𝒊
i2.d. Erorile 𝜺𝒊 urmează o lege de distribuție normală cu medie 0 și dispersie 𝝈𝟐
𝜺𝒊 ~𝑵 𝟎, 𝝈𝟐 )
sau ținând cont de independența lor reciprocă 𝑬 𝜺𝒊 ⋅ 𝜺𝒋 𝑬 𝜺𝒊 ⋅ 𝑬 𝜺𝒋 𝟎
𝜺𝒊 ~𝑰𝑵 𝟎, 𝝈𝟐 )

200
150

100
100

Histograma erorilor
50

0
0
e

-50

-100
-100
-150

-200
0 50 100 150 200 250 300
0 20 40 60 80 100
Frecvente
x
Ipoteze care stau la baza modelului de regresie liniară

i3. Ipoteze privind natura regresandului (Y) și a regresorului (X)


‐ Y are caracter stochastic indus de 𝜀

‐ X este non‐stochastic (valorile sale pot fi fixate cu precizie) ‐ joacă rolul unui
parametru constant din partea condițională a distribuției de probabilități a
variabilei Y ale cărei realizări au media condiționată:

𝐸𝑦 𝑥 𝐸𝛽 𝛽 ⋅𝑥 𝜀 𝛽 𝛽 ⋅𝑥 𝐸𝜀 𝛽 𝛽 ⋅𝑥

și dispersia condiționată egală cu dispersia 𝜎 a erorilor (conform i2.b’)

𝑉𝑎𝑟 𝑦 𝑥 𝑉𝑎𝑟 𝛽 𝛽 ⋅𝑥 𝜀 𝑉𝑎𝑟 𝜀 𝜎


Ipoteze care stau la baza modelului de regresie liniară

i3. Ipoteze privind natura regresandului (Y) și a regresorului (X)


‐ Presupunem că primele două momente empirice variabilei X reprezintă
cantități finite, atunci când numărul n al observațiilor devine foarte mare.

∑ 𝑥
𝑥̅ 𝑥̅𝟎 ∞
𝑛 →

∑ 𝑥 𝑥̅
𝜎 ∞
𝑛 →

i4. Valorile xi ale variabilei X sunt necorelate cu erorile 𝜺𝒊


𝐶𝑜𝑣 𝑥 , 𝜀 𝐸 𝑥 ⋅𝜀 𝑥 ⋅𝐸 𝜀 0
Determinarea coeficienților de regresie folosind
Metoda Celor Mai Mici Pătrate Ordinare
(CMMPO)
Când ipotezele anterior prezentate sunt satisfăcute de către datele observate (înregistrate)
pentru X și Y, atunci estimatorii b0 , b1 ai parametrilor necunoscuți 𝛽 și 𝛽 pot fi determinați
cu din condiția de minimizare a sumei pătratelor erorilor reziduurilor ei.

𝑒 𝑦 𝑏 𝑏 ⋅𝑥

𝑒 𝑦 𝑏 𝑏 ⋅𝑥

arg min 𝐹 𝑏 , 𝑏 arg min 𝑦 𝑏 𝑏 ⋅𝑥


Determinarea coeficienților de regresie folosind
Metoda Celor Mai Mici Pătrate Ordinare
(CMMPO)

b0 b1

 
Determinarea coeficienților de regresie folosind
Metoda Celor Mai Mici Pătrate Ordinare
(CMMPO)
Sub ipotezele anterioare teorema Gauss‐Markov asigură optimalitatea estimatorilor b0, b1
astfel determinați. Altfel spus, dintre toți estimatorii liniari nedeplasați aceștia au cea mai
mică dispersie, adică sunt B.L.U.E. (“Best Liniar Unbiased Estimators”‐ cei mai buni estimatori
liniari nedeplasați) ai parametrilor 𝛽 și 𝛽 .

arg min 𝐹 𝑏 , 𝑏 arg min 𝑦 𝑏 𝑏 ⋅𝑥

Formulată ca o problemă de optimizare, determinarea lui b0 și b1 face apel la condițiile


necesare de ordinul I.

𝜕𝐹 𝑏 , 𝑏
2⋅ 𝑦 𝑏 𝑏 ⋅𝑥 2⋅ 𝑒 0
𝜕𝑏

𝜕𝐹 𝑏 , 𝑏
2⋅ 𝑦 𝑏 𝑏 ⋅𝑥 ⋅𝑥 2⋅ 𝑥 ⋅𝑒 0
𝜕𝑏
Determinarea coeficienților de regresie folosind Metoda
Celor Mai Mici Pătrate Ordinare (CMMPO)
Din condițiile necesare de ordinul I se poate deduce următorul sistem de ecuații normale:

𝑏 ⋅𝑛 𝑏 ⋅ 𝑥 𝑦

𝑏 ⋅ 𝑥 𝑏 ⋅ 𝑥 𝑥 ⋅𝑦

𝑛 𝑥 𝑦 𝑥 𝑛 𝑦
Δ Δ Δ
𝑥 𝑥 𝑥 ⋅𝑦 𝑥 𝑥 𝑥 ⋅𝑦

Δ Δ
𝑏 𝑏
Δ Δ
Determinarea coeficienților de regresie folosind
Metoda Celor Mai Mici Pătrate Ordinare
(CMMPO)
Pentru modelul liniar condițiile suficiente de ordinul II sunt satisfăcute în mod implicit:

𝜕 𝐹 𝑏 ,𝑏
2𝑛 0
𝜕𝑏

𝜕 𝐹 𝑏 ,𝑏 𝜕 𝐹 𝑏 ,𝑏
𝜕𝑏 𝜕𝑏 𝜕𝑏 2𝑛 2∑𝑥
0
𝜕 𝐹 𝑏 ,𝑏 𝜕 𝐹 𝑏 ,𝑏 2∑𝑥 2∑𝑥
𝜕𝑏 𝜕𝑏 𝜕𝑏

S-ar putea să vă placă și