Sunteți pe pagina 1din 18

UNIVERSITATEA ROMÂNO-AMERICANĂ

FACULTATEA de INFORMATICĂ MANAGERIALĂ


Programul de licență: INFORMATICĂ ECONOMICĂ
Disciplina: ECONOMETRIE
Anul II - semestrul 2 / 2016-2017

III. MODELE ECONOMETRICE DE REGRESIE UNIFACTORIALĂ

MODELUL UNIFACTORIAL DE REGRESIE REGRESIA LINIARĂ

Definiție, specificare, identificare

Deseori, apare necesitatea de a explica și controla, pe cât posibil, fenomenele și procesele din
economie, care pot reflecta situații mai mult sau mai puțin favorabile. De aceea, se elaborează
o serie de instrumente eficiente cu ajutorul cărora să explicăm situațiile existente și să
eliminăm (sau eventual să diminuăm) efectele nedorite ce pot apărea într-un anumit context
economic.

Modelul econometric este o verigă intermediară între teorie și practică, o imagine simplificată
a realității economice, ale cărei componente principale sunt exprimate sintetic printr-un set de
variabile, precum și prin relațiile (intercondiționările) dintre aceste variabile.

În plus, modelele econometrice pot servi la analiza și a altor aspecte ale realității economice,
precum:
- identificarea și măsurarea efectului întârziat al unor factori economico-sociali;
- previzionarea evoluției unor fenomene;
- oscilațiile sistematice, sezoniere sau ciclice;
- simularea și prognoza proceselor economico-sociale;
- identificarea și măsurarea acțiunii unor variabile dihotomice, alternative sau binare.

1
Legăturile care există între două variabile statistice pot fi studiate folosind două tehnici:
- corelația – va arăta cât de puternică este legătura, dependența dintre variabile;
- regresia – va ajuta în explicarea și previzionarea unui factor pe baza valorii altuia
(altora). În sens statistic, termenul „regresie” îi aparține statisticianului englez
Francis Galton (1822-1911).

Există 3 scopuri principale, atunci când analizăm legăturile dintre variabile statistice:
- să descriem și să înțelegem relațiile de dependență;
- să previzionăm o nouă valoare a variabilei efect;
- să ajustăm și să controlăm variabila efect, prin intervenția asupra variabilei cauză.

Un studiu econometric începe cu o serie de presupuneri teoretice despre anumite aspecte ale
economiei.

Definim modelul unifactorial de regresie printr-o relație matematică construită pe baza


teoriei economice, care presupune că fenomenul economic Y (fenomenul efect) este rezultatul
acțiunii a două categorii de factori:
- prima, constituită dintr-un singur factor principal, esențial, determinant – X;
- a doua – formată din toți ceilalți factori – considerați neesențiali, cu acțiune
întâmplătoare (specificați prin variabila reziduală 𝜀 ) sau constantă, invariabilă, asupra
lui Y (și deci nu au sens a fi specificați în model).

Specificarea modelului unifactorial constă în precizarea variabilei endogene Y și a celei


exogene X, pe baza teoriei economice; ca orice ipoteză teoretică, ea poate fi adevărată sau
falsă.
𝑦 = 𝑓(𝑥) + 𝜀

Identificarea modelului constă în alegerea unei funcții (sau a unui grup de funcții)
matematice, cu ajutorul căreia se urmărește descrierea valorilor variabilei endogene, doar în
funcție de variația variabilei exogene X. Identificarea modelului se poate face prin:
- procedeul grafic;
- procedeul conservării ariilor;
- procedeul calculelor algebrice.

2
Una dintre funcțiile matematice utilizate cel mai des este funcția liniară. Relația dintre
variabila efect (Y) și variabila cauză (X) studiată de regresia simplă liniară într-o populație
statistică generală poate fi descrisă prin modelul probabilistic liniar:

𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖
în care:
 (𝑥𝑖 , 𝑦𝑖 ) reprezintă valorile numerice ale variabilelor cauză (X) și efect (Y), înregistrate
la nivelul unității statistice „i”;

 𝛼 , 𝛽 reprezintă parametrii ecuației de regresie (în literatura de specialitate se mai


notează 𝛽0 și 𝛽1);

𝛼 reprezintă punctul de intersecție al dreptei de regresie cu axa Oy;

𝛽 reprezintă panta dreptei, se mai numește și „coeficient de regresie” și arată


cu câte unități de măsură se modifică Y, dacă X se modifică cu o unitate de măsură.

 𝜀𝑖 reprezintă componenta reziduală (eroare aleatoare) pentru unitatea statistică “i”.

După cum se observă, modelul probabilistic conține:

- componenta deterministă, adică partea din valoarea lui 𝑦𝑖 , care poate fi determinată
cunoscând valoarea 𝑥𝑖 (𝛼 + 𝛽𝑥𝑖 = 𝑦̂𝑖 );

- componenta reziduală este partea din valoarea lui 𝑦𝑖 , care nu poate fi determinată
cunoscând valoarea individuală 𝑥𝑖 (𝜀𝑖 ).

Atunci: 𝑦𝑖 = componenta predictibilă (deterministă) + eroarea aleatoare

sau 𝑦𝑖 = 𝑦̂𝑖 + 𝜀𝑖 .

3
Dacă datele disponibile provin dintr-un eșantion (așa cum se întâmplă în cele mai multe
cazuri), avem la dispoziție n perechi de observații (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ), iar modelul
de regresie liniară în eșantion este:

𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑒𝑖

cu componenta predictibilă:
𝑦̂𝑖 = 𝑎 + 𝑏𝑥𝑖

unde a și b sunt estimatorii punctului de intercepție (𝛼) și ai pantei liniei de regresie (𝛽),
obținuți pe eșantion, iar 𝑒𝑖 , estimatorul componentei reziduale, 𝜀𝑖 .

Ipotezele modelului de regresie liniară

Pentru a obține proprietățile dorite ale estimatorilor regresiei, se fac, de obicei, șase
presupuneri (ipoteze) standard pentru modelul din populația generală.

Ipotezele ce trebuie verificate sunt formulate astfel:


1. Forma funcțională: 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖 , 𝑖 = ̅̅̅̅̅
1, 𝑛
2. Media zero a erorilor: 𝐸(𝜀𝑖 ) = 0, (∀) 𝑖 = ̅̅̅̅̅
1, 𝑛
3. Homoscedasticitatea: 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡ă (∀) 𝑖 = ̅̅̅̅̅
1, 𝑛
4. Non-autocorelarea erorilor: 𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0 (∀) 𝑖 ≠ 𝑗
5. Necorelarea între regresor și erori: 𝐶𝑜𝑣(𝑥𝑖 , 𝜀𝑗 ) = 0 (∀) 𝑖 ș𝑖 𝑗
6. Normalitatea erorilor: 𝜀𝑖 ∈ 𝑁(0, 𝜎 2 )

1. Forma funcțională

Ipoteza de liniaritate nu este atât de restrictivă pe cât pare. Aceasta se referă la felul în care
parametrii intră în ecuație, nu neapărat la relația dintre variabilele X și Y.

4
În exemplele următoare:
 𝑦 = 𝑎 + 𝑏𝑥
 𝑦 = 𝑎 + 𝑏𝑧, 𝑧 = 𝑒 𝑥
1
 𝑦 = 𝑎 + 𝑏𝑟, 𝑟 = 𝑥

 𝑦 = 𝑎 + 𝑏𝑞, 𝑞 = ln 𝑥

s-a procedat la transformarea variabilei X în vederea liniarizării modelelor.


Același lucru se poate întâmpla și cu variabila Y, așa cum este cazul modelului:

𝑦 = 𝐴𝑥 𝛽 ⟹ ln 𝑦 = 𝛼 + 𝛽 ln 𝑥,

forma generală a acestuia fiind:


𝑓(𝑦𝑖 ) = 𝛼 + 𝛽𝑔(𝑥𝑖 ) + 𝜀𝑖
Există însă și modele ce nu pot fi liniarizate, cum este cel de forma:

1
𝑦=𝛼+
𝛽+𝑥

Ipoteza de liniaritate a modelului include și aditivitatea erorilor.


Modelul trebuie să fie de forma:
𝑦 = 𝛼 + 𝛽𝑥 + 𝜀

fie în variabilele inițiale, fie după ce au fost făcute transformările potrivite.

De exemplu, modelul:
𝑦 = 𝐴𝑥 𝛽 𝑒 𝜀

se transformă prin logaritmare în modelul liniar:

ln 𝑦 = ln 𝐴 + 𝛽 ln 𝑥 + 𝜀

Însă modelul 𝑦 = 𝐴𝑥 𝛽 + 𝜀 nu mai poate fi transformat în model liniar.

5
Dacă ipoteza de liniaritate este verificată, variabila dependentă observată este suma a două
elemente:
- componenta predictibilă: 𝛼 + 𝛽𝑥
- o componentă aleatoare: 𝜀.

2. Media erorilor este zero: 𝐸(𝜀𝑖 ) = 0, (∀) 𝑖 = ̅̅̅̅̅


1, 𝑛 este naturală atâta timp cât 𝜀 este
văzută ca suma efectelor individuale, cu semne diferite. Această presupunere indică faptul
că media 𝑀(𝑌⁄𝑋 = 𝑥𝑖 ) = 𝛼 + 𝛽𝑥𝑖 , adică nu există variabile omise asociate cu regresia
în populație.

3. Ipoteza de homoscedasticitate: 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡ă (∀) 𝑖 = ̅̅̅̅̅


1, 𝑛.

Variabilele aleatoare 𝜀𝑖 au dispersia constantă, 𝜎𝜀2 , adică dispersia reziduurilor în populație


este constantă pentru toate valorile 𝑥𝑖 .

4. Non-autocorelarea erorilor: 𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0 (∀) 𝑖 ≠ 𝑗.

Această ipoteză nu implică faptul că 𝑦𝑖 și 𝑦𝑗 sunt necorelate, ci faptul că deviațiile


observațiilor de la valorile lor așteptate sunt necorelate.

5. Necorelarea între regresor și erori: 𝐶𝑜𝑣(𝑥𝑖 , 𝜀𝑗 ) = 0 (∀) 𝑖 ș𝑖 𝑗.

Chiar dacă valorile 𝑥𝑖 sunt numere fixate sau sunt variabile aleatoare, ele sunt statistic
independente de variabila aleatoare 𝜀𝑖 .

6. Normalitatea erorilor: 𝜀𝑖 ∈ 𝑁(0, 𝜎 2 )

De asemenea, este convenabil a considera că erorile sunt independente și normal


distribuite cu media zero și variație constantă pentru obținerea de rezultate statistice exacte.

6
Estimarea parametrilor modelului de regresie simplă liniară

Modelul de regresie liniară în eșantion este:

𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑒𝑖

cu componenta predictibilă 𝑦̂𝑖 = 𝑎 + 𝑏𝑥𝑖

unde a și b sunt coeficienții funcției de regresie, iar 𝑒𝑖 componenta reziduală (pentru unitatea
„i”) în eșantion.

Valoarea reziduală 𝑒𝑖 = 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 ) = 𝑦𝑖 − 𝑦̂𝑖

reprezintă o măsură a distanței de la punctul (𝑥𝑖 , 𝑦𝑖 ) la dreapta de regresie.

Procedeul de determinare a dreptei de regresie în eșantion urmărește să găsească valorile


coeficienților a și b astfel încât dreapta să treacă cât mai aproape posibil de toate punctele
observate.

Un criteriu pentru determinarea valorilor a și b este metoda celor mai mici pătrate
(MCMMP) - metoda minimizării sumei pătratelor reziduurilor (abaterilor, deviațiilor) 𝑒𝑖 .

Metoda urmărește:

𝑛 𝑛

[𝑚𝑖𝑛] ∑ 𝑒𝑖2 = [𝑚𝑖𝑛] ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 = [𝑚𝑖𝑛]𝑆(𝑎, 𝑏)


𝑖=1 𝑖=1

Condițiile de ordinul 1 de minimizare a funcției 𝑆(𝑎, 𝑏) sunt:

𝜕𝑆
=0 ∑𝑛 2(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )(−1) = 0 ∑𝑛 𝑦𝑖 − 𝑛𝑎 − 𝑏 ∑𝑛𝑖=1 𝑥𝑖 = 0
{𝜕𝑎 ⟹ { 𝑛𝑖=1 ⟹ { 𝑛 𝑖=1
𝜕𝑆
=0 ∑𝑖=1 2(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )(−𝑥𝑖 ) = 0 ∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑎 ∑𝑛𝑖=1 𝑥𝑖 − 𝑏 ∑𝑛𝑖=1 𝑥𝑖2 = 0
𝜕𝑏

7
Se obține sistemul de ecuații normale:

𝑛 𝑛

𝑛𝑎 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 𝑦𝑖
{ 𝑖=1 𝑖=1 𝑖=1

Δ𝑎
𝑎=
Δ
cu soluția { Δ𝑏 ,
𝑏= Δ

∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 𝑥𝑖 𝑛 ∑𝑛𝑖=1 𝑦𝑖 𝑛 ∑𝑛𝑖=1 𝑥𝑖


unde Δ𝑎 = | 2 |, Δ𝑏 = |∑𝑛 𝑛 |,Δ=| 𝑛 |.
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 𝑛
∑𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖 ∑𝑖=1 𝑥𝑖 𝑦𝑖 ∑𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑥𝑖2

Condiția de ordinul 2 (soluția găsită este un punct de minim), presupune construirea


matricei derivatelor parțiale de ordinul II a funcției 𝑆(𝑎, 𝑏), adică matricea hessiană:

𝑛
2 2
𝜕 𝑆 𝜕 𝑆 2𝑛 2 ∑ 𝑥𝑖
2
𝐻(𝑎, 𝑏) = 𝜕𝑎2
𝜕𝑎𝜕𝑏 =
𝑛
𝑖=1
𝑛
𝜕 𝑆 𝜕 2𝑆
(𝜕𝑏𝜕𝑎 𝜕𝑏 2 ) 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖2
( 𝑖=1 𝑖=1 )

Cum minorii principali ai matricei hessiene:

Δ1 = 2𝑛 > 0 și

Δ2 = 4𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − 4(∑𝑛𝑖=1 𝑥𝑖 )2 = 4𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 > 0 sunt strict pozitivi,

rezultă că matricea 𝐻(𝑎, 𝑏) este pozitiv definită, deci soluția anterioară (𝑎, 𝑏) este un punct
de minim pentru funcția 𝑆(𝑎, 𝑏).

8
Coeficientul a (intercepția) poate lua valori negative sau pozitive.

Coeficientul b (panta dreptei) numit și coeficient de regresie are întotdeauna semnul


covarianței dintre X și Y:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑐𝑜𝑣(𝑋, 𝑌) = 𝑆𝑋𝑌 =
𝑛

Deci 𝑏 > 0 indică o legătură directă,


𝑏 < 0 indică o legătură inversă,
𝑏 = 0 indică lipsă legătură liniară între variabilele X și Y.

În urma determinării coeficienților a și b (estimatorii parametrilor dreptei de regresie), se


calculează valorile ajustate date de:

𝑦̂𝑖 = 𝑎 + 𝑏𝑥𝑖 .

Vom obține astfel:


∑𝑛𝑖=1 𝑦𝑖 = ∑𝑛𝑖=1 𝑦̂𝑖 .

Dacă datele au fost sistematizate utilizând metoda grupării, iar valorile 𝑥𝑖 și 𝑦𝑖 se întâlnesc cu
frecvențele 𝑛𝑖 , atunci sistemul de ecuații normale, pentru determinarea coeficienților a și b,
devine:

𝑟 𝑟 𝑟

𝑎 ∑ 𝑛𝑖 + 𝑏 ∑ 𝑛𝑖 𝑥𝑖 = ∑ 𝑛𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑟 𝑟 𝑟

𝑎 ∑ 𝑛𝑖 𝑥𝑖 + 𝑏 ∑ 𝑛𝑖 𝑥𝑖2 = ∑ 𝑛𝑖 𝑥𝑖 𝑦𝑖
{ 𝑖=1 𝑖=1 𝑖=1

În urma ajustării vom obține:


𝑟 𝑟

∑ 𝑛𝑖 𝑦𝑖 = ∑ 𝑛𝑖 𝑦̂𝑖
𝑖=1 𝑖=1

9
În cazul în care datele au fost sistematizate într-un tabel cu dublă intrare, iar valorile 𝑥𝑖 și 𝑦𝑗
se întâlnesc cu frecvențele 𝑛𝑖𝑗 , sistemul devine

𝑟 𝑚 𝑟 𝑚

𝑎 ∑ ∑ 𝑛𝑖𝑗 + 𝑏 ∑ 𝑛𝑖∗ 𝑥𝑖 = ∑ 𝑛∗𝑗 𝑦𝑗


𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑟 𝑟 𝑟 𝑚

𝑎 ∑ 𝑛𝑖∗ 𝑥𝑖 + 𝑏 ∑ 𝑛𝑖∗ 𝑥𝑖2 = ∑ ∑ 𝑛𝑖𝑗 𝑥𝑖 𝑦𝑗


{ 𝑖=1 𝑖=1 𝑖=1 𝑗=1

unde: 𝑛𝑖∗ = ∑𝑚 𝑟
𝑗=1 𝑛𝑖𝑗 , 𝑛∗𝑗 = ∑𝑖=1 𝑛𝑖𝑗 .

În urma ajustării vom obține:

𝑚 𝑚

∑ 𝑛∗𝑗 𝑦𝑗 = ∑ 𝑛∗𝑗 𝑦̂𝑗


𝑗=1 𝑗=1

10
Coeficientul de corelație liniară

În cazul legăturii simple liniare, o măsură relativă a dependenței dintre două variabile o
constituie coeficientul de corelație. Acest indicator standardizează media produselor
abaterilor și caracterizează direcția (semnul lui) și intensitatea (valoarea lui) legăturii liniare.

Formula de calcul a coeficientului de corelație liniară este:

𝑐𝑜𝑣(𝑋, 𝑌) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) ∙ (𝑦𝑖 − 𝑦̅)


𝑟𝑋𝑌 = =
𝑆𝑋 𝑆𝑌 √[∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ] ∙ [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ]

Se demonstrează că 𝑟𝑋𝑌 ∈ [−1,1].

 𝑟 = 1 indică o corelație liniară directă și perfectă (funcțională);

 𝑟 = −1 indică o corelație liniară inversă, perfectă;

 𝑟 = 0 indică lipsa legăturii liniare dintre variabile.

Se observă că:

𝑆𝑋 ∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑟=𝑏∙ = 𝑏 ∙ √ 𝑛𝑖=1
𝑆𝑌 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2

Deci r are același semn cu b (coeficientul de regresie), deoarece 𝑆𝑋 , 𝑆𝑌 ≥ 0 .

11
Validarea modelului unifactorial de regresie liniară

Deoarece valorile previzionate pentru modelul de regresie depind de variația lui X, trebuie
verificat dacă variația lui X este un bun predictor pentru variația lui Y, adică presupune
validarea modelului de regresie obținut. Pentru atingerea acestui obiectiv se parcurg
următoarele etape:

I. Testarea validității modelului de regresie folosind metoda analizei de varianță


(ANOVA)
II. Determinarea și testarea semnificației raportului de corelație
III. Inferența statistică pentru parametrii modelului de regresie
IV. Verificarea ipotezelor modelului de regresie

I. Testarea validității modelului de regresie folosind metoda analizei de varianță


(ANOVA)

În aplicarea metodei regresiei sunt asociate variabilei dependente Y două medii:


∑𝑛
𝑖=1 𝑦𝑖
 media totală (𝑦̅ = );
𝑛

 media condiționată (𝑦̂𝑖 = 𝑎 + 𝑏𝑥𝑖 ).

Pe baza acestor două medii diferite, variația (abaterea) totală poate fi împărțită în:
 variația neexplicată de model (𝑦𝑖 − 𝑦̂𝑖 ) și
 variația explicată (𝑦̂𝑖 − 𝑦̅).

Prin urmare, obținem:


𝑦𝑖 − 𝑦̅ = (𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅)

Abaterea (𝑦𝑖 − 𝑦̂𝑖 ) nu poate fi explicată de linia de regresie, deoarece atunci când 𝑥𝑖 se
modifică, ambele valori 𝑦𝑖 și 𝑦̂𝑖 se modifică; în schimb, abaterea (𝑦̂𝑖 − 𝑦̅) poate fi explicată,
deoarece când 𝑥𝑖 se schimbă, 𝑦̅ rămâne constant.

12
Prin ridicarea la pătrat a fiecărei abateri și însumarea pentru toate observațiile, obținem:

𝑛 𝑛 𝑛

∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦̂𝑖 − 𝑦̅)2


𝑖=1 𝑖=1 𝑖=1

Vom nota:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = Δ2𝑦 = varianța totală (suma pătratelor abaterilor totale);

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 = Δ2𝑒 = varianța neexplicată, reziduală (suma pătratelor erorilor);

∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 = Δ2𝑦/𝑥 = varianța explicată (suma pătratelor abaterilor datorate regresiei).

Deci, varianța totală este egală cu varianța explicată de model plus varianța neexplicată
(reziduală):

𝚫𝟐𝒚 = 𝚫𝟐𝒚/𝒙 + 𝚫𝟐𝒆 .

În literatura de specialitate, precum și în pachetele de programe informatice specializate, se


utilizează următoarele notații echivalente:

SST = varianța totală = Δ2𝑦 ;


SSE = varianța neexplicată, reziduală = Δ2𝑒 ;
SSR = varianța explicată = Δ2𝑦/𝑥 .

Deci, SST = SSR + SSE.

13
Pentru calculul statisticii F (testul F), utilizată pentru testarea calității ajustării, folosim
tabelul ANOVA:

Suma pătratelor Grade de Media


Sursa variației (SS-Sum of Squares) libertate pătratelor Testul Fisher
(df-degree (MS-Mean of (testul F)
of freedom) Squares)
𝑛
Datorată 2
Δ2𝑦/𝑥
Δ2𝑦/𝑥 = ∑(𝑦̂𝑖 − 𝑦̅) 2 𝑆𝑦/𝑥 =
regresiei k 𝑘
𝑖=1
2
Reziduală 𝑛
𝑛−𝑘−1 Δ2𝑒 𝑆𝑦/𝑥
2
𝑆𝑒 = 𝐹𝑐𝑎𝑙𝑐 =
Δ2𝑒 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 𝑛−𝑘−1 𝑆𝑒2
𝑖=1
𝑛
Totală 𝑛−1 Δ2𝑦
Δ2𝑦 = ∑(𝑦𝑖 − 𝑦̅) 2 𝑆𝑦2 =
𝑛−1
𝑖=1

unde k reprezintă numărul variabilelor independente luate în considerare (pentru regresia


liniară simplă, 𝑘 = 1).

Pentru testarea validității modelului se formulează cele două ipoteze:


𝐻0 : model nevalid statistic, cu alternativa
𝐻1 : model valid statistic

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:

2
𝑆𝑦/𝑥
𝐹𝑐𝑎𝑙𝑐 =
𝑆𝑒2

Se compară valoarea calculată a testului F cu valoarea teoretică pentru un prag de


semnificație 𝛼 și k, respectiv (𝑛 − 𝑘 − 1) grade de libertate, preluată din tabelul repartiției
Fisher: 𝐹𝛼;𝑘;𝑛−𝑘−1 .

Dacă 𝑭𝒄𝒂𝒍𝒄 > 𝑭𝜶;𝒌;𝒏−𝒌−𝟏 se respinge 𝑯𝟎 , adică se concluzionează că modelul este valid.
Δ2𝑦
Estimatorul dispersiei variabilei Y este: 𝑆𝑦2 = 𝑛−1.

14
Estimatorul dispersiei reziduurilor se determină ca:

Δ2 ∑𝑛 ̂ 𝑖 )2
𝑖=1(𝑦𝑖 −𝑦
𝑆𝑒2 = 𝑛−𝑘−1
𝑒
= ,
𝑛−𝑘−1

unde: k reprezintă numărul variabilelor independente considerate, iar


(𝑛 − 𝑘 − 1) reprezintă numărul gradelor de libertate.

În cazul regresiei simple liniare, 𝑘 = 1 și (𝑛 − 𝑘 − 1) = 𝑛 − 2.

Se demonstrează că 𝑆𝑒2 este un estimator nedeplasat al dispersiei reziduurilor 𝜎𝜀2 .

Abaterea medie pătratică a erorilor în eșantion este:

Δ2𝑒 ∑𝑛 (𝑦𝑖 − 𝑦̂𝑖 )2


𝑆𝑒 = √ = √ 𝑖=1
𝑛−2 𝑛−2

Se poate presupune că cea mai mică valoare a lui 𝑆𝑒 este zero, care apare atunci când
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 = 0, adică punctele observate se situează exact pe linia de regresie.

Dacă 𝑺𝒆 este mică, ajustarea este foarte bună, iar modelul de regresie poate fi utilizat ca
un instrument efectiv de analiză și previzionare.

Este însă dificil de evaluat modelul doar utilizând 𝑆𝑒 , deoarece 𝑆𝑒 nu are o limită superioară
predefinită. Cu toate acestea, 𝑺𝒆 este util în compararea modelelor. Dacă avem la dispoziție
câteva modele dintre care trebuie să alegem, cel mai potrivit a fi utilizat este cel pentru care
𝑆𝑒 este mai scăzut.

15
II. Determinarea și testarea semnificației raportului de corelație

Raportul de corelație este un indicator relativ, utilizat atât pentru măsurarea intensității
legăturii dintre variabile, cât și pentru validarea modelelor de regresie.

Raportul de corelație se calculează ca:

∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2


𝑅= √ = √1 − 𝑛
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2

sau

Δ2𝑦/𝑥 Δ2𝑒
𝑅=√ = √1 −
Δ2𝑦 Δ2𝑦

Raportul de corelație ia valori cuprinse între 0 și 1 (𝑹 ∈ [𝟎, 𝟏]):

 𝑅 = 0 - când linia de regresie este situată pe nivelul mediu,


deci nu există legătură între variabile;

 𝑅 = 1 - când valorile observate se situează exact pe linia de regresie,


deci legătura este perfectă.

Cu cât valoarea indicatorului este mai apropiată de 1, cu atât legătura dintre variabile este
mai puternică. Valori apropiate de 0 ne indică legături de intensitate slabă între variabile.
Raportul de corelație este nul dacă toate mediile condiționate, adică 𝑦̂𝑖 , sunt egale între
ele.

16
Testarea semnificației raportului de corelație se face utilizând statistica F:

𝑛−𝑘−1 𝑅2
𝐹= ∙
𝑘 1 − 𝑅2

unde k reprezintă numărul variabilelor independente.

Dacă 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;𝑘;𝑛−𝑘−1 se acceptă ipoteza conform căreia variabila X are o influență
semnificativă asupra variabilei rezultative Y.

Pătratul raportului de corelație este coeficientul de determinație (𝑹𝟐 ), care arată


proporția din variația totală a variabilei dependente, explicată de variația variabilei
independente. Deci:

2
Δ2𝑦/𝑥 Δ2𝑒 ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2
𝑅 = = 1− 2 = 𝑛
Δ2𝑦 Δ𝑦 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2

sau
𝑆𝑆𝑅
𝑅2 = ∈ [0,1]
𝑆𝑆𝑇

Δ2𝑦/𝑥
Raportul reprezintă proporția variației totale, care este explicată de linia de regresie.
Δ2𝑦

Observații

 𝑹𝟐 = 𝟎 dacă 𝒃 = 𝟎, 𝒚 ̅, deci dacă ecuația de regresie este o dreaptă orizontală.


̂=𝒚
În acest caz variabila X nu are putere explicativă.

 𝑹𝟐 = 𝟏 dacă punctele determinate de observațiile făcute asupra variabilelor X și Y se


află toate pe o dreaptă, caz în care erorile vor fi zero.

 În cazul în care toate valorile lui Y se află pe o dreaptă verticală, 𝑅 2 nu are nicio
semnificație și nu poate fi calculat.

17
Coeficientul de determinație nu este ajustat cu gradele de libertate. Dacă utilizăm estimatorii
̅ 𝟐 ):
nedeplasați 𝑆𝑦2 și 𝑆𝑒2 , obținem valoarea ajustată a coeficientului de determinație (𝑹

Δ2𝑒
𝑅̅ 2 = 1 − 𝑛 − 𝑘2 − 1
Δ𝑦
𝑛−1

Valoarea lui 𝑅̅ 2 este întotdeauna mai mică decât valoarea lui 𝑅 2 .

Se remarcă faptul că raportul de corelație poate fi calculat numai după determinarea


modelului de regresie, spre deosebire de coeficientul de corelație, care poate fi utilizat pentru
măsurarea intensității legăturii dintre variabile înainte de a construi modelul.

De asemenea, raportul de corelație este potrivit a fi calculat atât în cazul legăturii de tip liniar,
cât și în cazul legăturilor neliniare, egalitatea

|𝑟| = 𝑅

fiind un test de liniaritate pentru model (unde r reprezintă coeficientul de corelație liniară
simplă la nivelul eșantionului).

18

S-ar putea să vă placă și