Sunteți pe pagina 1din 8

TESTAREA PARAMETRILOR MODELULUI DE REGRESIE LINIARĂ

Un model de regresie liniară Y(X) se analizează pe baza conceptelor și a relațiilor


cauză-efect și se acceptă X ca factor esential sau se respinge și se trece în categoria
factorilor întâmplători prin intermediul variabilei aleatoare u.
Variabilele explicative Xk depind de datele statistice, de cantitatea și de calitatea
acestora.

Testarea coeficienților modelului de regresie multiplă presupune ca fiecare


variabilă independentă Xi să fie testată dacă se află în relaţie liniară cu variabila
predictibilă Y.

Pentru testarea semnificației coeficienților de regresie multiplă se poate folosi


şi deviaţia standard a fiecărui coeficient.

EROAREA STANDARD DE ESTIMARE

În regresia multiplă acuratețea estimației este cu atât mai mare cu cât dispersia
este mai mare.
Eroarea standard de estimare (eroarea rădăcinii pătrate medii) se calculează cu
relaţia:

 Y  Yˆ 
2

s 
n  k 1

Y valorile de sondaj ale variabilei dependente;


Yˆ valorile estimate corespunzătoare ale ecuației de regresie multiplă;
n reprezintă numărul de date;
k reprezintă numărul de variabile independente.

Folosind eroarea standard de estimare şi distribuţia t, corespunzătoare


numărului de grade de libertate n-k-1, se poate aproxima intervalul de încredere pentru
valorile Yˆ .
COEFICIENTUL DE DETERMINARE

Pentru a măsura intensitatea corelației dintre variabile modelului economic se


folosește coeficientul de determinare (determinație multiplă) ( R 2 ), care sintetizează o
parte din variația totală a variabilei dependente Y, explicată prin ecuația de estimare.
Rădăcina pătrată a coeficientului de determinare ( R ) este numită coeficient de
corelație multiplă și reprezintă proporția din variația totală a lui Y explicată prin planul
de regresie.

Coeficientul de determinare se calculează cu relația:

 Y  Y    Y  Yˆ 
2 2

R 2

 Y  Y 
2

Coeficientul de determinare ajustat pentru numărul gradelor de libertate ia în


considerare mărimea eșantionului şi numărul de variabile independente.

R 2

 Y  Yˆ  / n  k  1
i i
2

 Y  Y  /n  1
ajustat 2

Eroarea standard de estimare și coeficientul de determinare sunt folosite pentru


estimarea modelelor de regresie multiplă.
.

ANALIZEI VARIANŢEI

Analiza varianței este folosită atât pentru estimarea parametrilor modelului de


regresie liniară, cât şi pentru testarea utilității modelului.

În tabelul nr.1 sunt prezentați indicatorii analizei varianței pentru testarea


utilităţii modelului de regresie multiplă.
Tabelul 1. Analiza varianţei
Sursa variaţiei Nr. gradelor de Suma pătratelor Media sumelor Testul F
libertate abaterilor pătratelor

Regresie K SSR SSR MSR


variația MSR  F
k MSE
explicată prin
regresie
Rezidual n-k-1 SSE SSE
variația MSE 
n  k 1
neexplicată prin
regresie
Total n-1 SST
Variația totală a
caracteristicii Y

Variaţia totală a caracteristicii Y - SST

SST   Y  Y  este compusă din:


2

 SSR variaţia explicată prin regresie


SSR   Yˆ  Y  2

 SSE partea din variația totală neexplicată prin regresie


SSE   Y  Yˆ .
2

SST = SSR + SSE

MEDIA SUMELOR PĂTRATELOR

SSR
MSR 
k

SSR - variația explicată prin regresie


k - nr. variabilelor independente

SSE
MSE 
n  k 1

SSE - partea din variația totală neexplicată prin regresie


n-k-1- grade de libertate
NUMĂRUL GRADELOR DE LIBERTATE

Fiecare din aceste sume are asociat un anumit număr de grade de libertate:

 SST are n-1 grade de libertate (n observaţii, dar s-a pierdut un grad de
libertate deoarece media sondajului este fixă),
 SSR are k grade de libertate (are k variabile independente care explică
variaţia caracteristicii Y)
 SSE are n-k-1 grade de libertate (cele n observaţii sunt folosite pentru a
estima k+1 constante).

Dacă valoarea SSR este mare comparativ cu SSE, coeficientul de determinare


(R2) este mare şi indică alegerea unui model bun.

Dacă valoarea SSE este mare, cea mai mare parte a variației variabilei
dependente Y a rămas neexplicată, ceea ce ne arată că nu a fost ales cel mai adecvat
model.

Ipotezele ce trebuie testate sunt.


H 0 : 1   2  ...   k  0
H A : cel puţin un  i nu este egal cu 0.
Dacă ipoteza nulă este adevărată, niciuna dintre variabilele independente ale
modelului de regresie liniară X1, X2,...,Xk nu este corelată liniar cu variabila dependentă
Y şi modelul are o utilitate scăzută.
Dacă cel puţin un parametru  i este diferit de zero, modelul are utilitate.

Dacă valorea SSR este suficient de mare faţă de SSE pentru a conduce la
concluzia că cel puţin unparametru  i este diferit de zero se calculează raportul mediei
pătratelor, testul F.

Testul t aplicat coeficienţilor individuali permite să se determine dacă  i  0


(pentru i=1, 2,..., k), ceea ce ne arată dacă există sau nu o legătură liniară între
variabilele Xi şi Y.

TESTUL FISHER

Testul F din analiza varianței testează în același timp toți coeficienții  i pentru
a stabili dacă cel puțin unul dintre ei nu este egal cu zero.

În condițiile ipotezei nule H0, se demonstrează că statistica F, calculată în tabelul


ANOVA, este repartizată Fisher-Snedecor , astfel încât se poate verifica ipoteza nulă.
Nerespingerea ipotezei nule duce la concluzia că datele observate nu permit
identificarea unui model liniar valid, deci regresia nu este adecvată în scopul de
prognoză, propus inițial.
Pentru validarea modelului de regresie se calculează raportul F.

Raportul Fisher se calculează cu relaţia:

F = MSR/MSE

SSR / k
F
SSE / n  k  1

SSR - variația explicată prin regresie


SSE - partea din variația totală neexplicată prin regresie
k - nr. variabilelor independente
n-k-1- grade de libertate

O valoare mare a lui F arată că cea mai mare parte a variaţiei variabilei Y este
explicată prin variația variabilei X şi modelul este valid.

O valoare mică a lui F arată că cea mai mare parte a variabilei Y a rămas
neexplicată.
Aria de respingere permite să se stabilească dacă F este suficient de mare pentru
a justifica respingerea ipotezei Ho.
Aria de respingere a ipotezei H0 este dată de relația:

Fcalculat > Fα, k, n-k-1

Fα, k, n-k-1 -Ftabelar

Dacă Fcalculat >Ftabelar se respinge ipoteza H0 şi se trage concluzia că regresia pe


ansamblu este semnificativă.

Significance F – este probabilitatea critică unilaterală.

Dacă valoarea afișată este mai mică decât pragul de semnificație fixat, atunci se
respinge ipoteza nulă H0 în favoarea ipotezei alternative H1.

Dacă valoarea Significance F este mai mică decât nivelul de semnificație ales
atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza
dependenţei dintre cele două variabile.
EVALUAREA MODELELOR DE REGRESIE MULTIPLĂ
Tabelul nr. 2. Legătura dintre testul F, R 2 şi s  .
SSE s R2 F Evaluarea
modelului
0 0 1 ∞ perfect
mică Mică aproape de 1 mare bun
mare Mare aproape de 0 mică slab
SSy 0 0 nu există
SS y
* corelație liniară
n  k 1

SSE - suma pătratelor abaterilor valorilor variabilei dependente de la


valorile ajustate
s  eroarea standard de estimare (eroarea rădăcinii pătrate medii)
R 2 este coeficientul de determinare
F statistica Fisher.

În reprezentarea grafică, unele puncte se vor situa deasupra planului de regresie,


iar altele sub planul de regresie.

TESTAREA VARIABILEI INDEPENDENTE

Test t
În situația când este respinsă ipoteza nulă H0, se acceptă că ecuația de regresie
este semnificativă la nivel global, cu mențiunea că s-ar putea ca anumiți coeficienți să nu
fie semnificativi.
Pentru testarea fiecărui coeficient se utilizează un test t cu ipotezele:
H0: αi= 0
H1: αi ≠ 0.

În condiţiile ipotezei nule H0 se demonstrează că raportul dintre coeficient şi


eroarea standard a coeficientului urmează o repartiție Student cu (n – p) grade de libertate
b
to  i
sbi
bi - coeficientul de regresie (parametrul estimat)
sbi - abaterea standard estimată a coeficientului,

Nerespingerea ipotezei nule H0 arată că datele experimentale nu permit stabilirea


necesității prezentei variabilei Xi în model, variabila este nesemnificativă în model din
punct de vedere statistic.
Ecuaţia care descrie modelul de regresie multiplă:

Y  A  B1 X 1  B2 X 2  ...  Bk X k  

 este o perturbare aleatoare cu media zero, eroarea standard a perturbaților individuale


 e și eroarea standard de estimare s  (este un estimator a lui   ).

Y depinde de Xi dacă Bi  0
Y nu depinde de Xi dacă Bi  0 .

Testarea variabilei independente


Ipotezele sunt:
H 0 : Bi  0  ipoteza nulă: Xi nu este o variabilă independentă semnificativă;
H 1 : Bi  0  ipoteza alternativă: Xi este o variabilă independentă
semnificativă.

tc valoare „critică”
b
Raportul i valoare t „observată” sau „calculată” şi se notează cu t0
sbi

A testa dacă variabila Xi este o variabilă independentă semnificativă înseamnă


a verifica dacă:

 tc  t0  tc

tc sau ttabelar reprezintă valoarea corespunzătoare a lui t, cu n-k-1 grade de libertate pentru
nivelul de semnificaţie al testului;
b
t o  i reprezintă valoarea calculată a lui t (tcalc)
sbi

Valoarea calculată tcalculat se compară cu cea tabelară ttabelar stabilită probabilistic


pentru un nivel de semnificație P=1-s/2 și cu n-k-1 grade de libertate.

Dacă tcalculat < ttabelar se acceptă ipoteza H0 şi Xi nu este o variabilă independentă


semnificativă din punct de vedere statistic.
Dacă tcalculat > ttabelar se respinge ipoteza H0 şi putem concluziona că Xi este o
variabilă independentă semnificativă din punct de vedere statistic.

În orice problemă de regresie multiplă se analizează dacă valoarea lui R 2


indică în mod real faptul că variabilele independente explică variația lui Y, dacă
regresia este semnificativă.
Se va formula o problemă de testare care să evidenţieze că toate variabilele Xi
luate împreună sunt semnificative pentru explicarea variabilităţii caracteristicii Y.

Utilitatea principală a modelului liniar este prognozarea valorilor variabilei


dependente Y. Valoarea prognozată se obține prin modelul estimat utilizând datele
experimentale.
Repartiția de sondaj a valorii prognozate stă la baza determinării intervalelor de
încredere pentru valorile prognozate.

BIBLIOGRAFIE

Biji, E.M., Statistică aplicată în economie, Editura UNIVERSAL DALSI,


Bucureşti, 2000

S-ar putea să vă placă și