Sunteți pe pagina 1din 5

CURS 4

2. ANALIZA CORELAȚIEI ÎN CAZUL MODELULUI LINIAR UNIFACTORIAL

Pentru a completa analiza legăturii dintre cele două variabile, este necesar să se determine
şi intensitatea acestei legături, ceea ce constituie obiectul analizei corelaţiei. Se utilizează o serie
de indicatori de corelaţie determinaţi pe seama seturilor de date aferente variabilelor respective.
Cel mai cunoscut indicator este coeficientul de corelație, care se calculează utilizând
covarianţa. Aceasta din urma se utilizează ca indicator intermediar în măsurarea intensităţii
legăturii liniare între două variabile x şi y şi cuantifică variaţia simultană a acestora, conform
relaţiei:
𝑛
1
𝑐𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅)
𝑛
𝑖=1

Vezi graficul de corelație și interpretarea de la cursul 2.


Covarianţa prezintă dezavantajul că nu poate fi utilizată direct pentru aprecierea intensităţii
legăturii deoarece nu este un indicator normalizat şi depinde de unităţile de măsură ale celor două
variabile.
Coeficientul de corelaţie liniară simplă (notat cu r sau ρ), propus de K. Pearson, are
următoarea relaţie de calcul:
𝑐𝑜𝑣(𝑋, 𝑌)
𝜌(𝑟) =
𝜎(𝑋)𝜎(𝑌)
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅)
𝜌(𝑟) =
√∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑌̅)2

𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖


𝜌(𝑟) =
√[𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2 ][𝑛 ∑𝑛𝑖=1 𝑦𝑖2 − (∑𝑛𝑖=1 𝑦𝑖 )2 ]

Coeficientul de corelaţie este o mărime adimensională, fapt pentru care unităţile de măsură
ale variabilei factoriale şi a celei rezultative nu influenţează analiza.
El oferă informaţii despre sensul şi intensitatea legăturii numai atunci când este vorba
despre legături liniare simple. Valoarea coeficientului de corelaţie se situează întotdeauna în
intervalul [–1, 1] şi are următoarele semnificaţii:
−dacă valoarea coeficientului de corelaţie tinde către 1, legătura dintre cele două variabile
este puternică şi directă;
−dacă valoarea coeficientului de corelaţie tinde către –1, legătura dintre cele două variabile
este puternică şi inversă;
−dacă valoarea coeficientului de corelaţie tinde către zero, între cele două variabile nu
există legătură liniară simplă.
Un alt indicator utilizat în analiza corelației este coeficientului de determinație (𝑅 2 ).
În cazul regresiei simple, determinarea sa este strâns legată de descompunerea varianţei
totale a variabilei rezultative(vezi cursul 3).
Coeficientul de determinație, ia valori între [0, 1] și ne arată cât la sută din variația
variabilei dependende se datorează variației variabilei independente.
Ca formulă de calcul se determină astfel :

2
∑𝑛𝑖=1(𝑦̂ − 𝑦̅)2
𝑅 = 𝑛
∑𝑖=1(𝑦 − 𝑦̅)2
Coeficientul de determinaţie este întotdeauna pozitiv și poate fi interpretat astfel:
− dacă 𝑅 2 are valori apropiate de 1, înseamnă că ponderea influenţei variabilei factoriale în totalul
variaţiei variabilei rezultative este mare, adică există o corelaţie puternică;
− dacă 𝑅 2 are valori apropiate de 0, acest lucru înseamnă că ponderea influenţei variabilei
factoriale în totalul variaţiei variabilei rezultative este mică şi corelaţia liniară este slabă sau chiar
inexistentă.
În cazul corelaţiei liniare simple, pătratul coeficientului de corelaţie este egal cu
coeficientul de de determinație:
(𝑟)2 =R2
3. VERIFICAREA STATISTICĂ A MODELULUI LINIAR UNIFACTORIAL
Orice procedură de estimare trebuie completată prin teste statistice. În fapt, rezultatele
obținute sunt estimatori, adică ele sunt de fapt variabile aleatoare și deci nu ne oferă nici o
certitudine asupra valorilor necunoscute ale parametrilor modelelor liniare. Voi prezenta succint
cele mai utilizate teste de evaluare a estimatorilor bazați pe metoda celor mai mici pătrate, și
anume:
• testul Fisher
• testul Student
• testul Jarque-Berra
• testul Durbin-Watson.
3.1 Testul Fisher
În cazul modelului liniar de două variabile, în procesul de formalizare a testului Fisher se
poate face apel la coeficientul de determinaµie R2. Este vorba de fapt de a testa nulitatea
parametrului b al modelului, dacă variabila factorială x influențează variabila rezultativă y.
Testul Fisher presupune parcurgerea următoarelor etape:
1. Se formulează ipoteza nulă, prin care se presupune că modelul construit este irelevant,
b=0.
Ipoteza alternativă a acestui test presupune că y este influențat de x.
2. Se stabilește nivelul de semnificație al testului 𝛼 = 1 − 𝑝
3. Se determină valoarea calculată a testului:
𝑛−𝑘−1 𝑅2 (𝑛 − 2) ∗ 𝑅 2
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = ∗ =
𝑘 1 − 𝑅2 1 − 𝑅2

- k reprezintă numărul de variabile independente.

4. Din tabelele aferente repartiției Fisher se extrage valoarea critică(tabelară) specifică


testului în funcție de probabilitatea 𝑝, 𝑘 (numărul de variabile factoriale) și 𝑛 − 𝑘 − 1
grade de libertate:
𝐹𝑐𝑟𝑖𝑡𝑖𝑐 (𝑝, 𝑘, 𝑛 − 𝑘 − 1)
5. Se compară valoarea calculată cu valoarea critică și putem avea:
a) dacă 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 < 𝐹𝑐𝑟𝑖𝑡𝑖𝑐 , se acceptă ipoteza nulă și putem spune cu probabilitatea 𝑝
că variabila factorială x nu influențează semnificativ variabila y;
b) dacă 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 > 𝐹𝑐𝑟𝑖𝑡𝑖𝑐 , se respinge ipoteza nulă și putem spune cu probabilitatea
𝑝 că variabila factorială x influențează semnificativ variabila y.
3.2 Testul Student
Întrebarea care se pune este de a ști dacă trebuie inclus în model atât termenul constant cât
și variabila x sau, în alți termeni, dacă în realitate coeficienții a și b sunt sau nu diferiți de zero.
In prima etapa vom calcula erorile standard ale lui 𝑎̂ și 𝑏̂. Acestea depind de eroarea
standard a variabilei reziduale, dată de urmatoarea relație:

∑𝑛𝑖=1(𝑦 − 𝑦̂)2
𝑠ℇ = √
𝑛−𝑘−1

Unde:
- k reprezintă numărul de variabile independente.
- 𝑠ℇ - abaterea medie patratică a variabilei reziduale sau eroare standard, reprezintă distanța medie
la care se află valorile estimate ale variabilei dependente față de valorile reale ale acesteia.
In cazul regresiei liniare simple avem evident k = 1, deoarece avem o singură variabila
independenta.

∑𝑛𝑖=1 𝑥𝑖2
𝑠𝑎̂ = 𝑠ℇ × √
𝑛 × ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2

𝑛
𝑠𝑏̂ = 𝑠ℇ × √
𝑛× ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2

𝑠𝑎̂ , 𝑠𝑏̂ - se numesc abaterile standard ale coeficienților estimați și reprezintă distanța medie la care
se află valorile estimate ale coeficienților față de valorile lor reale.
Aceste erori trebuie să fie cât mai mici.
Aceste afirmatii pot fi verificate statistic cu ajutorul testului Student.
Etapele Testului Student :
1. stabilim ipoteza nulă conform căreia H0 : a=0 și b =0
2. stabilim probabilitatea, respectiv nivelul de semnificație al testului (α), α=1-p
3. determinăm valorile calculate ale testului :
|𝑎̂|
𝑡𝑎̂ =
𝑠𝑎̂
|𝑏̂|
𝑡𝑏̂ =
𝑠𝑏̂
4.Din tabelele repartiției Student se determină valoare tabelară(critică) 𝑡𝑡 a testului în
funcție de probabilitatea(p) sau α/2 și n-1 grade de liberatate.
5. Dacă 𝑡𝑎̂ , 𝑡𝑏̂ < 𝑡𝑡 atunci ipoteza nula se accepta, adică se afirma cu probabilitatea p că
cei doi coeficienți sunt în realitate nuli.
Dacă 𝑡𝑎̂ , 𝑡𝑏̂ > 𝑡𝑡 atunci ipoteza nula se respinge, adică se admite cu probabilitatea p că cei doi
coeficienți sunt în realitate nenuli.

S-ar putea să vă placă și