Sunteți pe pagina 1din 16

Regresie si corelatie

suport
Cursurile 8 si 9
Introducere
• În multe decizii din domeniul economic este necesară predicţia
valorilor unor anumite variabile. Variabilele economice, fenomenele
social-economice în general, nu evoluează independent; ele sunt în
legătură cu alte variabile economice. Acest lucru dă posibilitatea ca,
utilizând cunoştinţele privind nivelurile unor variabile, să poată fi
prognozat nivelul altei variabile, cu care acestea se află într-o
anumită dependenţă.
• Regresia ne arată cum o variabilă este dependentă de altă variabilă
(sau de alte variabile).
Corelaţia ne arată gradul în care o variabilă este dependentă de o altă
variabilă (sau alte variabile).
• ! ! ! Se studiază dependenţa dintre o variabilă (caracteristică)
rezultativă (y) şi una sau mai multe variabile (caracteristici)
independente (x).
Caracteristica rezultativă se mai numeşte caracteristica dependentă,
endogenă sau efect, iar caracteristica independentă se mai numeşte
caracteristica factorială, exogenă sau cauză.

2
Clasificarea legăturilor statistice
Legăturile statistice se pot clasifica după mai multe criterii şi anume:
I. după numărul caracteristicilor independente luate în studiu:
1. legături simple când se studiază dependenţa dintre o caracteristică
dependentă (y) şi o caracteristică independentă (x).
2. legături multiple când se studiază dependenţa dintre o caracteristică
dependentă (y) şi două sau mai multe caracteristici independente (x1,
x2…xi…xn).
II. după direcţia legăturilor, acestea pot fi:
1 - legături directe când caracteristica dependentă se modifică în acelaşi sens
cu caracteristica independentă: dacă x creşte, y creşte; dacă x scade, y scade.
2 - legături inverse când caracteristica dependentă se modifică în sens invers
modificării caracteristicii independente. Dacă x creşte, y scade; dacă x scade, y
creşte.
III. după expresia analitică a legăturilor, acestea pot fi:
1 - legături liniare - acele dependenţe care pot fi exprimate cu ajutorul funcţiei
liniare.
2 - legături neliniare (curbilinii) - acele dependenţe care pot fi exprimate cu
ajutorul funcţiilor neliniare (parabolă, hiperbolă, funcţie exponenţială etc.).
3
Metode de studiere a legaturilor statistice
• In analiza calitativa, care precede aplicarea metodelor specific
corelatiei statistice, e necesar sa se cunoasca forma de manifestare a
legaturii si posibilitatea reflectarii acesteia prin functii matematice.
• 1. Metoda seriilor statistice – procedeu care consta in asezarea in
paralel a seriilor de date statistice in ordinea raportului de
dependenta dintre acestea.
• 2. Metoda grafica – consta in realizarea reprezentarii grafice care se
numeste corelograma (scatter); da posibilitatea stabilirii a existentei,
formei, sensului si intensitatii legaturii
• 3. Metoda gruparii statistice – asezarea in paralel a caracteristicii
rezultative si a celei factoriale, dupa care se face gruparea, da
posibilitatea stabilii unei eventuale legaturi intre variable
• 4. Metoda tabelului de corelatie - un tabel cu dublă intrare, ce
prezintă o grupare a unităţilor unei colectivităţii în funcţie de două
caracteristici: una dependentă şi alta independentă. Se foloseşte în
special în cadrul unui număr mare de observaţii. În funcţie de modul
de distribuţie a frecvenţelor în tabel se apreciează existenţa legăturii.

4
Regresia liniara simpla

Etapele construirii modelului de regresie:


• 1. identificarea modelului - faza descriptiva, in care se identifica
dependentele si tipurile de relatii care apar intre variabile
• 2. specificarea – etapa in care se cauta cea mai potrivita forma de
exprimare a legaturii
• 3. estimarea parametrilor modelului
• 4. testarea semnificatiei parametrilor estimati (testul t Student)
• 5. validarea modelului (testul F Fisher)
• 6. utilizarea modelului de regresie pentru simulare si predictie

5
Regresia liniara simpla
• În cazul regresiei liniare simple vom considera o funcţie liniară pentru
exprimarea legăturii dintre cele două variabile:
𝑦ෝ𝑖 = 𝑎 + 𝑏𝑥𝑖
Interpretarea parametrilor modelului
• Parametrul a exprimă valoarea lui y când x=0, deci este intersecţia
dreptei cu axa OY. Interpretarea din punct de vedere economic a lui a
se realizează în strânsă legătură cu problema practică analizată.
• Parametrul b este numit coeficient de regresie.
- dacă b>0 legătura este directă;
- Daca b=0 nu exista legatura intre variabile;
- dacă b<0 legătura este inversă.
! ! ! Mărimea coeficientului b (panta dreptei cu sens geometric) arată
cu cât se modifică in medie y (cu cat creste – daca b>0; cu cat scade –
daca b<0) când variabila x creste cu o unitate.

6
Regresia liniara simpla
• Estimarea parametrilor a şi b se realizează cu ajutorul metodei celor mai mici
pătrate (MCMMP), pe baza perechilor de valori (Xi,Yi) observante într-un eşantion
de volum n.
• Pentru ca functia de regresie aleasa sa fie cu adevarat semnificativa trebuie sa se
minimizeze suma 2
patratelor abaterilor valorilor estimate de la valorile reale:
𝑚𝑖𝑛 σ 𝑦𝑖 − 𝑦ෝ𝑖 . Aceasta conditie se verifica atunci cand se anuleaza derivatele
partiale in raport cu cei doi parametrii.
2
𝑚𝑖𝑛 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖

𝜕𝑓 2 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −1 = 0 𝑛𝑎 + 𝑏 ෍ 𝑥𝑖 = ෍ 𝑦𝑖
=0
𝜕𝑎 → →
𝜕𝑓
=0 2 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −𝑥𝑖 = 0 𝑎 ෍ 𝑥𝑖 + 𝑏 ෍ 𝑥𝑖2 = ෍ 𝑥𝑖 𝑦𝑖
𝜕𝑏
de unde:
σ 𝑦𝑖 σ 𝑥𝑖
∆𝑎 σ 𝑥𝑖 𝑦𝑖 σ 𝑥𝑖2 σ 𝑥𝑖2 σ 𝑦𝑖 −σ 𝑥𝑖 σ 𝑥𝑖 𝑦𝑖
• 𝑎= = =
∆ 𝑛 σ 𝑥𝑖 𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2
σ 𝑥𝑖 σ 𝑥𝑖2

𝑛 σ 𝑦𝑖
∆𝑏 σ 𝑥𝑖 σ 𝑥𝑖 𝑦𝑖 𝑛 σ 𝑥𝑖 𝑦𝑖 −σ 𝑥𝑖 σ 𝑦𝑖
• 𝑏= = =
∆ 𝑛 σ 𝑥𝑖 𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2
σ 𝑥𝑖 σ 𝑥𝑖2

7
Corelatia liniara simpla
• Scopul analizei corelatiei este sa masoare gradul in care o variabila este
dependenta de un sau mai multe variabile independente. Acesta poate fi
estimate cu ajutorul marimii abaterilor valorilor empirice 𝑦𝑖 fata de
𝑦𝑖 .
functia de regresie, respective de valorile teoreticeෞ

• Exista doua cazuri particulare extreme:


1) Cazul in care imprastierea punctelor in corelograma este atat de mare
incat dreapta de regresie are panta 0 si este paralela cu abscisa –
acesta e cazul lipsei totale de corelatie intre variable
2) Cazul in care punctele corelogramei se gasesc pe dreapta de regresie,
adica valorile empirice coincide cu cele estimate – acesta e cazul unei
corelatii perfecte intre variabile

8
Corelatia liniara simpla
• Un caz general, în care punctele empirice nu se află pe linia de
regresie: 𝑦ෝ𝑖

B
A
C
𝑦ത

• Se observa ca variatia totala a variabilei dependente fata de media sa are


doua componenete: A = B + C
𝑦𝑖 − 𝑦ത = (𝑦𝑖 −𝑦ෝ𝑖 ) + (𝑦ෝ𝑖 − 𝑦)

variatia totala a lui y fata de medie =
variatia neexplicata de regresie + variatia explicate de regresie

9
Corelatia liniara simpla
Aceste abateri ne permit să calculăm următoarele dispersii:

σ 𝑦𝑖 − 𝑦ത 2 σ 𝑦𝑖 − 𝑦ෝ𝑖 2 σ 𝑦ෝ𝑖 − 𝑦ത 2
= +
𝑛 𝑛 𝑛
2 2
𝜎𝑦2 = 𝜎𝑦/𝑟 + 𝜎𝑦/𝑥

𝜎𝑦2 - dispersia totala a lui y (𝜎 2 ) sau varianta totala, care exprimă


influenţa tuturor factorilor asupra variabilei y
2
𝜎𝑦/𝑟 - dispersia reziduala (𝛿 2 ) varianta neexplicata de regresie, care
exprima influenta factorilor reziduali, neexplicati de model, asupra lui y
2
𝜎𝑦/𝑥 - dispersia explicata de regresie (𝜎 2 ) sau varianta explicata de
model, care exprima influenta variabilei independente x asupra
variabilei dependente y

10
Corelatia liniara simpla
Pentru caracterizarea intensitatii legaturii dintre variabilele x si y se
folosesc indicatorii:
1 – coeficient de determinare (R Square) exprima cat din variatia lui y este
explicata de variatia lui x
2 2
𝜎𝑦/𝑥 σ 𝑦ෝ𝑖 − 𝑦ത
𝑅2 = =
𝜎𝑦2 σ 𝑦𝑖 − 𝑦ത 2

𝑅2 ∈ 0,1 ; cu cat e mai apropiata de 1 cu atat partea din variatia lui y,


explicata de x, este mai mare si deci intensitatea legaturii dintre variabile este
mai puternica
2 – raportul de corelatie (Multiple R) se obtine ca radacina patrata din
coeficientul de determinare
σ 𝑦ෝ𝑖 − 𝑦ത 2
𝑅= 2
σ 𝑦𝑖 − 𝑦ത
𝑅2 ∈ 0,1 ; cu cat valoarea este mai apropiata de 1 legatura este mai
puternica, cu cat este mai aproape de 0 legatura este mai slaba.
Sensul legaturii se stabileste in functie de semnul coeficientului de regresie b.
! ! ! Raportul de corelatie depinde de ecuatia de regresie si deci de valorile
ajustate.
11
Corelatia liniara simpla
3 – coeficientul de corelatie (correlation) se determina ca medie
aritmetica simpla a produselor abaterilor normate, ale valorilor
variabilelor x si y, de la mediile lor
𝑥 − 𝑥ҧ 𝑦 − 𝑦ത
σ
𝜎𝑥 𝜎𝑦 σ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ത 𝑐𝑜𝑣 𝑥, 𝑦
𝑟𝑥𝑦 = = =
𝑛 𝑛𝜎𝑥 𝜎𝑦 𝜎𝑥 𝜎𝑦
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
=
𝑛 σ 𝑥2 − σ 𝑥 2 ∙ 𝑛 σ 𝑦2 − σ 𝑦 2

𝑟𝑥𝑦 ∈ −1,1 ; cu cat valoarea este mai apropiata de 1 sau -1 legatura este mai
puternica, cu cat este mai aproape de 0 legatura este mai slaba.
• coeficientul de corelaţie indică sensul legăturii dintre cele două variabile fără a
mai fi nevoie să facem referire la coeficientul de corelatie b
• coeficientul de corelaţie nu necesită calculul prealabil al funcţiei de regresie (cum
este necesar dacă vrem să determinăm raportul de corelaţie)
Observaţie: coeficientul de corelaţie se calculează numai în cazul legăturilor liniare!
• Raportul de corelaţie se poate calcula în cazul oricărui tip de legătură. Deci,
în cazul legăturii liniare 𝑅 = 𝑟𝑥𝑦 .
• Dacă cei doi indicatori nu sunt egali, înseamnă că legătura nu este liniară şi
trebuie determinat raportul de corelaţie.
12
Inferenta statistica in cadrul modelului liniar
Parametrii modelului, şi deci modelul în ansamblu sunt obţinuţi pe baza
datelor dintr-un eşantion de observaţii (n<30). De aceea este necesară
verificarea rezultatelor obţinute prin teste statistice.
1. Validarea modelului de regresie
Pentru a verifica din punct de vedere statistic, modalitatea în care modelul
specificat reuşeşte să conducă la reconstituirea valorilor empirice 𝑦ෝ𝑖 prin
valorile teoretice se foloseşte Testul F (Fisher).

Variabila F se defineste ca raport de dispersii:


𝑠𝑦2
𝐹𝑐𝑎𝑙𝑐 = 2
𝑠𝑢
si urmeaza o distributie F cu k-1 si n-k grade de libertate.
unde:
k – numarul parametrilor modelului (in cazul modelului unifactorial k = 2)
n – numarul de observatii din esantion

13
Inferenta statistica in cadrul modelului liniar
Analiza dispersionala pentru validarea modelului (ANOVA)

Variatia Suma patratelor Grade de libertate Dispersia


(SS) (df) (MS)
Explicata de model k-1 σ 𝑦ෝ𝑖 − 𝑦ത 2
2
(Regression)
෍ 𝑦ෝ𝑖 − 𝑦ത 𝑠𝑦2 =
𝑘−1
Neexplicata n-k σ 𝑦𝑖 − 𝑦ෝ𝑖 2
2
(Residual)
෍ 𝑦𝑖 − 𝑦ෝ𝑖 𝑠𝑢2 =
𝑛
Total 2 n-1 -
෍ 𝑦𝑖 − 𝑦ത

Pentru un anumit nivel de semnificatie 𝛼, corespunzator gradelor de


libertate, se determina din tabelul functiei F valoarea teoretica
𝐹𝛼,𝑘−1,𝑛−𝑘 . Daca:
• 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼,𝑘−1,𝑛−𝑘 modelul este validat
• 𝐹𝑐𝑎𝑙𝑐 < 𝐹𝛼,𝑘−1,𝑛−𝑘 modelul nu este validat

14
Inferenta statistica in cadrul modelului liniar
2. Testarea semnificatiei estimatorilor parametrilor functiei de regresie
• 𝑏෠ este estimator al parametrului b din functia de regresie
Variabila t (Student):
𝑏෠ − 𝑏
𝑡= 𝑠𝑢
σ 𝑥 2 − 𝑛𝑥ҧ
Variabila t urmeaza o distributie Student cu n-2 grade de libertate.
Pentru un nivel de semnificatie 𝛼 se determina valoarea teoretica 𝑡𝛼,𝑛−2
2
Intervalul de incredere pentru parametrul b este:
𝑠𝑢

𝑏 ± 𝑡𝛼,𝑛−2
2 σ 𝑥 2 − 𝑛𝑥ҧ

15
Inferenta statistica in cadrul modelului liniar
• 𝑎ො este estimator al parametrului a din functia de regresie
Variabila t are forma:
𝑎ො − 𝑎
𝑡=
1 𝑥2
𝑠𝑢 +
𝑛 σ 𝑥𝑖 − 𝑥ҧ 2
iar pentru un nivel de semnificatie 𝛼, intervalul de incredere pentru
parametrul a este
1 𝑥2
𝑎ො ± 𝑡𝛼,𝑛−2 𝑠𝑢 + 2
2 𝑛 σ 𝑥𝑖 − 𝑥ҧ

16

S-ar putea să vă placă și