Documente Academic
Documente Profesional
Documente Cultură
1
Modelul de regresie liniară simplă
1. Noţiuni introduc7ve
2. Forma generală a modelului de regresie liniară
simplă
3. Ipoteze clasice formulate
4. Es7marea parametrilor modelului
5. Es7marea indicatorilor de corelaţie
6. Testarea modelului şi a parametrilor
7. Aplicaţii
2
1. Noţiuni introduc7ve
• Natura datelor: variabile numerice.
3
1. Noţiuni introduc7ve
Covariația
• Covarianța între două variabile aleatoare este o
măsură sta7s7că a gradului în care cele două
variabile se ”deplasează” împreună.
• Covarianța surprinde relația liniară între două
variabile.
• O covarianță pozi7vă indică faptul că variabilele 7nd
să se deplaseze împreună; o covarianță nega7vă
indică faptul că variabilele 7nd să se deplaseze în
direcții opuse.
4
1. Noţiuni introduc7ve
Covariația
• Covarianța la nivelul unui eșan7on se calculează
asPel:
5
1. Noţiuni introduc7ve
Covariația
• Dezavantaje ale indicelui de covarianță:
– Valoarea indicelui de covarianța nu este foarte semnifica7v, deoarece
măsurarea acestuia este extrem de sensibil la scara celor două
variabile.
– Covarianța poate varia de la -∞ la +∞ și este prezentată în termeni de
unități la pătrat (de exemplu, procente la pătrat atunci când datele
sunt exprimate în procente).
7
1. Noţiuni introduc7ve
Corelație
• Coeficientul de corelație la nivelul unui eșan7on, r,
pentru două variabile, X și Y, se calculează asPel:
8
1. Noţiuni introduc7ve
Corelație
• Coeficientul de corelație aparține intervalului [- 1;+1]
9
1. Noţiuni introduc7ve
Corelație
• Interpretarea coeficienților de corelație
10
1. Noţiuni introduc7ve
Iden7ficarea grafică a legăturii dintre variabile
- un grafic de 7p scafer plot este un grafic în care fiecare punct
reprezintă valorile cele două variabile (xi ,yi)
11
1. Noţiuni introduc7ve
Interpretarea grafică a indicelui de corelație
12
1. Noţiuni introduc7ve
Limite ale analizei de corelație
13
1. Noţiuni introduc7ve
Testarea indicelui de corelație
• Coeficientul de corelație [- 1;+1]
• Cu excepția limitelor extreme (r = ± 1,0), nu putem vorbi cu
adevărat despre puterea relației indicate de coeficientul de
corelație fără un test sta7s7c de semnificație.
• În acest scop, trebuie să testăm dacă corelația la nivelul
populației celor două variabile (ρ) este egală cu zero. Ipotezele
nulă și cea alterna7vă pot fi structurate ca un test de 7p:
14
1. Noţiuni introduc7ve
Testarea indicelui de corelație
• Presupunând că cele două variabile urmează o distribuție
normală, putem folosi un test de 7p t-test pentru a determina
dacă ipoteza nulă ar trebui să fie respinsă. Testul sta7s7c se
calculează u7lizând indicele de corelație la nivelul eșan7onului, r,
cu n - 2 grade de libertate (df):
15
1. Noţiuni introduc7ve
Variabile dependente și independente
• Scopul regresiei liniare simple este de a explica variația la nivelul
unei variabile dependente în relație cu variația unei singure
variabile independentă.
Yi = βo + β1 ⋅ Xi + εi , i = 1,..., n
• Pe baza acestui model de regresie, procesul de regresie es7mează
o ecuație pentru o linie printr-un grafic de 7p scafer plot a datelor
care explică "cel mai bine” valorile observate pentru Y in relație cu
valorilor observate pentru X.
• Ecuația liniară sau linia de regresie ia următoarea formă:
17
2. Regresia liniară simplă: Definiție
• Modelul de regresie liniară simplă explică Y in raport cu
variabila X
Constantă, Coeficientul de regresie,
Intercept panta parametrului,
Yi = βo + β1 ⋅ Xi + εi
Variabilă dependentă,
variabilă explicată, Termenul de eroare,
Variabilă independentă, disturbance,
variabilă de răspuns, variabilă explica7vă,
variabilă prezisă … unobservables,…
variabila predictor,
regresor, …
dacă
cov XY
β̂1 =
σ X2
20
Regresia liniară simplă: Interpretare
• Constanta, β̂ 0 , reprezintă valoarea punctul de intersecție al
dreptei de regresi cu axa-Y atunci când X=0
β̂ 0 = Y − β̂ 0 X
21
Regresia liniară simplă: Exemple
• Impactul u7lizării îngrășămintelor asupra producției agricole
Precipitațiile, temperatură,
calitate teren, prezența paraziților,…
23
Regresia liniară simplă: Exemple
• Relația dintre randamentul indicelui S&P 500 și randamentul
acțiunii ABC
24
2. Ipotezele clasice ale regresiei liniare
simple
• Analiza de regresie liniară presupune un număr de ipoteze
1. Există o relație liniară între variabila dependentă și variabila
independentă
2. Variabila independentă este necorelată cu termenul eroare
3. Valuarea es7mată a termenului eroare este zero Σ(ε ) = 0
4. Varianța termenului eroare este constant pentru toate observațiile
Σ(εi2 ) = σ ε2
5. Termenul eroare este independent distribuit – termenul eroare pentru
o observație nu este corelat cu termenul eroare pentru o altă
observație Σ(εiε j ) = 0, j ≠ i
2
6. Termenul eroare urmează o distribuție normală εi ~ N(0, σ )
25
Interpretarea coeficienților de regresie
• Valoarea es7mată a interceptului reprezintă valoare variabilei
dependente la punctul de intersecție al dreptei de regresie și
axa variabilei dependente.
• Cu alte cuvinte, interceptul este valoarea es7mată a variabilei
dependente atunci când variabila independentă ia valoarea
zero.
• Coeficientul de regresie es7mat poate fi interpretat ca
modificarea variabilei dependente la o modificare cu o
unitate a variabilei independente.
26
Eroarea standard a es7mației (SEE)
• SEE reprezintă abaterea standard a termenului eroare în
regresie. Se mai numeste abaterea standard a residurilor sau
eroarea standard a regresiei.
• Cu cât este mai mică SEE cu atât dreapta de regresie este mai
adecvată.
27
Raportul de determinație (R2)
• Măsoară gradul de corelaţie dintre variabile şi calitatea
ajustării norului de puncte prin dreapta de regresie (goodness
of fit).
28
Analiza varianței (ANOVA)
• ANOVA reprezintă o procedură sta7s7că pentru analiza
variabilității totale a variabilei dependente pe baza
următoarelor elemente:
– Variația totală (SST)
– Variația neexplicată(SEE)
29
Analiza varianței (ANOVA)
30
Analiza varianței (ANOVA)
31
Analiza varianței (ANOVA)
• R2 și SEE pot fi calculate direct din tabelul ANOVA
2 SST − SSE
R =
SST
SSE
SEE =
n−2
32
F-sta7s7cs
• F-test cuan7fică ”cât de bine” set-ul de variabile
independente, ca grup, explică variația la nivelul variabilei
dependente.
MSR RSS
F= =
MSE SSE
n−2
33
Limite ale analizei de regresie
• Relația liniară se poate modifica în 7mp. Aceasta înseamnă că
ecuația es7mată pe baza datelor istorice poate să nu fie
relavantă pentru prognoza aferentă perioadei viitoare.
34