Sunteți pe pagina 1din 5

CURS 3

Regresia simplă (unifactorială)

Regresia unifactorială descrie legătura dintre 2 variabile y si x considerând că


ceilalţi factori au o acţiune constantă asupra caracteristicii dependente y.

Funcţia de regresie:

Y x =a+bx i
i

a,b = parametrii necunoscuţi;


a = are caracter de mărime medie - valoarea sa arată la ce nivel ar fi ajuns
valoarea caracteristicii Y dacă toţi factorii ar fi avut o acţiune constanta asupra
formarii ei;
b = coeficientul de regresie, exprimă în sens geometric panta liniei drepte. Arată
cu cât se schimbă în medie variabila Y în cazul în care variabila X se schimbă cu
o unitate.

În funcție de semnul coeficientului de regresie putem aprecia tipul de legătură:


b>0, legătura de corelaţie este directă ( pe măsură ce cresc valorile lui x, cresc
valorile ecuaţiei de regresie calculate);
b=0, cele 2 variabile sunt independente;
b<0, legătura este de sens invers, pe măsură ce cresc valorile lui x, scad valorile
ecuaţiei de regresie calculate).

Pentru a determina parametrii a şi b se utilizează metoda celor mai mici pătrate.


Conform acestei metode, pentru ca funcţia de regresie să fie semnificativă,
trebuie să îndeplinească următoarea condiţie:

∑( yi –Y x ¿2 = min
i

În cazul modelului liniar, condiţia este:

∑[ yi –(a+bxi)]2 = min

Derivând în raport cu a şi b obţinem sistemul de ecuaţii normale:

na+b ∑ x i=∑ y i
{∑
a x i+ b ∑ x2i =∑ x i y i
Pentru a măsura legătura dintre cele 2 variabile putem utiliza următorii
indicatori:

 Coeficientul de corelaţie liniară simplă

n ∑ x i y i −∑ x i ∑ y i
r y / x= ∈[−1,1]
2 2
√[ n ∑ x −(∑ x ) ] [n ∑ y −(∑ y ) ]
2
i i
2
i i

Între -1 şi 0, legătura dintre cele 2 variabile este de sens invers şi este cu atât mai
intensă, cu cât se apropie de -1.
Între 0 şi 1, legătura dintre cele 2 variabile este directă şi este cu atât mai
intensă, cu cât se apropie de 1.

 Raportul de corelaţie

∑ ( y i −Y x )2
R y / x=
√ 1−
∑ ( y i −ý ¿)2
∈[0,1]¿
i

Cu cât valoarea raportului este mai apropiată de 1, cu atât legătura de corelaţie


este mai puternică şi invers.

Aplicaţie:

Se cunosc următoarele date:


Numă Vechimea în Timpul nelucrat
r muncă (ani) (minute)
curent xi yi
1 7 2
2 6 1
3 5 3
4 4 3
5 3 5
6 3 6
7 2 7
8 2 5
Total 32 32

Se cere:
1. Să se argumenteze existenţa, direcţia şi forma legăturii folosind o metoda
simplă corespunzătoare;
2. Calculaţi si argumentați parametrii funcției de regresie;
3. Calculaţi valorile teoretice sau ajustate;
4. Măsuraţi intensitatea legăturii prin indicatori statistici.

Rezolvare:

- variabila independentă x: vechimea în muncă


- variabila dependentă y : timpul nelucrat

Pentru a aprecia forma legăturii este necesar să se traseze graficul corelaţiei:

Figura 1. Corelaţia dintre vechimea în muncă şi timpul


nelucrat
8
timpul nelucrat (minute)

7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8
vechimea în muncă (ani)

Din figura 1 reiese că între vechimea în muncă şi timpul nelucrat există o


legătură de sens invers, de tip liniar.

Sistemul de ecuaţii normale necesar pentru aflarea parametrilor a şi b ai funcţiei


liniare este:

na+b ∑ x i=∑ y i
{ ⇔ 8 a+32 b=32
a ∑ x i+ b ∑ xi =∑ x i y i 32a+ 152b=104
2 {
cu soluţiile:

a = 8; b=- 1

Parametrul b arată o corelaţie inversă între vechimea în muncă şi timpul


nelucrat. Dacă vechimea creşte cu 1 an, atunci timpul nelucrat scade cu 1 minut.

Valorile teoretice ale timpului nelucrat (Y x i) se vor calcula înlocuind fiecare i

valoare a variabilei independente xi în funcţia de regresie:

^y i= 8- xi
Coeficientul de corelaţie liniară simplă

n ∑ x i y i −∑ x i ∑ y i 8∙ 104−32∙ 32 832−1024
r y / x= = 2 2
= =
i i
2
√[ n ∑ x −(∑ x ) ] [n ∑ y −(∑ y ) ]
2 2
i i
2
√(8∙ 152−32 )(8 ∙158−32 ) √(1216−1024)(1264−1024)

Valoarea coeficientului arată că este vorba de o legătură lineară inversă


puternică ( este apropiată de -1) între vechimea în muncă şi timpul nelucrat.

Raportul de corelaţie

∑ ( y i −Y x )2
R y / x=
√ 1−
∑ ( y i −ý ¿)2
= i

√ 1−
6
30
=√ 0,8=0,89¿

ý=
∑ y i = 32 =4
n 8

Raportul de corelaţie indică o legătură puternică între vechimea în muncă şi


timpul nelucrat.

Deoarece ry/x=Ry/x →se confirmă liniaritatea legăturii.

Pentru a afla în ce proporţie timpul nelucrat depinde de vechimea în muncă se


calculează coeficientul de determinaţie:

R y / x 2=( R y/ x )=0,892=¿0,8 sau 80%

Numă Vechimea în Timpul


r muncă (ani) nelucrat xiy (yi - ý )2
y i=8−x i
^ xi 2 yi2 ( y i−Y x )2
curent xi (minute) i i
(yi - 4)2
yi
1 7 2 1 49 14 4 1 4
2 6 1 2 36 6 1 1 9
3 5 3 3 25 15 9 0 1
4 4 3 4 16 12 9 1 1
5 3 5 5 9 15 25 0 1
6 3 6 5 9 18 36 1 4
7
SUMMARY OUTPUT
2 7 6 4 14 49 1 9
8 2 5 6 4 10 25 1 1
Total 32
Regression Statistics 32 32 152 104 158 6 30
Multiple R 0.894427191
R Square 0.8
Rezolvare folosind EXCEL:
Adjusted R Square 0.766666667
Standard Error 1
Observations 8

ANOVA
df SS MS F Significance F
Regression 1 24 24 24 0.002713682
Residual 6 6 1
Total 7 30

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 8 0.889756521 8.991223791 0.000106 5.822844224 10.17715578 5.822844224 10.17715578
Vechimea în muncă (ani) -1 0.204124145 -4.898979486 0.002714 -1.49947379 -0.50052621 -1.49947379 -0.50052621
Modelul este valid statistic, deoarece valoarea calculată a testului F este 24,
pentru un nivel de semnificaţie (Significance F) <0,05, el explicând 80% din
variaţia timpului nelucrat. Raportul de corelaţie (R=0,89) indică o legătură
puternică între variabila dependentă „timpul nelucrat” şi variabila independentă
„vechimea în muncă”. Trebuie notat că vechimea în muncă are o influenţă
inversă asupra timpului nelucrat. Dacă vechimea creşte cu 1 an, atunci timpul
nelucrat scade cu 1 minut. Parametrii modelului sunt semnificativi statistic (P-
value<0,05). Semnificaţia statistică a acestora este indicată şi de faptul că
limitele inferioare şi superioare ale intervalelor de încredere au acelaşi semn.

Bibliografie

Vătui M., Voineagu V., Lilea E., Goschin Z., Isaic Maniu I., Danciu A., Tudose
D., Statistică. Teorie şi aplicaţii, Editura ASE, Bucureşti, 2006

Probleme propuse

 Să se analizeze dependenţa dintre suprafaţa cultivată cu sfeclă de zahăr


şi producţia de sfeclă de zahăr în Spania şi Italia, în perioada 2001-2019
cu ajutorul unui model de regresie, utilizând EXCEL.

S-ar putea să vă placă și