Sunteți pe pagina 1din 12

REGRESIE SI CORELATIE

Legăturile care există între două variabile statistice pot fi studiate folosind două
tehnici: regresia şi corelaţia. Corelaţia va arăta cât de puternică este legătura, dependenţa
dintre variabile, în timp ce regresia va ajuta în explicarea şi previzionarea unui factor pe
baza valorii altuia (altora), ceea ce, evident, va reduce incertitudinea privitoare la fenomene
importante, dar aleatoare. În sens statistic, termenul regresie îi aparţine statisticianului
englez F. Galton (1822-1911).
Există trei scopuri principale, atunci când analizăm legăturile dintre variabile statistice:

• să descriem şi să înţelegem relaţiile de dependenţă;


• să prognozăm o nouă valoare a variabilei efect;
• să ajustăm şi să controlăm variabila efect, prin intervenţia asupra variabilei cauză.

RECAPITULARE

I. Breviar teoretic

a) Media aritmetică
Media aritmetică sintetizează într-o singură valoare, toate valorile individuale
observate.
n
∑xi
- simplă
x = i =1
n
k
∑ xini
i =1
- ponderată x = k
∑ni
i =1

b) Indicatori statistici ai împrăştierii

1. Indicatori simpli ai variaţiei


Prin intermediul indicatorilor simpli ai variaţiei se caracterizează împrăştierea
elementelor seriei de repartiţie studiate faţă de medie, sau faţă de un anumit element al seriei.
Indicatorii simpli ai variaţiei sunt: amplitudinea şi abaterile elementelor seriei faţă de
media lor.

1.1 Amplitudinea
Amplitudinea (A) exprimă, în mărimi absolute mărimea intervalului în care sunt
distribuite elementele seriei de repartiţie. Amplitudinea absolută se calculează ca diferenţă
între cel mai mare şi cel mai mic element al seriei.
A=xmax-xmin
Dacă seriile de distribuţie se repartizează pe intervale egale sau neegale, amplitudinea
(A) se calculează ca diferenţă între limita superioară a ultimului interval şi limita inferioară a
primului interval.

1.2 Abaterea individuală


Abaterea elementelor seriei faţă de media lor se obţine în cifre absolute, ca diferenţă
între fiecare element al seriei (xi) şi media acestora ( x ), astfel:
di = xi - x
• Abateri maxime: dmax = xmax - x
• Abateri minime: dmin = xmin - x
xi − x x max − x x min − x
di(%) = ⋅100 ; dmax(%) = ⋅100 dmin(%) = ⋅100
x x x

1.3 Variaţia quartilică


• Variaţia quartilică absolută VQa = Q3 – Q1
Evidenţiază câmpul de împrăştiere a 50% din unităţile populaţiei
VQ a
• Variaţia quartilică relativă VQ r =
Q2

1.4 Variaţia decilică


• Variaţia decilică absolută: VDa = D9 – D1
Evidenţiază câmpul de împrăştiere a 80% din unităţile populaţiei
VD a
• Variaţia decilică relativă: VD r =
D5
Măsoară cu cât se abate în medie fiecare variantă din cele 80% unităţi de la valoarea
centrală (D5 sau Me)

2. Indicatori sintetici ai variaţiei


Indicatorii sintetici sunt mărimi medii calculate din abaterile variantelor caracteristicii
de la nivelul mediu al acesteia.

2.1 Abaterea medie liniară


Abaterea medie liniară ( d ) se calculează ca medie aritmetică, simplă sau ponderată,
în funcţie de felul seriei, din valorile absolute ale abaterilor variantelor caracteristicii de la
media lor.
∑ x i −x
• Pentru o serie simplă: d =
n
∑ x i −x ⋅n i
• Pentru o serie de distribuţie: d =
∑n i

2.2 Dispersia
Dispersia reprezintă media pătratică simplă sau ponderată a abaterilor variantelor
caracteristicii de la media lor.

• (
Pentru o serie simplă: σ 2 = ∑ x i − x )2
n

∑ (x i − x )
2
ni
• Pentru o serie de distribuţie: σ2 =
∑ ni

2.3 Abaterea medie pătratică


∑(x i − x )
2
• Pentru o serie simplă: σ =
n

∑ (x i − x )
2
ni
• Pentru o serie de distribuţie: σ =
∑ni
2.4 Coeficientul de variaţie
Coeficientul de variaţie este indicatorul folosit pentru comparaţia unor caracteristici
diferite şi analiza variaţiei aceleiaşi caracteristici în două colectivităţi în care variantele
caracteristicii au ordine de mărime diferită.
σ d
CV = ⋅ 100 ; CV = ⋅100
x x
Coeficientul de variaţie ia valori de la 0 la 100%
• Dacă CV = 0, înseamnă lipsă de variaţie, valorile sunt egale între ele şi egale cu media lor;
• Dacă CV →0 variaţia caracteristicii este mică;
• Dacă CV → 100% variaţia caracteristicii este mare.

Intervalul de variaţie al lui CV se poate împărţi astfel:


• 0< CV ≤ 35% ⇒ variaţie mică care se caracterizează prin:
- media este semnificativă, deoarece abaterile elementelor seriei de la medie sunt mici;
- colectivitatea este omogenă

• 35% < CV ≤ 50% ⇒ variaţie relativ mare


• 50%< CV ≤ 100% ⇒ variaţie foarte mare ceea ce înseamnă că:
- media calculată nu este semnificativă
- colectivitatea este eterogenă
- se va reface gruparea unităţilor.

c) Metode statistice de analiză a legăturilor dintre fenomene


Analiza legăturilor dintre fenomenele şi procesele social-economice are ca punct de
plecare punerea în evidenţă a existenţei legăturilor. Dintre cele mai importante metode de
evidenţiere a existenţei şi formei legăturilor, prezentăm: metoda seriilor paralele de date
interdependente, metoda grupărilor, metoda analizei dispersionale, metoda grafică, metoda
funcţiei de regresie.

1 Metoda seriilor paralele de date interdependente


Metoda seriilor paralele de date interdependente constă în prezentarea paralelă a
datelor referitoare la mai multe caracteristici. Prin compararea şirurilor de date se constată
dacă schimbarea valorilor unei caracteristici este determinată în mod sistematic de schimbări
în variaţia altei caracteristici. Această metodă se foloseşte numai când avem un număr mic de
unităţi observate.

2 Metoda grafică
Metoda grafică pune în evidenţă cel mai bine sensul şi forma legăturii dintre
indicatorii a căror dependenţă se studiază din punct de vedere statistic.
În cazul reprezentării grafice se întâlnesc următoarele situaţii:
 în cazul în care punctele sunt dispersate la întâmplare rezultă că între cei doi indicatori nu
există o legătură semnificativă. Această situaţie este prezentată în figura 1. Linia trasă prin
mijlocul norului de puncte este, în general,
paralelă cu axa absciselor.
Fig. 1 Legătură nesemnificativă

 dacă punctele se dispersează în direcţia unei anumite linii care nu este paralelă cu axa
„ox”, rezultă că cele două caracteristici sunt corelate. În cazul în care linia în jurul căreia se
concentrează punctele este o linie dreaptă rezultă că legătura dintre cele două caracteristici
este rectilinie. Dacă între cele două caracteristici există o legătură curbilinie această linie este
o curbă (parabolă, hiperbolă, exponenţială etc).

Fig. 2

Legătură directă Fig. 3 Legătură inversă

3 Metoda funcţiilor de regresie


Metoda funcţiilor de regresie exprimă sub formă algoritmică modul în care modificarea
caracteristicii rezultative (y) este determinată de modificarea caracteristicii factoriale (x).
y = f(x1, x2, …, xn)

3.1 Regresie simplă liniară


Regresia simplă liniară apreciază forma dependenţei caracteristicii rezultative (y) de
variaţia caracteristicii factoriale (x), adică: Yx = a+bx
unde: x – valorile empirice ale caracteristicii factoriale
b – indică panta liniei. În corelaţia inversă acest parametru are o valoare
negativă, iar în cazul corelaţiei directe, o valoare pozitivă.
Estimarea parametrilor se realizează prin metoda celor mai mici pătrate.
f = ∑ ( y i − y x ) 2 = min ⇒ f = ∑ ( y i − a − bx ) 2 = min
Se derivează relaţia de mai sus în funcţie de parametrul „a” şi parametrul „b”:
 ∂f
 ∂ a = 2∑ ( y − a − b x)( − 1) = 0  n a+ b∑ x = ∑ y
 ⇒ 
 ∂ f = 2∑ ( y − a − b x)( − x ) = 0  a ∑ x + b∑ x = ∑ x y
2
 ∂ b
Se calculează parametrii „a” şi „b”:

3.2 Regresia simplă curbilinie


Regresia simplă curbiline poate fi întâlnită sub următoarele forme:
 Parabolă ⇒ Yx = a+bx+cx2
b
 Hiperbolă ⇒ Yx = a +
x
 Exponenţială ⇒ Yx = abx

Măsurarea intensităţii legăturilor statistice


Măsurarea intensităţii legăturii dintre indicatorii economici, a gradului de determinaţie
dintre două sau mai multe caracteristici, poate ajuta la ierarhizarea unor factori ce influenţează
rezultatele economice, participând, alături de alte procedee şi tehnici de analiză cantitativă a
fenomenelor, la fundamentarea unor decizii economice.
Indicatorii folosiţi pentru a măsura intensitatea legăturii sunt: covarianţa; coeficientul
de corelaţie; raportul de corelaţie.

1 Covarianţa
Covarianţa este indicatorul cu ajutorul căruia se calculează legătura dintre o caracteristică
factorială (x) şi o caracteristică rezultativă (y).
cov ( x , y ) =
∑(x − x )( y − y )
n
Dacă legătura este directă atunci indicatorul are valoare pozitivă iar dacă legătura este de tip
invers, atunci indicatorul are valoare negativă. Covarianţa este nulă dacă variabilele sunt
independente.

2 Coeficientul de corelaţie
Coeficientul de corelaţie simplă măsoară intensitatea legăturii dintre două variabile xi şi yi.

=
∑ ( x − x )( y − y ) = n ⋅ ∑ xy − ∑ x ⋅ ∑ y

[n ⋅ ∑ x ][n ⋅ ∑ y ]
ry x
nσ x σ y − (∑ x ) − (∑ y)
2 2 2 2

Coeficientul de corelaţie poate lua valori cuprinse între – 1 şi +1, adică satisface inegalitatea:
−1 ≤ ry x ≤1 .

• Când ry x →0 legătura este apreciată ca slabă


• Când ry x →1 legătura este apreciată ca puternică
Dacă ia valori pozitive ( ry x > 0 ) legătura este directă, dacă ia valori negative ( ry x < 0 )
legătura este inversă.
Valoarea coeficientului de corelaţie depinde de forma liniei de regresie, deci în cazul
legăturilor neliniare este puţin semnificativ, pentru aceasta se foloseşte raportul de corelaţie.

3 Raportul de corelaţie
Raportul de corelaţie măsoară intensitatea legăturii dintre două variabile xi şi yi.
∑ ( y i − Yxi ) 2 ∑ y i2 − a ∑ y i − b∑ x i y i
Ry = 1− = 1−
∑ ( y i − y) (∑ yi ) 2
x 2

∑ yi − n
2

Raportul de corelaţie ia valori cuprinse între 0 şi 1, adică satisface inegalitatea: 0 ≤ R y x ≤1 .


Semnul raportului de corelaţie este dat de semnul coeficientului de regresie (b) din cadrul
funcţiei de regresie.
Raportul de corelaţie măsoară intensitatea legăturilor indiferent de forma de legătură.

d) Serii cronologice
Pentru ca seriile cronologice să îşi poată îndeplini funcţia de a caracteriza cât mai exact
variaţia fenomenelor în timp, se folosesc indicatori absoluţi, relativi şi medii.

Indicatorii seriilor cronologice

Indicatorii absoluţi ai seriilor cronologice

Ei redau starea fenomenului într-o anumită perioadă sau modificările de nivel survenite în
decursul timpului. Se deosebesc două grupe de indicatori:
- indicatori de nivel (yt) care exprimă mărimea, cuantumul înregistrat de fenomenul analizat
în unitatea de timp t.
- indicatori ai modificării absolute (∆ ) redau în mărimi absolute cuantumul modificării în
timp a nivelului caracteristicii
Indicatorii modificării absolute pot fi determinaţi astfel:
- modificarea cu bază fixă: ∆t 1 = y t − y1 ,
unde: t=2, 3, …, n iar y1 reprezintă nivelul perioadei de referinţă
- modificarea cu bază în lanţ: ∆t t −1 = y t − y t −1 ; t=2, 3, …, n

2. Indicatori relativi ai seriilor cronologice

Aceşti indicatori redau proporţia nivelului, respectiv proporţia decalajului realizat într-
o anumită perioadă faţă de nivelul bază de raportare.

2.1 Indicii de modificare


yt
- Indici de creştere cu bază fixă: I t 1 = ⋅100 t=2,3, …, n
y1
yt
- Indici de creştere cu bază în lanţ: I t t −1 = ⋅ 100 ; t=2,3, …, n
y t −1

2.2. Ritmul de dinamică exprimă sub formă de mărimi relative sporul sau scăderea
realizată în fiecare perioadă faţă de nivelul considerat bază de raportare.
În raport cu baza de raportare, ritmul dinamicii poate fi determinat cu baza fixă sau cu
baza în lanţ.
y t − y1
- Ritmul dinamicii cu bază fixă, se obţine cu relaţia: R t 1 = ⋅ 100 ; sau
y1
∆t 1
Rt 1 = ⋅100 şi arată cu cât la sută a crescut nivelul variabilei analizate în intervalul de
y1
timp considerat.
y t − y1 y t 
Rt 1 = = −1
y1 y1 
 ⇒ R t 1 = It 1 − 1
yt 
It 1 =
y1 
y t − y t −1
- Ritmul dinamicii cu bază în lanţ, se obţine cu relaţia: R t t −1 = ⋅ 100 ; sau
y t −1
∆t t −1
Rt t −1 = ⋅100
y t −1

y t − y t− 1 y t 
R t t− 1 = = − 1
y t− 1 y t− 1 
 ⇒ R t t− 1 = I t t− 1 − 1
yt 
It t− 1 =
y t− 1 
sau Rt t −1 = It t −1 ⋅100 −100

3 Indicatorii medii ai seriilor cronologice

Aceşti indicatori redau fie nivelul central al caracteristicii, fie creşterea medie
înregistrată de fenomenul analizat în decursul timpului.
Determinarea nivelului mediu pentru o serie construită din indicatori de nivel:
- nivelul mediu al variabilei y = ∑ t
y
n
- modificarea medie absolută (sporul ∆)
n

( ∑ ∆ t t −1
y 2 − y1 ) + ( y 3 − y 2 ) +  + ( y n − y n −1 ) t =2
∆= =
n −1 n −1
sau
∆t 1 y n − y1
∆= = pentru baza fixă
n −1 n −1

- indicele mediu I
Indicele mediu de creştere sau scădere (I) exprimă proporţia medie pe care o
reprezintă, pentru perioada succesivă, nivelul variabilei analizate.
y 2 y3 y y
I = n −1 ∏ I t t −1 = n −1 ⋅  n = n −1 n
y1 y 2 y n −1 y1
unde n este numărul de termeni în şir.
Dacă:
I < 100% indicele mediu semnalizează scăderea sau reducerea fenomenului analizat;
I > 100% indicele mediu semnalizează creşterea fenomenului analizat
I =100% indicele mediu arată că fenomenul cercetat nu prezintă evoluţie, ci staţionează.

- ritmul mediu de creştere sau scădere ( R )


Ritmul mediu de creştere sau scădere ( R ) arată cu cât creşte sau scade în medie
variabila yt în perioada analizată.
R = I −100
Metode de determinare şi analiză a trendului (ajustarea seriilor
cronologice)
Pentru ajustarea seriilor cronologice se folosesc mai multe procedee: ajustarea pe baza
mediilor mobile, ajustarea prin metoda grafică, ajustarea pe baza sporului mediu, ajustarea
indicelui mediu, ajustarea prin metode analitice.

1. Ajustarea prin metoda grafică

Se construieşte un grafic în care se prezintă seria iniţială de date, după care se unesc
printr-o linie dreaptă termenii extremi ai seriei în aşa fel încât linia dreaptă să înregistreze
abateri minime faţă de termenii reali, dispuşi în grafic.
Ajustarea seriilor cronologice ne oferă mai clar tendinţa de evoluţie în timp a
fenomenelor şi proceselor economice.

2. Ajustarea pe baza modificării medii absolute mediu

Se foloseşte când termenii seriei au tendinţă de creştere sub forma unei progresii
aritmetice.
Între primul termen al seriei cronologice iniţiale sporurile cu bază în lanţ şi ultimul
termen există următoarea relaţie:
xn= x0+∆ 1/0+∆ 2/1+∆ 3/2+…+∆ n/n-1
Considerând că sporurile cu baza în lanţ înregistrează o valoare mică faţă de sporul
mediu şi se pot compensa reciproc, atunci relaţia de mai sus devine:
x n = x 0 + ∆ + ∆ + .... ∆
Suma sporurilor medii se transformă într-un produs de medii, iar relaţia dintre primul
termen şi sporurile medii devine:
xn = x0 + n ⋅∆
Dacă se consideră variaţia de timp (t) după care se manifestă termenii seriei dintre
primul termen şi sporurile medii devine:
Xn = x0 + t ⋅∆ ; t=0,1,2,3….n

Tabelul 1
Timp Nivelul Variaţia de Valoarea teoretică (ajustată) pe baza sporului mediu
timp (t) Xn = x0 + t ⋅ ∆
T0 x0 0 X0 = x0 + 0 ⋅ ∆
T1 x1 1 X1 = x 0 +1 ⋅ ∆
T2 x2 2 X2 = x0 + 2 ⋅ ∆
…. …. …. ….
Tn xn n Xn = x0 + n ⋅ ∆

3. Ajustarea pe baza metodei indicelui mediu

Se foloseşte când termenii seriei se manifestă sub forma unei progresii geometrice, iar
raţia este considerată indicele mediu (I ) .
Între ultimul termen al seriei, indicii cu baza în lanţ în primul termen există relaţia: x n
= x0·I1/0·I2/1·I3/2…In/n-1
În situaţia în care indicii cu bază în lanţ au valori apropiate între ei, pot fi înlocuite cu
indicele mediu (I ) ;
x n = x 0 ⋅ I ⋅ I I ⇒ x n = x0 ⋅ In
unde n - numărul unităţilor de timp corespunzătoare poziţiei faţă de termenul de bază.
Formula de calcul a unui termen ajutat poate devine:
±t
Xn = x0 ⋅I

Tabelul 2
Timp Nivelul Variaţia de Valoarea teoretică (ajustată) pe baza indicelui
timp (t) ±t
mediu X n = x 0 ⋅ I
±0
T0 x0 0 X0 = x 0 ⋅I
±1
T1 x1 1 X1 = x 0 ⋅ I
±2
T2 x2 2 X2 = x0 ⋅I
…. …. …. ….
±t
Tn xn n Xn = x0 ⋅I

4. Ajustarea prin metode analitice

Seriile cronologice sunt prezentate prin, n termeni care eşalonaţi succesiv după o
caracteristică de timp descriu evoluţia empirică a fenomenului respectiv.
În obţinerea configuraţiei noilor serii cronologice un rol deosebit îl au primul şi ultimul
termen ai seriilor iniţiale.
Pentru valorificarea influenţei termenilor intermediari ai seriei cronologice care înregistrează
abateri şi pot influenţa modificarea sistematică faţă de evoluţia fenomenelor, se folosesc
metode analitice.
Considerând seria cronologică o variabilă de timp ce se formează ca o funcţie liniară,
exponenţială sau hiperbolică relaţiile de calcul se pot sintetiza prin:
y = f ( ti )
unde t – timpul (valori independente)
y – fenomenele prezentate în serie.

Funcţia liniară va fi utilizată atunci când graficul prin care se prezintă seria empirică indică o
tendinţă de creştere absolută prin sporuri cu baza în lanţ, apropiate între ele.
y t i = a + bt i
unde: y t i - valorile teoretice ale caracteristicii ce trebuie ajutată
a – parametrul cu sens de mărime medie
b – parametrul care indică influenţa caracteristicii factoriale (t) şi indică panta liniei
t i - valorile caracteristicii factoriale.
Funcţia exponenţială se foloseşte când graficul arată o tendinţă de creştere relativ,
constantă, respectiv creşterii absolute din ce în ce mai mari, verificată şi prin obţinerea unor
valori apropiate ale indicilor cu baza în lanţ.
y t i = ab t i
Ecuaţia de estimare a unei parabole de gradul 2 exprimată în funcţie de timp este:
y t i = a + bt i + ct i 2
pentru aflarea parametrilor funcţiei de regresie necesară ajutării seriei se aplică metoda celor
mai mici pătrate, adică:

∑( )
y i − y t i 2 = m in ⇒ ∑ [( (
y i − a + b t i 2 = m in ))]
Se determină valorile parametrilor a şi b.
 n a+ b∑ t = ∑ y
 ∑ t i = 0 → condiţie
 a ∑ t + b∑ t = ∑ t y
2

 n = ∑a y ∑ y
 2 ⇒ a= ; b=
∑ty
pentru Σt i = 0 sistemul devine:

 b∑ t = ∑ t y n
∑t 2

a=
∑ yi =x
n

În cazul când seria este formată dintr-un număr impar de termeni originea valorilor de
timp va fi chiar termenul central şi variaţia de timp se va măsura în intervale întregi:
0; ±1; ±2 
În cazul unei serii dinamice formate dintr-un număr par de termeni, originea valorilor
de timp va cădea între cei doi termeni centrali şi variaţia de timp se va măsura în jumătăţi de
intervale de timp: 0; ±1; ±3; ±5
Prin ajustare s-au redistribuit influenţele factoriale astfel: toţi factorii au fost
consideraţi cu influenţă constată pe toată perioada şi variabil a fost numai timpul.
APLICATII RECAPITULATIVE

Se cunosc următoarele date privind încasările medii lunare şi suprafaţa comercială a


10 societăţi comerciale având acelaşi profil de activitate:

Tabelul 3
Suprafaţa
comercială 20 30 50 60 80 90 10 110 12 150
(mp) 0 0
Încasările
medii lunare 0,5 0,7 0,8 1, 1, 1, 1,4 1,6 1,8 2,1
(mil. lei) 0 1 3
Se cere:
1. Să se calculeze suprafaţa medie comercială şi încasările medii lunare pentru cele 10
societăţi comerciale;
2. Să se calculeze abaterea societăţilor comerciale faţă de valoarea medie;
3. Să se stabilească tipul de legătură dintre suprafaţa comercială şi încasările medii
lunare;
4. Să se calculeze valorile ajustate ale încasărilor faţă de suprafaţa comercială;
5. Să se măsoare intensitatea legăturii dintre suprafaţa comercială şi încasările medii
lunare;
Tabelul 4
Suprafaţa Încasări Abaterea
Nr.
crt.
comercială medii lunare individuală x i −x yi −y (x i − x )2 (yi − y )2 X2 xy
Yx =
0.258+0.012xi
(mp) - xi (mil. lei) - yi xi - x yi - y
0 1 2 3 4 5 6 7 8 9 10 11
1 20 0,5 -61 -0,73 61 0,73 3721 0,5329 400 10 0,498
2 30 0,7 -51 -0,53 51 0,53 2601 0,2809 900 21 0,618
3 50 0,8 -31 -0,43 31 0,43 961 0,1849 2500 40 0,858
4 60 1,0 -21 -0,23 21 0,23 441 0,0529 3600 60 0,978
5 80 1,1 -1 -0,13 1 0,13 1 0,0169 6400 88 1,218
6 90 1,3 9 0,07 9 0,07 81 0,0049 8100 117 1,338
7 100 1,4 19 0,17 19 0,17 361 0,0289 10000 140 1,458
8 110 1,6 29 0,37 29 0,37 841 0,1369 12100 176 1,578
9 120 1,8 39 0,57 39 0,57 1521 0,3249 14400 216 1,698
10 150 2,1 69 0,87 69 0,87 4761 0,7569 22500 315 2,058
Total 810 12,3 0 0 330 4,1 15290 2,321 80900 1183 12,3