Sunteți pe pagina 1din 25

Tema: Analiza statistică a legăturilor

dintre variabilele economice


1. Conceptul de legătură statistică
2. Tipuri de legături între variabilele
economice
3. Metode elementare de caracterizare a
legăturilor dintre variabile
4. Metoda regresiei
5. Indicatorii sintetici ai corelaţiei
1. Conceptul de legătură statistică
Asupra fenomenelor social-economice acţionează
un număr de factori principali şi secundari, esenţiali şi
neesenţiali, care se găsesc în legătură reciprocă.
Statistica, cu ajutorul unei game variate de
procedee şi metode, poate studia manifestarea
concretă a acestor legături, le poate exprima
cantitativ şi măsura intensitatea cu care se produc.
Legăturile dintre fenomenele şi procesele
economice diferă de legăturile care se stabilesc între
fenomenele din domeniul ştiinţelor tehnice şi ale
naturii. Pentru acest domeniu legăturile sunt
predominant cauzale, în sensul că unul din fenomene
determină în mod univoc (ce are un singur sens)
schimbarea celuilalt. În acest caz este vorba de o
legătură funcţională.
În cadrul legăturilor funcţionale, unei valori
din şirul caracteristicii-cauză îi corespunde o
singură valoare din şirul caracteristicii-efect, iar
modificării cantitative a primei caracteristici îi
corespunde o modificare cantitativă, de aceeaşi
măsură, a celei de a doua.
Astfel de legături se pot modela printr-o funcţie
matamatică de forma:
yi = f(x1, x2, ... , xp), în care x1, x2, ... , xp sunt
factori care acţoinează împreună asupra variabilei
rezultative şi între care există şi o componentă
aleatoare.
Legăturile dintre fenomenele şi procesele economice
apar ca legături statistice (stohastice). Particularitatea acestui
tip de legătură constă în fapul că: o caracteristică „x” – denumită
caracteristică factorială (independentă, exogenă sau cauză) –
exercită o anumită influenţă asupra unei alte caracteristici „y” –
denumită caracteristică rezultativă (dependentă, endogenă sau
efect).
În cadrul legăturilor statistice, unei valori a caracteristicii
factoriale „x” îi corespunde o distribuţie de valori a caracteristicii
rezultative „y”, datorită faptului că asupra caracteristicii
dependente exercită influenţă şi alte caracteristici care, din
punctul de vedere al legăturii dintre „x” şi „y”, se consideră
întîmplătoare.
Specific legăturilor din domeniul social-economic este
faptul că legile care acţionează în cadrul acestora au caracter de
legi statistice, care nu pot fi verificate pentru fiecare caz în parte,
ci numai la nivelul întregului ansamblu.
2. Tipuri de legături între variabilele economice
Criteriile de clasificare a legăturilor
statistice dintre variabilele socio-conomice:
1. După numărul caracteristicilor care se
iau în studiu:
– legături simple, cînd se consideră că există o
singură caracteristică factorială cu caracter esenţial care
determină o caracteristică rezultativă, iar ceilalţi factori
sunt cu acţiune constantă interpretaţi ca factori reziduali
(de exemplu, legătura dintre suprafaţa comercială (x) şi valoarea
desfacerilor (y));
– legături multiple, cînd se iau în studiu şi se
interpretează mai mult de două caracteristici factoriale.
2. După felul de exprimare a caracterisricilor:
– legături între variabilele statistice exprimate
numeric, (de exemplu, între valoarea încasărilor realizate la un hotel
(y) şi numărul locurilor de cazare ale acestuia (x));
– legături între variabilele statistice exprimate prin
cuvinte, (de exemplu, legătura între studii şi ocupaţie).
Legăturile dintre caracteristicile numerice se mai numesc şi corelaţii
statistice, iar cele între caracteristici calitative – asocieri statistice.
3. După direcţia legăturilor:
– legături directe, cînd la creşterea (sau descreşterea)
valorilor caracteristicii factoriale corespunde creşterea (sau
descreşterea) valorii caracteristicii rezultative.
– legături inverse, cînd creşterii valorii unei caracteristici
factoriale îi corespunde descreşterea caracteristicii
rezultative.
4. După expresia analitică a legăturilor deosebim:
– legături liniare, cînd se exprimă prin ecuaţia liniei
drepte;
– legături neliniare sau curbilinii, cînd se exprimă
prin ecuaţia unei curbe (parabolă, hiperbolă,
funcţie exponenţială etc.)
5. După timpul cînd se produce legătura pot fi:
– legături concomitente sau sincrone, la care, pe
măsură ce se modifică variabila factorială, în
acelaşi timp se modifică şi variabila rezultativă;
– legături asincrone sau cu decalaj, la care variaţia
caracteristicii rezultative se produce după
scurgerea unei perioade de timp de la modificarea
variabilei factoriale.
3.Metode elementare de caracterizare a
legăturilor dintre variabile
Metode elementare sau simple de
cercetare a legăturilor statistice sunt:
–metoda seriilor paralele sau
interdependente;
–metoda grupărilor;
–metoda tabelului de corelaţie;
–metoda grafică.
Metoda seriilor paralele sau
interdependente constă în aşezarea a două serii
în paralel, în ordinea crescătoare sau
descrescătoare a caracteristicii factoriale. Prin
compararea seriilor de valori astfel ordonate se
poate stabili dacă există sau nu legătura între ele
şi direcţia acesteia.
Seriile paralele se folosesc numai cînd avem un
număr mic de unităţi observate. În cazul unui număr
mare de unităţi observate şi la care amplitudinea
variaţiei este mare, pentru sistematizarea datelor se
recurge la metoda grupărilor.
Metoda grupărilor reprezintă un model de analiză
capabil să surprindă aspectele esenţiale ale legăturilor dintre
variabilele economice şi sociale. Studiul legăturii se
realizează după ce unităţile colectivităţii se grupează în
funcţie de caracteristica factorială, iar pentru caracteristica
rezultativă se calculează indicatorii derivaţi (mărimi relative
sau medii) specifici fiecărei grupe.
Prin compararea variaţiei caracteristicii factoriale cu
aceea a caracteristicii rezultative (variaţie exprimată sub
forma indicatorilor derivaţi, calculaţi pe grupe), se poate
aproxima caracterul legăturii, direcţia şi intensitatea ei.
În cazul fenomenelor social-economice se recomandă
ca, în general, să se folosească grupe de intervale egale
pentru fiecare dintre caracteristicile implicate în analiza de
corelaţie.
Metoda tabelului de corelaţie constă în construirea unui tabel cu
dublă intrare, în care separarea pe grupe a unităţilor se face după variaţia ambelor
caracteristici – factorială şi rezultativă. Metoda se utilizează în cazul unui număr
mare de observaţii.
Valorile caracteristicii factoriale se trec în ordine crescătoare în capetele
coloanelor, iar valorile caracteristicii rezultative în ordine descrescătoare în
capetele rîndurilor. În rubricile formate la întretăierea acestora se înscriu
frecvenţele cu care cele două caracteristici se încadrează în intervalele respective.
Se recomadă ca numărul grupelor formate după cele două caracteristici să fie
aproximativ egal, iar intervalele de grupare la fel să fie egale.
În funcţie de modul de repartizare a frecvenţelor în tabelul de corelaţie se
poate aprecia direcţia legăturii şi intensitatea ei. În unele cazuri direcţia legăturii
este dată de poziţia diagonalei în jurul căreia se grupează frecvenţele; cînd
diagonala leagă unghiul stîng de jos al tabelului cu ungiul drept de sus legătura este
directă, iar cînd uneşte ungiul stîng de sus cu ungiul drept de jos se apreciază că
între cele două caracteristici există legătură în sens invers. Modul de aşezare a
frecvenţelor în jurul diagonalei ne dă posibilitatea să apreciem intensitatea
legăturii: concentrarea intensă a frecvenţelor în jurul diagonalei indică existenţa
unei legături strînse între caracteristici. Dacă frecvenţele se repartizează pe întregul
tabel fără nici o regularitate, atunci sau nu există legătură, sau aceasta este foarte
slabă.
Metoda grafică constă în construirea graficului de
corelaţie – denumit şi corelogramă, ce foloseşte sistemul
axelor rectangulare, respectiv primul lor cadran.
Procedura este următoarea: valorile caracteristicii
factoriale (x) sau intervalele acesteia se trec pe abscisă, iar
pe ordonată, valorile caracteristicii rezultative (y) sau
intervalele respective. Fiecare unitate observată purtătoare
a celor două caracteristici corelate se reprezintă pe grafic
printr-un punct.
Reprezentarea grafică a legăturii în cîmpul de
corelaţie are aspectul unui nor de puncte, de aceea metoda
grafică se mai numeşte „metoda norului de puncte”.
Metoda grafică este utilizată cu bune rezultate pentru
alegerea funcţiei analitice care se studiază (în cazul
regresiei şi corelaţiei).
4. Metoda regresiei
Pentru a înlătura neajunsurile utilizării metodelor elementare în studiul
legăturilor dintre fenomenele economice, statistica foloseşte o serie de metode
analitice: metoda regresiei şi metoda indicatorilor sintetici ai corelaţei.
Metoda regresiei constituie o metodă statistică de cercetare a
legăturii dintre variabile cu ajutorul unor funcţii denumite funcţii de
regresie. Notînd cu „y” variabila dependentă şi cu „x1, x2 ... xn”
variabilele independente, obţinem ecuaţia de regresie: y= f(x1, x2, ... , xn)
Datorită caracterului aleator al fenomenelor şi proceselor social-
economice, modelul teoretic se înlocuieşte cu modelul de dependenţă
statistică:
y = f(x1, x2, ... , xn) +, în care  reprezintă o eroare aleatoare (o
variabilă reziduu), cu dispersia constantă şi media nulă.
În funcţie de numărul factorilor care influenţează caracteristică rezultativă
(y), deosebim:
– regresie unifactorială sau simplă, dacă funcţia include un factor;
– regresie multifactorială sau multiplă, dacă funcţa include mai mulţi
factori.
Regresia unifactorială descrie legătura dintre două variabile (y şi
x), considerînd că ceilalţi factori au o acţiune constantă asupra
caracteristicii dependente y. Ecuaţia de regresie este: Y= f(x) +
Cele mai cunoscute modele de regresie unifactorială sunt:
1. Modelul liniar, cînd legătura dintre „y” şi „x” este liniară şi cînd
aceste caracteristici variază în progresie aritmetică:
yi =  + xi + 
Acest model teoretic se estimează printr-o ecuaţie medie de
tendinţă care se poate scrie astfel: Yˆx = a + bxi ,
i

în care „a” şi „b” sunt coeficienţii (parametrii) ce urmează să fie


calculaţi, iar Yˆxi se citeşte „y ajustat cu xi ”.
Parametrii „a” şi „b” se estimează cu ajutorul unor metode
specifice oferite de statistică, ca de exemplu: metoda verosimilităţii
maxime, metoda celor mai mici pătrate etc. În practică, frecvent, se
foloseşte MCMMP, care presupune ca suma pătratelor abaterilor dintre
valorile empirice (reale) „y” şi valorile teoretice (ajustate) Yˆx să fie
minimă, adică: (yi - Yˆ )2 = minim
i

xi
Înlocuind pe Yˆxi cu valoare sa obţinem: (yi – a - bxi)2 = minim
Derivînd această sumă în raport cu derivatele parametrilor „a” şi „b”, anulând
derivatele parţiale, se obţine sistemul de ecuaţii normale:
na + bxi = yi
axi + bxi2 = yixi
unde „n” reprezintă numărul unităţilor observate
rezolvînd sistemul de ecuaţii obţinem valorile lui „a” şi „b”:

 y x x y x 2
n  xi y i   xi  y i
a b
i i i i i

n  x   x  n  xi2   xi 
2 2 2
i i

Coeficientul „a” poate lua atît valori pozitive cît şi negative, reprezintă
ordonata la origine, respectiv, este valoarea lui „y” cînd „x” este egal cu zero.
Coeficientul „b” denumit coeficient de regresie – arată măsura în care se
modifică caracteristica dependentă în cazul în care caracteristica independentă se
modifică cu o unitate. În funcţie de semnul coeficientului de regresie putem aprecia
tipul de legătură: în cazul corelaţiei directe b0, în cazul corelaţiei inverse b0 şi
în cazul în care b=0 se apreciază că cele două variabile sunt independente. În
graficul de corelaţie coeficientul „b” indică panta liniei drepte.
2. Modelul exponenţial, cînd legătura dintre cele două
variabile este de formă exponenţială şi cînd variabila dependentă
creşte în progresie aritmetică, iar variabila independentă creşte în
progresie geometrică: yi = x + 
Cei doi parametri se estimează folosind modelul (funcţia de
estimaţie): Ŷx = abx
i

Prin logaritmare, modelul se poate transforma într-un model


liniar de forma: log Y = log a + x * log b
Sistemul de ecuaţii normale este:
nlog a + log bxi = log yi
log axi +log bx i2= (xilog yi )
Cei doi parametri „a” şi „b”, cu ajutorul cărora se ajustează
seria empirică, se obţin prin antilogaritmare.
3. Modelul parabolic de gradul doi:
yi =  + xi + xi2 + 
Pentru estimarea parametrilor se foloseşte funcţia de
estimaţie:
Yˆxi = a + bxi + cx i2 + 
Determinarea celor trei parametri ai ecuaţiei de
regresie de tip parabolic se face folosind metoda celor
mai mici pătrate, respectiv, determinînd minimul
expresiei: (yi – a – bxi – cxi2)2 = minim
Se obţine sistemul de ecuaţii normale:
na + bxi + cxi2 = yi
axi + bxi2 + cxi3= yixi
axi2 + bxi3 + cxi4= yixi2
4. Modelul hiperbolic, cînd are loc o dependenţă inversă
dintre cele două variabile (x – scade, y – creşte şi invers):
yi =  + 1/xi *+ 
Funcţia de estimaţie este: Ŷxi = a + 1/x *b, iar cei doi
parametri rezultă din rezolvarea sistemului de ecuaţii normale:
na + b1/xi = yi
a1/xi + b1/xi2 = yi *1/xi
5. Modelul logaritmic: yi =  +  logxi + 
ˆ
Funcţia de estimaţie este: Y x i = a + b logxi
Când a0 şi b0, curba este crescătoare, iar când a0 şi b0,
curba este descrescătoare. Folosind metoda celor mai mici
pătrate, se ajunge la următorul sistem de ecuaţii normale:
na + blogxi = yi
alogxi + b(logxi2) = yi logxi
Regresia multifactorială descrie legături complexe între
fenomenele economico-sociale, care se caracterizează prin influenţa
unui număr mare de factori (variabile independente) asupra
caracteristicii rezultative (variabila dependentă). Asemenea legături se
pot exprima cu ajutorul ecuaţiei de regresie multiplă dată de relaţia:
Y = f(x1, x2, ... , xp) +,
unde: x1, x2,..., xp reprezintă caracteristicile independente sau
factoriale;  - variabilă reziduu, cu dispersia constantă şi media nulă.
Cel mai utilizat model de regresie multifactorială este modelul liniar:
yi = 0 + 1 x1 + 2x2 + … + pxp + 
Funcţia de estimaţie este: Yˆx i = a0 + a1 x1 + a2 x2 + ... + ap xp, unde:
a0 – reprezintă coeficientul care exprimă influenţa factorilor neincluşi
în model, consideraţi cu acţiune constantă;
ai (i = 1,p) – sunt coeficienţii de regresie multiplă şi arată ponderea cu
care influenţează fiecare caracteristică „x” asupra caracteristicii rezultative
„y”.
Specific regresiei multiple liniare este faptul că variabila
rezultativă „y” se modifică uniform în cazul în care variabilele
factoriale „xi” se modifică cu o unitate.
Parametrii a0 , a1 , a2 ,..., ap se calculează pe baza MCMMP,
în care:
(yi – a0 – a1 x1 – a2 x2 - ... – ap xp)2 = minim
Prin derivare obţinem un sistem de ecuaţii normale cu „p”
variabile factoriale şi „p+1” parametri, respectiv:
na0 + a1x1 + a2x2 + ... + apxp = yi
a0 x1 + a1x12 + a2x2x1+ ... + apxpx1= yi x1
.............................................................................
a0 xp + a1x1xp + a2x2xp+ ... + apxp2 = yixp
Coeficienţii de regresie pot avea fie semn pozitiv, fie semn
negativ şi arată tipul de legătură (directă sau inversă) dintre
variabila factorială „xi” şi variabila rezultativă „y”.
Un alt model de regresie multifactorială este
modelul exponenţial de forma:
Yˆxi  a0 x1a1 * x2a2 *... * x p p
a

Prin logaritmare, modelul exponenţial de mai sus se


poate transforma într-un model liniar.
Notă: Pentru a verifica care model este cel mai
potrivit, se calculează suma pătratelor abaterilor dintre
valorile reale şi valorile ajustate (după modelele
propuse). Se consideră ca cel mai adecvat modelul
pentru care suma pătratelor abaterilor este cea mai
mică. Precizarea este valabilă atît pentru modelele de
regresie unifactorială cît şi pentru modelele de regresie
multifactorială.
5. Indicatorii sintetici ai corelaţiei
Printre indicatorii sintetici ai corelaţiei pot fi numiţi:
– covarianţa;
– coeficientul de corelaţie liniară simplă;
– raportul de corelaţie;
– coeficientul de corelaţie multiplă etc.
Covarianţa, simbolizat prin: cov (x, y) – se obţine ca o medie
aritmetică a produselor abaterilor variabilelor faţă de media lor:
1 n
cov x, y     xi  x    yi  y 
n i 1
Semnul indicatorului arată direcţia legăturii: (+) – legătură directă, (-) –
legătură inversă. Covarianţa e nulă dacă variabilele sunt independente (lipsa
legăturii de corelaţie). Valoarea sa absolută |cov (x,y)| nu are limită
superioară. Pe măsură ce intensitatea corelaţiei creşte şi covarianţa creşte. În
cazul unei legături funcţionale şi liniare valoarea absolută maximă covarianţei
este egală cu produsul σx * σy . Astfel: |cov (x,y)|= σx * σy
Coeficientul de corelaţie liniară simplă măsoară numai
intensitatea legăturii de tip liniar dintre două variabile „x” şi „y” :
n  xi y i   xi  y i
r 
n  x 2
i   xi 
2
n y 2
i   y i 
2

n

 x i  x    yi  y 
sau folosind covarianţa: r  cov( xi , yi )  i 1
 xi   yi n   xi   yi

Coeficientul de corelaţie liniară simplă poate lua valori cuprinse între: –1


şi +1, adică satisface inegalităţile:  1  r  1 . Semnul semnifică tipul de
legătură: semnul minus indică legătura inversă, semnul plus indică legătura
directă. Cu cât coeficientul de corelaţie liniară simplă are valori mai apropiate de 1
sau –1, cu atît corelaţia rectilinie dintre variabilele „x” şi „y” este mai puternică. Pe
măsură ce coeficientul de corelaţie se apropie de zero, scade şi intensitatea legăturii
dintre cele două variabile. În cazul în care r = 0, variabilele sunt independente sau
necorelate liniar, iar pentru r = 1 rezultă dependenţă funcţională între cele două
variabile.
În practică se consideră că, dacă:
0  r  0,2 , nu există o legătură semnificativă; 0,75  r  0,95 , există o legătură puternică
0,2  r  0,5 , există o legătură slabă; , putem vorbi de o legătură relativ
0,95  r  1
0,5  r  0,75 , există o legătură de intensitate medie; deterministă (funcţională)
Raportul de corelaţie, denumit şi coeficientul de
corelaţie Pearson, măsoară atât intensitatea legăturilor
liniare cât şi curbilinii (neliniare) dintre două variabile:

 1
  yi  Yˆxi  2

 y i  y
2

Raportul de corelaţie poate lua valori între 0 şi 1. Cu


cât valoarea raportului este mai apropiată de 1, cu atât
legătura de corelaţie este mai puternică şi invers.
Notă: În cazul corelaţiei liniare, raportul de
corelaţie este egal cu coeficientul de corelaţie liniară
simplă luat în valoare absolută şi poate fi considerată
această relaţie, ca un test de verificare a liniarităţii
legăturii: r  
Coeficientul de corelaţie multiplă măsoară intensitatea
legăturii dintre o caracteristică rezultativă „y” şi două sau mai
multe caracteristici factoriale „xi” (i = 1,p):

R y , x1 , x2 ,...,x p  1
 
yi  Yˆx1 , x2 ,...,x p 
2

 y i  y
2

Acest coeficient are întotdeauna valoare pozitivă şi este mai


mare decît oricare coeficient de corelaţie simplă dintre
variabilelele factoriale şi cea rezultativă, luat în valoare absolută.
Pătratul coeficientului de corelaţie multiplă este cunoscut în
literatura de specialitate sub denumirea de coeficient de determinaţie
multiplă (R2). El exprimă ponderea cu care influenţează concomitent
caracteristicile factoriale, incluse în model, asupra caracteristicii
rezultative. Evident, ponderea cu care influenţează asupra caracteristicii
rezultative ceilalţi factori, necuprinşi în model, se obţine ca diferenţă
între unitate şi R2. Se obţine astfel coeficientul de nedeterminaţie
multiplă (1-R2). Rezultă relaţia: R2 + (1-R2) = 1

S-ar putea să vă placă și