Sunteți pe pagina 1din 31

UNIVERSITATEA „TITU MAIORESCU” – BUCUREȘTI

FACULTATEA DE ȘTIINȚE ECONOMICE

ECONOMETRIE
SUPORT DE CURS

UNITATEA DE ÎNVĂȚARE 1
Introducere în metodologia econometrică

Lect. dr. Dan-Ion GHERGUȚ

București, 2021
Ediția 1, Versiunea 1
Cuprins
1. Introducere: cui folosește econometria ...................................................................................4
2. Obiectivele și structura cursului de econometrie .....................................................................6
3. Analiza legăturilor dintre variabile ..........................................................................................7
3.1 Tipuri de legături ..................................................................................................................7
3.2 Metode simple de analiză a legăturii dintre variabile ........................................................10
3.2.1 Metoda grafică --------------------------------------------------------------------------------------- 10
3.2.2 Metoda tabelului de contingență ---------------------------------------------------------------- 13
3.3 Regula de adunare a dispersiilor ........................................................................................15
3.4 Analiza legăturii dintre variabile: metoda corelației ..........................................................21
3.5 Metode neparametrice de măsurare a intensității corelației ............................................22
3.6 Metode parametrice de măsurare a intensității corelației ................................................26
3.7 Întrebări de control ............................................................................................................29
4. BIBLIOGRAFIE: ...................................................................................................................... 29
5. Glosar de termeni ................................................................................................................. 30

Lista tabelelor

Tabel 1: Rezultatele la examenul de admitere și media notelor din prima sesiune de examene – eșantion de
10 studenți .......................................................................................................................................................11
Tabel 2: Distribuțiile de probabilitate a variabilelor X și Y ...............................................................................13
Tabel 3: Gruparea agenților economici după numărul salariaților și după cifra de afaceri (primul exemplu de
tabel de contingență) .......................................................................................................................................14
Tabel 4: Modelul tabelului de contingență ......................................................................................................14
Tabel 5: Gruparea agenților economici după numărul de salariați și după cifra de afaceri (al doilea exemplu
de tabel de contingență) ..................................................................................................................................19
Tabel 6: Tabel de asociere ................................................................................................................................22
Tabel 7: Rangurile țărilor în funcție de rata de alfabetizare a populației masculine și feminine ....................24
Tabel 8: Cifra de afaceri și profitul obținute de 8 companii studiate ...............................................................25

Lista figurilor

Figura 1: Diagrama rezultatelor la admitere și în prima sesiune de examene .................................................11


Figura 2: Legătură liniară directă......................................................................................................................12
Figura 3: Legătură liniară inversă .....................................................................................................................12
Figura 4: Legătură neliniară ..............................................................................................................................12
Figura 5: Absența legăturii ...............................................................................................................................12

2
Figura 6: Legătură puternică ............................................................................................................................12
Figura 7: Legătură slabă ...................................................................................................................................12

3
1. INTRODUCERE: CUI FOLOSEȘTE ECONOMETRIA
Oamenii se tem cel mai mult de ceea ce nu cunosc, de ceea ce nu le este familiar. La fel și voi,
studenții, aveți o reticență, dacă nu chiar o repulsie față de matematică și, de aici, față de statistică și
econometrie. Unii dintre voi ajungeți chiar să fiți convinși că nicăieri și niciodată statistica sau
econometria nu vă vor fi de folos. Teama de statistică și econometrie este alimentată de mulțimea de
formule pe care trebuie să le aplicați în tot soiul de probleme aparent în mod mecanic, iar teama se
transformă în coșmar atunci când ar trebui să memorați formulele. Nu, formulele nu trebuie învățate
pe de rost. Nu trebuie să le memorați pentru că formulele sunt peste tot: în cărți, pe Wikipedia, în o
sumedenie de documente pe care le găsim pe Internet. Apoi există calculatoare care fac aceste calcule
pentru noi. Este nevoie doar de câteva exemple simple ”de mână” ca să înțelegeți logica lucrurilor și,
pe măsură ce le folosiți, rămân în memorie. Înțelegerea formulelor este, însă, obligatorie. Altfel nu
am ști cum să interpretăm rezultatele statistice, pentru că nu pătrundem înțelesul lor.

De ce este util să cunoaștem econometrie? Econometria, în sens semantic, înseamnă


„măsurare economică”. Econometria poate fi definită ca știința socială în care instrumentele teoriei
economice, matematice și inferența statistică sunt aplicate pentru analiza fenomenelor economice
(Goldberger, 1964, p. 1). Aici apare un termen pe care l-am cunoscut la cursul de statistică: inferența
statistică.

Studenții la științe economice studiază, evident, multe discipline din aria economiei. Studiază,
spre exemplu, contabilitatea. În contabilitate se produc și se înregistrează sistematic date despre
tranzacțiile unei companii. Studiază, de asemenea, teoria microeconomică, unde află legi care
postulează, spre exemplu, că o creștere a prețului unui produs conduce la scăderea cantității
consumate și, implicit, a cantității vândute din acel produs. Sau, la teoria macroeconomică, studiază
legături între producție, consum și investiții. Observați că vorbim despre „legături”? Între preț și
cantitate presupunem că există o legătură inversă, despre care ați aflat la cursul introductiv de
statistică. Producția presupune o anumită combinație dintre consum și investiții, dacă simplificăm
foarte mult expunerea, limitând producția doar la acești termeni.
Damodar Gujarati (Gujarati, 2004) argumentează necesitatea studiului econometriei amintind
că, în teoriile economice, afirmațiile sau ipotezele sunt în cea mai mare măsură calitative. Dacă
teoriile identifică relații, acestea nu sunt însoțite și de măsuri numerice. De aceea, strict din teorie nu
putem spune cu cât se va modifica cantitatea consumată dintr-un produs dacă prețul crește cu un leu
sau cu un anumit procent. Econometria are acest exact acest scop, de a conferi teoriei economice o
bază factuală, empirică. Cu ajutorul metodelor econometrice putem valida o teorie economică sau
chiar să descoperim una nouă.

Dar să nu ne referim doar la teoria economică. Încă din copilărie suntem învățați de părinți că
este bine să mergem la școală pentru că asta ne va aduce, foarte probabil, un trai mai bun. Nu pare a
fi o teorie, ci mai degrabă o concluzie reieșită din observarea societății, adică o concluzie empirică.
Atunci, ar fi de interes să aflăm care este venitul suplimentar adus de fiecare an de școală în plus?
Există date pentru asta, de ce nu am încerca să aflăm? Postulăm, așadar, că există o relație pozitivă
4
între numărul de ani de educație și venit. Cu toate acestea, cunoaștem destule cazuri care ne arată că
venitul nu este influențat numai de anii de școală, pentru că mai sunt și alți factori: ocupația,
experiența la locul de muncă sau experiența acumulată în afara școlii sau a unui loc de muncă, zona
geografică, mărimea întreprinderii etc. Alegerea acestor „alți factori” nu este foarte simplă, din mai
multe motive: pe ce anume ne bazăm când alegem un factor și renunțăm la altul; dacă am ales un
factor sau altul, există date pentru aceștia? Acestea sunt doar două întrebări. Mai departe, dacă
estimăm cu un model econometric că fiecare an de educație aduce o anumită sumă de bani în plus,
este corect să concluzionăm că e profitabil să învățăm cât mai mulți ani, până la vârste înaintate,
pentru că așa ne spune modelul econometric? Desigur că nu. Așadar, orice model, inclusiv cel
econometric, trebuie supus testului realității, oricât de atractiv ar fi.

Econometricianul, mai notează Gujarati, este nevoit să lucreze cu date produse în altă parte, de
altcineva, fără să poată interveni asupra lor. De cele mai multe ori, aceste date provin din sistemele
proprii ale companiilor, așa cum sunt datele produse de contabili, sau datele din sistemele băncilor
prin care se înregistrează fiecare tranzacție. Datele sunt așezate de econometrician într-o formă
matematică, mai precis în forma unor ecuații care, de fapt, sunt un model al realității sintetizate prin
teoria economică respectivă. Aceste modele, care presupun cunoștințe și pricepere, sunt destinate
exclusiv testării empirice a teoriei. Datele colectate cu sau fără ajutorul metodelor statistice, dar
descrise cu ajutorul statisticilor descriptive și cu ajutorul ecuațiilor matematice, sunt transpuse în
formă econometrică pe baza unei teorii sau ipoteze. Prin modele econometrice, apoi, se pot formula
și testa politici economice: ce efect va avea reducerea sau creșterea TVA asupra consumului
gospodăriilor, producției interne, importului, exportului și vânzărilor, sau asupra bugetului de stat?
Sau se pot formula modele de risc: care este probabilitatea ca un client cu un anumit profil determinat
de vârstă, de venit, situație familială, istoric al rambursării creditelor anterioare etc.) să nu își poată
plăti rata unui credit, probabilitate care va condiționa decizia băncii de a-i oferi sau nu un nou credit?
Sunt extrem de numeroase exemplele în care cunoștințele de teorie economică, cele de
matematică, de statistică și de econometrie sunt folosite pentru a găsi răspunsuri la probleme concrete,
nu numai de tipul celor enumerate mai sus. Însă pentru a găsi soluții cu ajutorul instrumentelor de
analiză a datelor, un viitor ”analist de date”1 trebuie să aibă cunoștințe și deprinderi de matematică
ori de statistică, de utilizare a tehnologiilor de prelucrare a datelor și, cel puțin la fel de important, să
cunoască domeniul de activitate în care dorește să aplice aceste cunoștințe și deprinderi. Spre
exemplu, este foarte greu pentru un analist să construiască un model al profitabilității cardurilor de
credit dacă nu cunoaște factorii care contribuie la veniturile și cheltuielile rezultate din operațiunile
cu carduri de credit.

1
Sau, mai cosmopolit, ”data analyst”, ”business intelligence expert”, ”data scientist” etc. Sunt o multitudine de denumiri
de posturi pentru care se cer astfel de competențe.

5
2. OBIECTIVELE ȘI STRUCTURA CURSULUI DE ECONOMETRIE
Acest curs face parte din planul de învățământ al studenților din anul al II-lea al Facultății de Finanțe-
Bănci, Contabilitate și Administrarea Afacerilor din Universitatea ”Titu Maiorescu” din București și
face parte din categoria disciplinelor fundamentale de studiu.

Obiectivul general al disciplinei constă în formarea de economiști capabili să utilizeze tehnicile și


metodele cantitative de modelare, descriere și interpretare a rezultatelor statistice în contextul unui
mediu profesional.
Obiectivele specifice privesc acumularea de cunoștințe generale și a deprinderilor de bază în ceea ce
privește identificarea și specificarea modelelor econometrice. Mai precis, la sfârșitul cursului,
studentul trebuie să fie capabil să:

• cunoască principalele categorii de modele econometrice;


• construiască o specificație de bază a modelelor econometrice;
• înțeleagă ce înseamnă testele statistice și cum se construiesc;
• utilizeze cele mai întâlnite instrumente de modelare, de calculare a statisticilor unei funcții
de regresie lineară și ale unui model ANOVA cu un factor în MS Excel;
• interpreteze rezultatele estimărilor și statisticile de test;
• formuleze elementele esențiale ale unui raport de analiză a datelor.
Având în vedere timpul alocat, subiectele acestui curs sunt următoarele:
1. Introducere în metodologia econometrică: variabile aleatorii bidimensionale; probleme de
asociere vs. cauzalitate; coeficientul și rapoartele de corelație
2. Modele probabilistice clasice utilizate în probleme de econometrie: teoria lui Keynes, aplicații
microeconomice
3. Probleme generale de inferență statistică: distribuții de probabilitate, testarea ipotezelor,
verificarea supozițiilor fundamentale ale unui model de regresie liniar
4. Modelul econometric liniar unidimensional (regresia liniară simplă): specificarea modelului,
metoda celor mai mici pătrate, estimarea coeficienților funcției de regresie, testarea ipotezelor
asupra coeficienților funcției de regresie
5. Modelul econometric liniar multidimensional (regresia liniară multiplă): specificarea
modelului, estimarea coeficienților funcției de regresie, testarea ipotezelor asupra
coeficienților funcției de regresie
6. Bazele analizei factoriale: Modelul ANOVA cu un factor

Corespunzător acestor subiecte, cursul este organizat pe șase unități de învățare. Fiecare unitate este
structurată pe o prezentare a problematicii abordate, însoțită de exemple și de exerciții. Exercițiile
sunt concepute ca teme accesibile pe platforma online, cu termene de predare explicite și ale căror
note vor intra în calculul agregat al notei finale.

6
3. ANALIZA LEGĂTURILOR DINTRE VARIABILE
Într-o cercetare statistică sunt înregistrate întotdeauna date pentru mai multe variabile, nu doar
pentru una singură. În cursul de statistică descriptivă au fost prezentate modalitățile prin care datele
aferente unei variabile pot fi prelucrate și analizate independent de cele ce descriu celelalte variabile.
De cele mai multe ori, însă, este necesar să ne punem câteva întrebări: Între aceste variabile există
vreo legătură? Dacă există, cât de puternică este? Cum se comportă o variabilă dacă alta sau altele se
modifică? Spre exemplu, un manager poate fi interesat de legătura dintre salariul angajaților, pe de o
parte, și experiența anterioară ori performanța lor la locul de muncă, pe de altă parte. Sau un sociolog
vrea să știe cum se relaționează rezultatele la examene ale studenților cu locul de muncă și venitul pe
care le au după absolvire. Pentru a estima astfel de legături, statisticienii utilizează tehnicile de
regresie și, pentru a măsura cât de puternice sunt aceste legături, ei utilizează tehnicile de corelație,
analizând seriile interdependente.

În acest capitol se tratează conceptele, tehnicile și metodele utilizate cel mai frecvent în
analiza legăturii între variabile statistice: metode simple de caracterizare a legăturii dintre două
variabile; regresia liniară simplă și multiplă; indicatorii prin care se măsoară intensitatea legăturilor
statistice; corelația neparametrică.
Cunoașterea acestor tehnici și metode este utilă în practica economică pentru explicarea
evoluției fenomenelor în trecut, dar și pentru fundamentarea predicției evoluției variabilelor în viitor
sau în circumstanțe diferite.

3.1 TIPURI DE LEGĂTURI


Prima problemă care trebuie soluționată în analiza legăturii între o variabilă dependentă
(rezultativă, efect sau explicată, notată cu Y) și una sau mai multe variabile independente
(factoriale, cauzale sau explicative, notate cu Xi) este următoarea: „există o legătură între variabile”
sau „modificarea variabilei explicate este influențată de modificarea variabilei (variabilelor)
explicative”? Răspunsul la o astfel de întrebare presupune să se pornească de la teorie, respectiv de
la știința de specialitate care studiază fenomenele respective și de la datele empirice înregistrate
pentru variabilele presupuse a fi corelate.

De la bun început, însă, trebuie să clarificăm un aspect important referitor la legătura dintre
variabile, pe de o parte, și efectul uneia sau mai multor variabile asupra variabilei explicate sau
cauzalitatea, pe de altă parte: dacă între două variabile constatăm că există o legătură, cauzalitatea
dintre ele nu este implicită. În schimb, dacă între ele există o relație de cauzalitate, legătura este
implicită.
Pornind de la datele empirice, se pot întâlni în practică următoarele situații:

a) variabila independentă X determină modificarea variabilei dependente Y, caz în care între


cele două variabile există o legătură univocă;
b) între cele două variabile există o legătură reciprocă;
7
c) variabilele au o evoluție similară, determinată nu de dependența dintre ele, ci de o altă
variabilă care influențează simultan modificarea celor două variabile;

d) cele două variabile au întâmplător o evoluție similară, fără să existe vreo legătură între
ele.

În cele ce urmează se tratează numai primele două tipuri de relații dintre variabile.
Legăturile dintre variabilele independente se clasifică după mai multe criterii.

a) După natura relației de interdependență se disting legături funcționale (deterministe)


și legături stohastice (statistice).

În cazul legăturilor deterministe, legătura dintre variabila Y și variabila X este cunoscută


cu certitudine. Spre exemplu, relația dintre profit și costuri nu comportă nici un fel de incertitudine:
odată ce cunoaștem veniturile totale și costurile totale, vom putea afla cu exactitate care este profitul.
Cu alte cuvinte, variabila X determină în mod univoc variabila Y, ceea ce înseamnă că unei valori a
variabilei cauză îi corespunde o valoare unică a variabilei efect. Legăturile funcționale sunt de forma:
𝑦 = 𝑓(𝑥). Acest tip de legătură se întâlnește mai rar în realitatea economico-socială, deoarece variația
unei variabile efect (Y) este rezultatul influenței simultane a mai multor variabile cauză (Xi).

Legăturile stohastice se întâlnesc cel mai frecvent în realitatea economico-socială. În acest


caz, modul în care funcționează legătura dintre variabile nu poate fi precizat cu certitudine. Legătura
statistică există între două variabile dacă valoarea medie a unei variabile se află în relație cu valoarea
medie a altei variabile. Astfel, variabila dependentă (Y) este influențată de una sau mai multe variabile
independente (Xi), dar pe lângă aceste cauze considerate esențiale există și alte variabile neînregistrate
(nespecificate) care acționează asupra variabilei Y. Caracteristic pentru legăturile stohastice este
faptul că în variația variabilei Y rămâne întotdeauna o parte neexplicată, determinată de influența
factorilor neînregistrați. Cu alte cuvinte, nu putem calcula cu certitudine care este valoarea variabilei
explicate pe baza unei valori a variabilei explicative.
Influența variabilelor nespecificate este luată în calcul în modelul stohastic sub forma variabilei
reziduale (𝜀), denumită și eroare aleatorie:

𝑦 = 𝑓(x) + 𝜀 (1)

Legătura statistică nu poate fi identificată la nivelul fiecărei unități, ci numai la nivelul


ansamblului unităților observate. Tendința de corelare se manifestă numai în cazul unui număr
suficient de mare de înregistrări.
b) După numărul variabilelor factoriale luate în considerare se deosebesc legături simple
și legături multiple.
În cazul legăturilor simple, se analizează dependența variabilei efect (Y) în funcție de o
singură variabilă cauză (X), toate celelalte variabile cu o influență semnificativă sau nu (esențiale sau
întâmplătoare) sunt considerate cu o acțiune constantă. De exemplu, dependența profitului de cifra de
afaceri.

8
În cazul legăturilor multiple, variația variabilei Y se analizează în funcție de mai multe
variabile cauză (X1, X2, ...).

De exemplu, analiza variației salariului într-o colectivitate (Y) în funcție de numărul orelor
lucrate (X1), de vechime (X2), de nivelul calificării (X3).

c) După natura caracteristicilor se disting legături corelative și legături de cauzale.


În cazul analizei legăturii dintre două variabile cantitative sau una cantitativă și alta calitativă
poate fi vorba, în primul rând, de o corelație statistică. De exemplu, ne putem propune să analizăm
legătura dintre ramura de activitate economică și câștigul salarial. Este destul de lesne să observăm
că există anumite ramuri cu salarii ridicate (sectorul financiar-bancar sau producerea energiei
electrice) și altele cu salarii mai mici (industria confecțiilor, turism și restaurante sau educație). De
asemenea, putem considera exemplul anecdotic al corelației dintre numărul nou-născuților și numărul
cuiburilor de barză2. Între cele două fenomene poate exista o corelație, dar nu în mod necesar o
cauzalitate: va crește numărul nou-născuților dacă va crește numărul cuiburilor de barză sau invers?
Firește că nu, nici într-un sens, nici în celălalt.

Cauzalitatea statistică intervine în cazul legăturilor dintre două sau mai multe variabile
cantitative în sensul că modificarea uneia sau mai multor variabile considerate explicative antrenează
modificarea variabilei explicate într-o manieră consistentă. În cazul cuiburilor de barză și al nou-
născuților există, cel puțin, o a treia variabilă care le influențează distinct: ritmul biologic, gradul de
dezvoltare socio-economică, prezența și/sau abundența resurselor de hrană etc.
d) După direcția legăturii există legături directe și legături inverse.
Dacă modificarea variabilei cauză este însoțită de modificări în același sens ale variabilei
efect, există o legătură directă. În cazul în care variabilele corelate tind să se modifice în sens opus,
este cazul unei legături inverse.
e) După forma funcției (expresia analitică a legăturii) acestea pot fi liniare sau neliniare.
Dacă reprezentarea grafică a datelor empirice corespunzătoare celor două variabile sugerează
o dreaptă, legătura este liniară. În cazul legăturilor neliniare, dependența dintre variabile se exprimă
grafic printr-o curbă (hiperbolă, parabolă etc).

f) După timpul realizării legăturii se deosebesc legături sincrone (concomitente) și


asincrone (cu decalaj).

În primul caz, modificarea variabilelor se produce în același timp, concomitent, iar în cel de
al doilea caz variația variabilei cauză (X) este urmată după un anumit timp de variația variabilei efect
(Y). De exemplu, legătura dintre modificarea prețurilor de consum și modificarea cheltuielilor

2
Acest exemplu este atribuit lui Jerzy Neyman, însă chiar Neyman îl consideră ca autor originar pe George Udny Yule.

9
populației pentru consum este una sincronă, iar legătura dintre investițiile realizate în economie și
modificarea produsului intern brut este una asincronă.

Analiza corelațiilor presupune parcurgerea următoarelor etape:


• identificarea variabilelor cauză și ierarhizarea acestora;

• culegerea datelor pentru variabile presupuse a fi corelate;


• verificarea existenței și a formei legăturii prin metode simple;

• calculul indicatorilor de corelație și testarea semnificației indicatorilor de corelație.

3.2 METODE SIMPLE DE ANALIZĂ A LEGĂTURII DINTRE VARIABILE

După culegerea datelor pentru variabilele implicate în analiza legăturii, trebuie verificat dacă
între variabile există o corelație, care este forma analitică a acesteia. Metodele care răspund acestor
probleme de cunoaștere sunt, de fapt, procedee de sistematizare a datelor empirice înregistrate, și
anume: metoda grafică; metoda grupărilor; metoda tabelului de corelație (de contingență). În cele ce
urmează ne concentrăm pe metoda grafică și metoda tabelului de contingență.

3.2.1 Metoda grafică

Metoda grafică este un procedeu simplu și sugestiv de vizualizare a interdependenței dintre


două variabile. Această metodă este, de altfel, cea mai rapidă pe care o putem aplica cu ajutorul celor
mai comune aplicații informatice care ne oferă posibilitatea de a realiza grafice prin nor de puncte3.
Metoda presupune reprezentarea grafică, în sistemul de axe rectangulare, a perechilor de
valori empirice (xi, yi). Pe abscisă se înscriu valorile caracteristicii independente iar pe ordonată cele
ale caracteristicii dependente. Fiecare pereche de valori empirice se reprezintă în cadranul I printr-un
punct. Procedând astfel se obține o diagramă de corelație sau o corelogramă.

Să presupunem că ne interesează să vedem dacă există o relație între nota de la examenul de


admitere la o universitate și media notelor primite la prima sesiune de examene de către studenți.
Firesc, vom avea nevoie de un eșantion de studenți din anul I asupra cărora să organizăm o cercetare
statistică. Eșantionul este format din 10 studenți, iar rezultatele observării sunt prezentate în tabelul
următor.

3
„Scatter diagrams” în limba engleză sau “nouage de points” în limba franceză.

10
Tabel 1: Rezultatele la examenul de admitere și media notelor din prima sesiune de examene –
eșantion de 10 studenți

Media notelor la
Student Nota la admitere examenele din prima
sesiune
1 7,34 7
2 8,52 8
3 8,05 7
4 9,21 8
5 6,55 7
6 7,32 6
7 9,16 9
8 9,33 7
9 7,21 8
10 6,15 6

Pentru construirea graficului, variabila explicativă (sau independentă) este nota la admitere,
ale cărei valori le vom reprezenta pe axa orizontală, iar variabila explicată (sau dependentă) este
media notelor la examenele din prima sesiune, ale cărei valori le vom reprezenta pe axa verticală în
Figura 1.

10

9
Media la examene

4
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10
Nota la admitere

Figura 1: Diagrama rezultatelor la admitere și în prima sesiune de examene

Pe baza graficului se concluzionează dacă există o corelație, dacă există date atipice și care
este forma și direcția legăturii în funcție de tendința de ordonare a punctelor. Din graficul de mai sus
rezultă destul de vizibil că există o relație între cele două variabile, respectiv o legătură directă între
nota la admitere și rezultatele din prima sesiune de examene.

11
Dacă punctele tind să se ordoneze în jurul unei linii drepte, corelația este liniară directă
(Figura 2) sau inversă (Figura 3), iar dacă se ordonează sub forma unei curbe (Figura 4), între cele
două variabile există o corelație neliniară. De asemenea, graficul ne arată și dacă nu există nici o
relație între două variabile (Figura 5). Dacă punctele se împrăștie fără nici o regularitate, variabilele
trebuie considerate independente.

Figura 2: Legătură liniară directă Figura 3: Legătură liniară inversă

Figura 4: Legătură neliniară Figura 5: Absența legăturii

Cu cât tendința de ordonare a punctelor este mai pronunțată, cu atât corelația între cele două
variabile este mai intensă, adică legătura este puternică (Figura 6). Dacă punctele sunt ordonate, dar
sunt relativ împrăștiate, legătura dintre variabile este mai slabă (Figura 7).

Figura 6: Legătură puternică Figura 7: Legătură slabă

12
În mod evident, metoda grafică ne arată care este forma relației doar dintre două variabile.
Dacă vom considera o variabilă drept variabilă efect și vom încerca să o punem în relație cu un set de
alte variabile explicative pe care le-am inclus în programul de observare, singura posibilitate de a
vizualiza legăturile existente este să construim perechi între variabila efect și fiecare din variabilele
explicative.

3.2.2 Metoda tabelului de contingență

Metoda tabelului de contingență (de corelație) presupune gruparea unităților colectivității


după variația unui set de două variabile și interpretarea tendinței de ordonare a frecvențelor.

De regulă, o variabilă este prezentată sub forma unei distribuții de frecvențe sau de
probabilitate. Distribuția variabilelor X și Y se prezintă în următoarea formă:

Tabel 2: Distribuțiile de probabilitate a variabilelor X și Y

x1 x2 x3 … xn

p(x1) p(x2) p(x3) … p(xn)

y1 y2 y3 … yn

p(y1) p(y2) p(y3) … p(yn)


unde

• 𝑥𝑖 , i = ̅̅̅̅̅
1, 𝑛 reprezintă valorile variabilei explicative X

• 𝑦𝑖 , i = ̅̅̅̅̅
1, 𝑛 reprezintă valorile variabilei explicate Y

• p(𝑥𝑖 ) reprezintă probabilitățile de apariție a valorilor 𝑥𝑖 (și ca frecvențe)

• p(𝑦𝑖 ) reprezintă probabilitățile de apariție a valorilor 𝑦𝑖

Așadar, este facilă calcularea mediei și a altor statistici descriptive ale distribuției valorilor 𝑥𝑖
și 𝑦𝑖

În tabelele de contingență se poate recurge la gruparea datelor în intervale de valori sau


grupele pot fi reprezentate de valorile individuale ale celor două variabile observate.

Grupele construite după variabila independentă (Y) apar, de regulă, pe coloane, iar cele
aferente variabilei dependente (X) apar pe rânduri. La intersecția dintre rândul "i" și coloana "j" apare
numărul unităților (nij) corespunzător perechii de valori xj, yi. Tabelul care rezultă este unul cu dublă
intrare (vezi Error! Reference source not found.).

Spre exemplu, Error! Reference source not found. grupează 80 de întreprinderi pe două c
riterii (variabile de analiză): numărul de salariați și cifra de afaceri, considerând că numărul de
salariați (variabila independentă) influențează direct cifra de afaceri (variabila dependentă).

13
Dacă valorile care definesc intervalele de grupare după X și Y au fost ordonate crescător, iar
frecvențele tind să se ordoneze după diagonala principală, atunci există o corelație directă.

Dacă frecvențele se concentrează în jurul diagonalei secundare, atunci există o corelație


inversă. Cu cât concentrarea frecvențelor în jurul unei diagonale este mai puternică, cu atât legătura
dintre cele două variabile este mai intensă.
Împrăștierea fără nici o regularitate a frecvențelor sugerează că cele două variabile sunt
independente sau necorelate.
Tabel 3: Gruparea agenților economici după numărul salariaților și după cifra de afaceri (primul
exemplu de tabel de contingență)

Grupe Grupe după cifra de afaceri (mil. lei)


după nr. Total
salariați 4-6 6-8 8 - 10 10 - 12 12 - 14
0–9 6 8 6 - - 20
10 – 19 4 11 11 4 - 30
20 – 29 - - 4 7 4 15
30 – 39 - - - 5 5 10
40 – 49 - - - 2 3 5
Total 10 19 21 18 12 80

Din felul în care se distribuie frecvențele observate (pe diagonala principală) intuim că există
o legătură directă între numărul de salariați și cifra de afaceri.

În Tabel 4 este prezentată macheta unei distribuții bidimensionale, în care valorile au fost
împărțite în r grupe după caracteristica X și în c grupe după caracteristica Y.

Tabel 4: Modelul tabelului de contingență

Totalul
Valorile Valorile frecvențelor
variabilei caracteristicii Y(yi) asociate
X (xi) variabilei
y1 y2 ... yj ... yc X (xi.)
x1 n11 n12 ... n1j … n1c n1.
x2 n21 n22 ... n2j … n2c n2.
... … ... … ... … … …
xi ni1 ni2 ... nij … nic ni.
... … ... … ... … … …
xr nr1 nr2 ... nrj … nrc nr.
Totalul
frecvențelor
asociate n.1 n.2 … n.j ... n.c n..
variabilei
Y (n.j)
14
Fiecare linie și fiecare coloană a tabelului de contingență definesc o distribuție după o singură
valoare a variabilei de pe rând și de pe coloană.
Ultimul rând și ultima coloana care dau repartiția populației totale după fiecare variabilă se
numesc distribuții marginale. Punctele din notațiile frecvențelor (𝑛.𝑗 , 𝑛𝑖. , 𝑛.𝑐 , 𝑛𝑟. , 𝑛.. ) semnifică
faptul că pe rândul sau coloana respectivă s-a procedat la însumarea frecvențelor de pe rândul sau
coloana în cauză.
Celelalte rânduri și coloane care ne dau repartiția populației care corespunde unei condiții a
uneia dintre variabile în funcție de cealaltă variabilă se numesc distribuții condiționate. Spre
exemplu, primul rând ne arată distribuția variabilei Y condiționată de valoarea 𝑥1 a variabilei X, iar
prima coloană ne arată distribuția variabilei X condiționată de valoarea 𝑦1 a variabilei Y.

3.3 REGULA DE ADUNARE A DISPERSIILOR

În cele ce urmează sunt prezentate o serie de proprietăți ale distribuției bidimensionale, de a


căror înțelegere depinde înțelegerea unui număr mare de categorii de modele de analiză econometrică,
printre care regresia liniară sau modelele ANOVA. Deoarece sunt introduse o serie de noi concepte
de analiză a datelor care sunt ”statistici”, apelul la relații matematice este inevitabil. În mare parte ne
vom limita la relații algebrice clasice în care sunt folosite notații statistice cunoscute. Atenția și
răbdarea vor fi puse la încercare, însă trebuie să aveți încredere că le puteți parcurge și înțelege, dar
cu o condiție: să scrieți pe hârtie relațiile de calcul și să exersați calcule ”de mână” cu exemplele
simple prezentate pentru a înțelege pe deplin logica procesului de analiză și pentru a interpreta
rezultatele obținute.
Dispersia este un indicator pe baza căruia se calculează abaterea medie pătratică. De
asemenea, se folosește la analiza interdependențelor, în sensul că, nu de puține ori, este necesar să se
cuantifice cât din variația valorilor unei variabile efect (rezultat) se poate explica pe seama altei /
(altor) variabile explicative. De exemplu, ne interesează cât la sută din variația cifrei de afaceri celor
80 de întreprinderi se poate explica prin variația numărului de angajați?

Pentru a răspunde unei astfel de cerințe de cunoaștere se recurge la tabelul de contingență.


Corespunzător celor două tipuri de distribuții se pot calcula pentru variabila Y următoarele
medii:

• media generală pentru distribuția marginală a variabilei Y (y), calculată prin


intermediul valorilor individuale ale variabilei Y și a distribuției marginale a acesteia:
∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛.𝑗
𝑦= (2)
∑𝑐𝑗=1 𝑛.𝑗

15
Aceeași măsură poate fi obținută prin intermediul valorilor individuale ale variabilei Y pe
ansamblul distribuției din tabelul de contingență:
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗
𝑦= (3)
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑛𝑖𝑗

• medii de grupă sau medii condiționate (y̅i ) de factorul de grupare xi pentru


distribuțiile condiționate:
∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗 ∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗
𝑦̅𝑖 = = (4)
∑𝑐𝑗=1 𝑛𝑖𝑗 𝑛𝑖•

Formula de mai sus arată că, pentru fiecare valoare 𝑥𝑖 a variabilei X, se poate calcula o valoare
medie a variabilei Y.
Pe baza relației 3, relația 4 a mediei generale poate fi rescrisă în funcție de mediile
condiționate ale variabilei Y, astfel:
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗 ∑𝑟𝑖=1 𝑦̅𝑖 ⋅ 𝑛𝑖•
𝑦= = (5)
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑛𝑖𝑗 ∑𝑟𝑖=1 𝑛𝑖•

Formula de mai sus arată că, mai întâi, pentru fiecare valoare a variabilei X (rândul i) se
ponderează valorile variabilei Y cu frecvențele 𝑛𝑖𝑗 , parcurgând toate coloanele de la stânga la dreapta.
În final, se însumează aceste valori ponderate pentru toate rândurile (de sus în jos). Ultimul termen al
relației arată că aceeași medie generală poate fi obținută ponderând mediile condiționate ale variabilei
Y cu ponderile date de frecvențele marginale ale fiecărui rând.
Numărul mediilor de grupă este egal cu numărul grupelor construite după caracteristica
factorială X (adică numărul de rânduri r), iar media mediilor de grupă este egală cu media generală,
așa cum se poate vedea în relația 5.
Deoarece dispersia măsoară variația valorilor unei variabile de la media lor și pornind de la
valorile individuale ale variabilei efect (𝑦𝑗 ), de la mediile condiționate (𝑦̅𝑖 ) și de la media generală
(𝑦) se pot determina următoarele abateri:

a) variația valorilor individuale în jurul mediei generale, yj − y;

b) variația valorilor individuale în jurul mediilor de grupă (condiționate), yj − yi;

c) abaterea mediilor condiționate de la media generală, yi − y.

Corespunzător celor trei tipuri de abateri, la nivelul fiecărei unități observate se poate scrie:

𝑦𝑗 − 𝑦 = 𝑦𝑗 − 𝑦𝑖 + 𝑦𝑖 − 𝑦 (6)

Relația 6 arată că abaterea totală este egală cu suma dintre abaterea valorilor individuale fată
de media grupei și abaterea mediei de grupă de la media generală. Ce semnificație au aceste abateri?

16
Termenul din stânga al relației, 𝑦𝑗 − 𝑦, măsoară variația valorilor individuale în jurul mediei
generale. Dacă valorile empirice înregistrate (𝑦𝑗 ) sunt rezultatul influenței tuturor factorilor (esențiali
și neesențiali), iar media presupune că toți factorii sunt constanți, înseamnă că această diferență
exprimă variația valorilor individuale în jurul mediei sub acțiunea tuturor factorilor: factorul X
considerat esențial și toți ceilalți factori, considerați neesențiali.

Primul termen al părții din dreapta a relației, 𝑦𝑗 − 𝑦𝑖 , măsoară variația valorilor individuale
de la media de grupă, deci exprimă variația în interiorul fiecărei grupe construite după factorul X.
Cum factorul X are aceeași valoare în cazul tuturor unităților din aceeași grupă, înseamnă că această
diferență se datorează acțiunii cauzelor din interiorul grupei, deci a factorilor neesențiali.

Al doilea termen al părții din dreapta a relației, 𝑦𝑖 − 𝑦, evidențiază influența factorului esențial
de grupare (X) asupra variației valorilor mediei condiționate în jurul mediei generale.
Pe baza acestor abateri se pot calcula următoarele dispersii.

Dispersia generală (𝜎02 sau 𝜎𝑌2 ) se determină pentru repartiția marginală construită pentru Y,
și ca urmare, nu ține seama de grupele construite după factorul X.
2
∑cj=1(yj − y) ⋅ n•j
σ20 = (7)
∑cj=1 n•j

Prin 𝜎02 se măsoară variația variabilei dependente (efect) sub influența tuturor factorilor.

Formula de mai sus arată, în pași, că:

a) din fiecare valoare a variabilei Y scădem media ei generală


b) această diferență este ridicată la pătrat

c) pătratul diferenței este ponderat cu raportul dintre frecvența de coloană și frecvența totală
d) se însumează toate pătratele ponderate ale diferențelor față de medie.

Pentru ansamblul tabelului de contingență, dispersia generală mai poate fi scrisă și sub
următoarea formă:
2
2
∑𝑟𝑖=1 ∑𝑐𝑗=1(𝑦𝑗 − 𝑦) ⋅ 𝑛𝑖𝑗
𝜎0 = (8)
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑛𝑖𝑗

Dispersia de grupă sau dispersia condiționată 𝜎𝑖2 măsoară variația la nivelul fiecărei grupe
construite după factorul X. Numărul dispersiilor de grupă este egal cu numărul grupelor stabilite după
caracteristica factorială (i = 1, 2 ... r).
2
∑𝑐𝑗=1(𝑦𝑗 − 𝑦𝑖 ) ⋅ 𝑛𝑖𝑗
𝜎𝑖2 = (9)
∑𝑐𝑗=1 𝑛𝑖𝑗

17
Fiecare dispersie de grupă măsoară variația valorilor variabilei dependente sub influența
factorilor din interiorul grupei respective, care sunt priviți ca factori neesențiali în raport cu factorul
X.
Pentru a măsura acțiunea tuturor factorilor neesențiali din toate grupele se calculează media
dispersiilor de grupă.
2
Media dispersiilor de grupă (𝜎 ) este o medie aritmetică ponderată a dispersiilor de grupă,
deoarece grupele au frecvențe diferite, motiv pentru care fiecare dispersie de grupă trebuie ponderată
corespunzător frecvenței pe care o are în total:

2 ∑𝑟𝑖=1 𝜎𝑖2 ⋅ 𝑛𝑖•


𝜎 = (10)
∑𝑟𝑖=1 𝑛𝑖•

Dacă toate grupele sunt de același volum (n1 = n2 = ... = ni = ...), atunci toate dispersiile de
𝑛1• 𝑛2• 𝑛𝑟•
grupă intră în calculul mediei cu aceeași importantă ∑𝑟 = ∑𝑟 = ⋯ = ∑𝑟 , atunci se aplică
𝑖=1 𝑛𝑖• 𝑖=1 𝑛𝑖• 𝑖=1 𝑛𝑖•

media aritmetică simplă:

2 ∑𝑟𝑖=1 𝜎𝑖2
𝜎 = (11)
𝑟
2
Dispersia dintre grupe (𝜎 2 ) sau dispersia explicată (𝜎𝑌/𝑋 ) măsoară variația mediilor de grupă
de la media generală și exprimă variația datorată acțiunii factorilor de grupare, deci a factorului X.
2
2
∑𝑟𝑖=1(𝑦𝑖 − 𝑦) ⋅ 𝑛𝑖•
𝜎𝑌/𝑋 = (12)
∑𝑟𝑖=1 𝑛𝑖•

Pornind de la factorii de influență care determină variația valorilor variabilei Y, între


dispersiile menționate există relația:
2
𝜎02 = 𝜎̅ 2 + 𝜎𝑌/𝑋 (13)

Relația 13 este denumită regula de adunare a dispersiilor.


Dispersia totală ne arată că este suma dintre media dispersiilor de grupă și dispersia mediilor
de grupă.
Pe baza acestei relații se calculează doi indicatori derivați (mărimi relative de structură) care
exprimă ponderea variației acțiunii fiecărui grup de factori (esențiali și neesențiali) în variația totală
și anume:

• Coeficientul de determinare (R2Y/X ), care exprimă ce cotă parte din variația totală se
datorează acțiunii factorului considerat esențial:
2
2
𝜎𝑌/𝑋
𝑅𝑌/𝑋 = ⋅ 100 (14)
𝜎02

18
• Coeficientul de nedeterminare (K 2Y/X ) măsoară cât la sută din variația totală se datorează
influenței factorilor neînregistrați, considerați neesențiali sau reziduali.
2
2
𝜎
𝐾𝑌/𝑋 = 2 ⋅ 100 (15)
𝜎0

Exemplul 1: Regula adunării dispersiilor


Variația cifrei de afaceri prezentată în Error! Reference source not found. este cauzată de acțiunea u
nui mare număr de factori: numărul salariaților, domeniul de activitate, prețurile practicate, calitatea
produselor etc.

Presupunem că un factor esențial de influență este numărul de salariați (X) și vrem să măsurăm cât
de mare este această influență asupra cifrei de afaceri. În acest caz se grupează mai întâi agenții
economici după acest factor, iar grupele obținute se definesc după cifra de afaceri (Y). Procedând
astfel se obține o repartiție bidimensională cum este, spre exemplu, cea din tabelul următor4.
Tabel 5: Gruparea agenților economici după numărul de salariați și după cifra de afaceri (al doilea
exemplu de tabel de contingență)

Grupe Grupe după cifra de afaceri (mii lei)


după
numărul de 1600- 2000- 2400- 2800- 3200- 3600- 4000- Total
salariați 2000 2400 2800 3200 3600 4000 4400
(pers.)
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200

Pentru verificarea regulii de adunare a dispersiilor și calculul coeficientului de determinare, procedăm


mai întâi la calculul mediilor pentru variabila « cifra de afaceri ».
a) media generală (𝑦 ):
∑7 𝑦𝑗 ⋅𝑛⋅𝑗 1800⋅15+2200⋅25+2600⋅50+3000⋅46+3400⋅35+3800⋅24+4200⋅5
𝑦 = ∑2𝑗=1∑7 = = 2906 𝑚𝑖𝑖 𝑙𝑒𝑖
𝑖=1 𝑗=1 𝑛𝑖𝑗 200

b) mediile de grupă (𝑦𝑖 ):

4
Pentru facilitarea calculelor, tabelul a fost simplificat, iar pentru valorile cifrei de afaceri au fost folosite centrele de
interval.

19
∑7𝑗=1 𝑦𝑗 ⋅ 𝑛1𝑗 1800 ⋅ 15 + 2200 ⋅ 25 + 2600 ⋅ 40 + 3000 ⋅ 25 + 3400 ⋅ 15 + 3800 ⋅ 0 + 4200 ⋅ 0
𝑦1 = =
∑7𝑗=1 𝑛1𝑗 120
= 2600 𝑚𝑖𝑖 𝑙𝑒𝑖

∑7𝑗=1 𝑦𝑗 ⋅ 𝑛2𝑗 1800 ⋅ 0 + 2200 ⋅ 0 + 2600 ⋅ 10 + 3000 ⋅ 21 + 3400 ⋅ 20 + 3800 ⋅ 24 + 4200 ⋅ 5


𝑦2 = =
∑7𝑗=1 𝑛2𝑗 80
= 3365 𝑚𝑖𝑖 𝑙𝑒𝑖

Media generală (𝑦) poate fi calculată pe baza mediilor parțiale (𝑦𝑖 ) astfel:
∑2𝑖=1 𝑦𝑖 ⋅ 𝑛𝑖• 2600 ⋅ 120 + 3365 ⋅ 80
𝑦= = = 2906 𝑚𝑖𝑖 𝑙𝑒𝑖
∑2𝑖=1 𝑛𝑖• 200

Să vedem cum facem toate aceste calcule în Error! Reference source not found..
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
𝒚𝒋 ⋅ 𝒏𝟏𝒋 27000 55000 104000 75000 51000 0 0 312000
𝒚𝒋 ⋅ 𝒏𝟐𝒋 0 0 26000 63000 68000 91200 21000 269200
𝒚 𝒋 ⋅ 𝒏 ⋅𝒋 27000 55000 130000 138000 119000 91200 21000 581200

În continuare, procedăm la calculul dispersiilor pentru variabila Y:


c) dispersia generală (𝜎02 = 𝜎𝑌2 )
2
∑7𝑗=1(𝑦𝑗 − 𝑦) ⋅ 𝑛•𝑗 (1800 − 2906)2 ⋅ 15 + (2200 − 2906)2 ⋅ 25+. . . +(4200 − 2906)2 ⋅ 5
𝜎02 = = =
∑7𝑗=1 𝑛•𝑗 200
71992800
= 359964
200
d) dispersiile de grupă (𝜎𝑖2 ):
2
∑7𝑗=1(𝑦𝑗 − 𝑦1 ) ⋅ 𝑛1𝑗 (1800 − 2600)2 ⋅ 15 + (2200 − 2600)2 ⋅ 25
𝜎12 = = +
∑7𝑗=1 𝑛1𝑗 120
(2600 − 2600)2 ⋅ 40 + (3000 − 2600)2 ⋅ 25 + (3400 − 2600)2 ⋅ 15 27200000
= = 226666,7
120 120
2
∑7𝑗=1(𝑦𝑗 − 𝑦2 ) ⋅ 𝑛2𝑗 (2600 − 3365)2 ⋅ 10 + (3000 − 3365)2 ⋅ 21
𝜎22 = = +
∑7𝑗=1 𝑛2𝑗 80
(3400 − 3365)2 ⋅ 20 + (3800 − 3365)2 ⋅ 24 + (4200 − 3365)2 ⋅ 5 897647375
= = 208775,0
80 80

e) media dispersiilor de grupă (𝜎2 ):

20
2 ∑2𝑖=1 𝜎𝑖2 ⋅ 𝑛𝑖• 226666,7 ⋅ 120 + 208775,0 ⋅ 80
𝜎 = = = 219510,0
∑2𝑖=1 𝑛𝑖• 200
2
f) dispersia dintre grupe (𝜎 2 ) sau dispersia explicată (𝜎𝑌/𝑋 )
2
2
∑2𝑖=1(𝑦𝑖 − 𝑦) ⋅ 𝑛𝑖• (2600 − 2906)2 ⋅ 120 + (3365 − 2906)2 ⋅ 80
𝜎𝑌/𝑋 = = = 140454,0
∑2𝑖=1 𝑛𝑖• 200

g) regula de adunare a dispersiilor:


22
𝜎02 = 𝜎 + 𝜎𝑌/𝑋 = 219510,0 + 140454,0 = 359964

După cum lesne se poate observa, regula de adunare a dispersiilor este verificată.

Calculele adiționale de mai sus sunt sintetizate în tabelul de mai jos:


Yj Total
Xi
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
2
(𝑦𝑗 − 𝑦)
18348540 12460900 4681800 406456 8541260 19181664 8372180 71992800,0
⋅ 𝑛•𝑗
2
(𝑦𝑗 − 𝑦1 ) ⋅ 𝑛1𝑗 9600000 4000000 0 4000000 9600000 0 0 27200000,0
2
(𝑦𝑗 − 𝑦2 ) ⋅ 𝑛2𝑗 0 5852250 2797725 24500 4541400 3486125 16702000,0

2
h) Coeficientul de determinare 𝑅𝑌/𝑋 este:
2
2 𝜎𝑌/𝑋 140454
𝑅𝑌/𝑋 = ⋅ 100 = ⋅ 100 = 39,01%. Aceasta înseamnă că 39% din variația cifrei de afaceri
𝜎02 359964

a celor 200 de întreprinderi este explicată de variația numărului de salariați, în timp ce restul de
71% din variație este explicată de alți factori, neobservați în studiul de față.

3.4 ANALIZA LEGĂTURII DINTRE VARIABILE: METODA CORELAȚIEI


Metodele statisticii descriptive oferă o serie de informații utile în studiul interdependențelor,
însă nu sunt în măsură să descrie analitic dependența și să măsoare numeric intensitatea acesteia.
Metodele care permit acest lucru sunt metoda corelației și metoda regresiei.

Din grupa metodei corelației diferențiem metodele neparametrice și parametrice de măsurare


a intensității legăturilor dintre variabile.

Diferențierea dintre metodele „parametrice” și „neparametrice” este extrem de importantă,


deși nu există o definiție unanim acceptată a semnificației celor doi termeni. Importanța este dată de
faptul că alegerea incorectă a unei metode sau a unei metode mai puțin puternice poate duce la
rezultate eronate și greu de explicat.

21
Un prim criteriu care ne indică natura metodei este faptul că în calculul indicatorilor statistici
intervin sau nu parametri calculați pe baza datelor ce provin, de regulă, dintr-un eșantion: medii sau
dispersii. În cazul în care se utilizează acești parametri, metodele sunt parametrice, iar în caz contrar
sunt neparametrice.

Metodele parametrice de măsurare a intensității legăturilor dintre variabile presupun


formularea anumitor supoziții asupra variabilelor implicate și a formei relației dintre acestea. Mai
precis, aceste metode pot fi aplicate dacă variabilele îndeplinesc două condiții:
a) sunt de natură cantitativă, numerică (scale de măsurare sunt de tip interval și raport);

b) repartițiile variabilelor tind spre distribuția normală.


Pentru evaluarea formei distribuției, indicatorii adecvați sunt cei ai asimetriei și aplatizării.
Dacă forma distribuțiilor diferă foarte mult de la una normală, există riscul ca rezultatul obținut să fie
incorect. În acest caz, se recomandă folosirea metodelor neparametrice. De altfel, dacă nu sunt
îndeplinite cele două condiții se recomandă aplicarea metodelor neparametrice.
Metodele neparametrice sunt mai slabe decât cele parametrice și se bazează numai poziția a
perechilor de scoruri (poziții) alocate valorilor analizate. Aceste metode se aplică în cazul în care
scala de măsurare a variabilelor este nominală sau ordinală.

3.5 METODE NEPARAMETRICE DE MĂSURARE A INTENSITĂȚII CORELAȚIEI


Cei mai utilizați indicatori din categoria metodelor neparametrice sunt: coeficientul de
asociere Yule; coeficientul de corelație a rangurilor Spearman; coeficientul de corelație a rangurilor
Kendall.
Coeficientul de asociere Yule (Q) se aplică în cazul analizei corelației dintre două variabile
alternative sau dihotomice. Astfel de caracteristici admit numai două forme de manifestare: DA și
NU și se codifică cu 1 și 0.

Repartiția celor două variabile alternative se prezintă într-un tabel de asociere care este o
variantă simplificată a tabelului cu dublă intrare. În acest tabel valorile variabilei X apar în capetele
rândurilor, iar cele ale variabilei Y apar în capetele coloanelor.
Tabel 6: Tabel de asociere

X \ Y 𝒚𝟏 (DA) 𝒚𝟐 (NU) Total


𝒙𝟏 (DA) n11 n12 n1.
𝒙𝟐 (NU) n21 n22 n2.
Total n.1 n.2 n..

Coeficientul de asociere Yule se calculează pe baza relației:


𝑛11 ⋅ 𝑛22 − 𝑛12 ⋅ 𝑛21
𝑄= (16)
𝑛11 ⋅ 𝑛22 + 𝑛12 ⋅ 𝑛21

22
Acest indicator poate lua valori cuprinse între - 1 și +1. Valorile negative ale lui Q indică o
asociere inversă, respectiv directă, dacă acest indicator este pozitiv.

Cu cât Q tinde mai mult spre ±1, cu atât asocierea este mai puternică. Dacă coeficientul de
asociere este egal cu 0, între cele două variabile nu există o legătură de asociere.

Coeficienții de corelație a rangurilor se aplică în cazul în care valorile sau formele de


manifestare a celor două variabile pot fi ierarhizate. Acești indicatori se recomandă în situațiile în
care cel puțin una din variabile este nenumerică (calitativă sau exprimată prin cuvinte) sau când
distribuția nu este cunoscută.

Caracteristic pentru acești coeficienți este faptul că la determinarea lor nu se pornește de la


valorile empirice corespunzătoare celor două variabile, ci de la numere care indică locul fiecărei
valori / forme de manifestare în serie, denumite ranguri (𝑅𝑥 , 𝑅𝑦 ). Deci, valorile empirice / formele de
manifestare se înlocuiesc cu ranguri. Se ordonează crescător rangurile după caracteristica X (cel mai
mic nivel are rangul 1) și se atașează rangurile corespunzătoare caracteristicii Y.

Coeficientul de corelație a rangurilor Spearman (𝑟𝑆 ) se determină pe baza rangurilor celor


două variabile (𝑅𝑥 , 𝑅𝑦 ), ordonate așa cum s-a menționat mai sus:

6 ⋅ ∑𝑁 2
𝑖=1 𝐷𝑖
𝑟𝑆 = 1 − (17)
𝑁 ⋅ (𝑁 2 − 1)
în care:

• Di = R x,i − R y,i

• N este numărul cuplurilor de valori X, Y.


Acest coeficient poate lua valori cuprinse între - 1 și +1 și se interpretează în același fel ca în
cazul coeficientului de corelație liniară (r).

Exemplul următor ilustrează modul de calcul al coeficientului de corelație a rangurilor


Spearman.

23
Exemplul 2: Calculul coeficientului de corelație a rangurilor Spearman
În tabelul următor sunt prezentate rangurile a 6 țări ordonate după rata de alfabetizare masculină (xi)
și feminină (yi). Spre exemplu, țara 3 este a IV-a în ordinea ratei de alfabetizare masculine și a V-a
după rata de alfabetizare feminină.

Tabel 7: Rangurile țărilor în funcție de rata de alfabetizare a populației masculine și feminine


Țara
1 2 3 4 5 6
Rangul xi 6 5 4 3 1 2
Rangul yi 6 4 5 2 1 3
𝑫𝒊 0 1 1 1 0 1
𝑫𝟐𝒊 0 1 1 1 0 1
6 ∑𝑁 2
𝑖=1 𝐷𝑖 6⋅4
𝑟𝑆 = 1 − 2
=1− = 0,886
𝑁(𝑁 − 1) 6 ⋅ (36 − 1)

Deoarece valoarea coeficientului de corelație a rangurilor Spearman este ridicată, concluzionăm că există o
corelație puternică între rata de alfabetizare a populației feminine și a celei masculine în cele 6 țări analizate.

Coeficientul de corelație a rangurilor Kendall (𝑟𝐾 ) se calculează numai pe baza rangurilor


variabilei Y, după ce datele au fost sortate după variabila X. Relația de calcul este:
∑ 𝑃𝑖 −∑ 𝑄𝑖
𝑟𝑘 = 1 (18)
𝑛(𝑛−1)
2

unde :

• ∑ Pi− suma rangurilor superioare care urmează în continuare după rangul i analizat;

• ∑ Qi − suma rangurilor inferioare care urmează în continuare după rangul i analizat.

• n este numărul de ranguri analizate.


Coeficientul Kendall ia de asemenea valori cuprinse între –1 și +1. Semnul coeficientului
indică direcția legăturii (+ corelație directă și – o corelație inversă), cu cât tinde mai mult spre ±1, cu
atât corelația este mai puternică.
Calculul coeficienților de corelație a rangurilor se exemplifică în continuare pe baza datelor
privind cifra de afaceri (X) și profitul (Y) realizate de către opt agenți economici.

24
Exemplul 3: Calculul coeficienților de corelație a rangurilor Spearman și Kendall

Într-o cercetare statistică au fost studiate 8 companii, ale căror cifră de afaceri și profit au fost
sintetizate în tabelul următor.
Tabel 8: Cifra de afaceri și profitul obținute de 8 companii studiate
Cifra de
Nr. Profit
afaceri Rx Ry Di2 Pi Qi
crt. (mil. lei)
(mil. lei)
1 47 4,0 1 1 0 7 0
2 54 4,7 2 2 0 6 0
3 58 5,9 3 7 16 1 4
4 60 5,2 4 4 0 3 1
5 61 5,0 5 3 4 3 0
6 62 5,8 6 6 0 1 1
7 64 5,6 7 5 4 1 0
8 70 6,4 8 8 0 0 0
Total - - - - 24 22 6

Pi și Qi au fost determinate exclusiv pe baza coloanei de ranguri Ry.


Aplicând relațiile corespunzătoare,
• Coeficientul de corelație Spearman este:

6 ∑𝑁 2
𝑖=1 𝐷𝑖 6 ⋅ 24 144
𝑟𝑆 = 1 − 2
=1− =1− = 0,714
𝑁(𝑁 − 1) 8 ⋅ (64 − 1) 504

• Coeficientul de corelație Kendall este:


∑ 𝑃𝑖 − ∑ 𝑄𝑖 2 ⋅ (22 − 6) 32
𝑟𝑘 = = = = 0,571
1 8 ⋅ (8 − 1) 56
2 𝑛(𝑛 − 1)

Corelația dintre cele două variabile este una directă și destul de mare ca intensitate.

25
3.6 METODE PARAMETRICE DE MĂSURARE A INTENSITĂȚII CORELAȚIEI
O funcție de regresie descrie forma analitică a dependenței variabilei rezultative de variabila
sau variabilele cauză atrase în analiza legăturii. În studiul legăturilor dintre variabile este frecvent
necesar să se măsoare cât de puternică este corelația dintre variabile, caz în care se aplică metodele
parametrice de măsurare a corelației5.
Indicatorii prin care se măsoară intensitatea legăturilor sunt, printre alții: covarianța
𝑐𝑜𝑣( X, Y); coeficientul de corelație liniară Pearson (𝜌𝑋𝑌 ); raportul de corelație (R) și coeficientul de
determinare (𝑅 2 ). Acești indicatori sunt adecvați situațiilor în care corelația dintre variabile este
de tip liniar, în caz contrar nu este recomandată utilizarea acestora.
Covarianța dintre două variabile este o medie aritmetică simplă a produselor perechilor
abaterilor valorilor empirice (𝑥𝑖 și 𝑦𝑖 ) de la mediile lor aritmetice (𝑥̄ și 𝑦̄ ).
∑(𝑥𝑖 − 𝑥̄ ) ⋅ (𝑦𝑖 − 𝑦̄ )
𝑐𝑜𝑣( 𝑋, 𝑌) = (19)
𝑛
Dacă corelația este directă, atunci 𝑐𝑜𝑣( 𝑋, 𝑌) > 0 și are valori negative în cazul corelațiilor
inverse. Acest indicator se aplică mai rar în analiza corelațiilor, datorită următoarelor cauze:

• nu are un interval fix de variație; cu cât corelația este mai intensă cu atât covarianța, în
valoare absolută, este mai mare;

• se exprimă în unitățile de măsură a caracteristicelor implicate în analiză, fapt ce generează


dificultăți în cazul comparațiilor.

Coeficientul de corelație liniară (𝜌𝑋𝑌 ) (sau coeficientul de corelație Pearson6) este un


indicator sintetic care măsoară intensitatea legăturilor liniare simple. Se calculează ca un raport între
covarianță și produsul abaterilor medii pătratice ale variabilelor implicate în analiza corelației (𝜎𝑥 și
𝑥𝑖 −𝑥̄ 𝑦𝑖 −𝑦̄
𝜎𝑦 ) sau ca o medie aritmetică a produselor abaterilor normale normate: și :
𝜎𝑥 𝜎𝑦

𝑐𝑜𝑣( 𝑋, 𝑌) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̄ ) ⋅ (𝑦𝑖 − 𝑦̄ )


𝜌𝑋𝑌 = = (20)
𝜎𝑥 ⋅ 𝜎𝑦 𝑛 ⋅ 𝜎𝑥 ⋅ 𝜎𝑦

Înlocuind în această expresie 𝑥̄ , 𝑦̄ , 𝜎𝑥 și 𝜎𝑦 cu relațiile de calcul pe baza cărora se determină


∑𝑥 ∑𝑦 ∑ 𝑥𝑖2 ∑ 𝑥𝑖 2 ∑ 𝑦𝑖2 ∑ 𝑦𝑖 2
(𝑥̄ = ,𝑦̄ = , 𝜎𝑥 = √ −( ) și 𝜎𝑦 = √ −( ) se ajunge la o relație relativ simplă de
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛

aplicat:

5
Metoda corelației presupune că ambele variabile analizate (X și Y) sunt aleatorii și distribuite normal, în timp ce metoda
regresiei presupune că variabila Y este aleatorie, în timp ce X nu este. De asemenea, se presupune că abaterea standard a
variabilei Y este constantă pentru toate valorile lui X, iar abaterea standard a variabilei X este constantă pentru toate
valorile lui Y.
6
In limba engleză poartă denumirea de “Product-moment correlation coefficient”

26
𝑛 ⋅ ∑ 𝑥𝑖 ⋅ 𝑦𝑖 − ∑ 𝑥𝑖 ⋅ ∑ 𝑦𝑖
𝜌𝑋𝑌 =
(21)
√[𝑛 ⋅ ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ] ⋅ [𝑛 ⋅ ∑ 𝑦𝑖2 − (∑ 𝑦𝑖 )2 ]

Coeficientul de corelație liniară poate lua valori cuprinse între –1 și +1. Semnul coeficientului
de corelație coincide cu cel al coeficientului de regresie b, în cazul regresiei liniare simple. Dacă
𝜌𝑋𝑌 > 0 există o corelație directă, iar dacă 𝑟𝑥𝑦 < 0 între cele două variabile este o corelație inversă.

Cu cât 𝜌𝑋𝑌 se apropie mai mult de ± 1 cu atât legătura dintre variabile este mai puternică.
Dacă 𝜌𝑋𝑌 = 1, atunci există o corelație directă funcțională, iar dacă 𝜌𝑋𝑌 = −1, între variabile este o
corelație inversă funcțională. O valoare egală cu 0 indică lipsa legăturii dintre variabile.

În exemplul prezentat privind legătura dintre nota la examenul de admitere și media notelor
la examenele din prima sesiune (vezi Tabel 1 ), coeficientul de corelație este:
10 ⋅ 681,7 − 78,8 ⋅ 73 61,4
𝜌𝑋𝑌 = = = 0,63
√(10 ⋅ 633,3 − 78, 82 ) ⋅ (10 ⋅ 541 − 732 ) 97,3

Altfel spus, constatăm o corelație moderată dintre nota la admitere și media notelor la
examenele din prima sesiune.

Relațiile 20 și 21 se aplică în cazul în care datele înregistrate pentru cele două variabile se
prezintă sub forma a două serii simple și între care există o relație liniară. Dacă numărul perechilor
de valori înregistrate este mare, acestea se sistematizează prin gruparea lor pe intervale egale și se
prezintă într-un tabel cu dublă intrare. Într-o asemenea situație, fiecărei valori xi și yi i se atașează
frecvența corespunzătoare de apariție.
Relația 21 devine:
𝑛 ⋅ ∑ 𝑥𝑖 ⋅ 𝑦𝑖 ⋅ 𝑛𝑥𝑦 − ∑ 𝑥𝑖 ⋅ 𝑛𝑥 ∑ 𝑦𝑖 ⋅ 𝑛𝑦
𝜌𝑋𝑌 =
2 (22)
√[𝑛 ⋅ ∑ 𝑥𝑖2 ⋅ 𝑛𝑥 − (∑ 𝑥𝑖 ⋅ 𝑛𝑥 )2 ] ⋅ [𝑛 ⋅ ∑ 𝑦𝑖2 ⋅ 𝑛𝑦 − (∑ 𝑦𝑖 ⋅ 𝑛𝑦 ) ]

În aplicațiile reale, o măsură foarte mare a coeficientului de corelație este rar întâlnită.
De asemenea, este necesar să precizăm faptul că datele pe baza cărora se calculează coeficientul de
corelație este, în majoritatea cazurilor, un eșantion, în condițiile în care analistul este interesat
valoarea acestuia pentru întreaga populație, caz în care coeficientul de corelație este notat cu ρ (se
pronunță „ro”). De aceea, este important să știm câtă încredere putem da valorii calculate conform
relației 22. Altfel spus, analistul este interesat să verifice dacă valoarea coeficientului de corelație din
populație este egal cu zero sau nu, deoarece, dacă 𝜌 = 0, atunci cele două variabile analizate sunt
independente, adică nu există corelație între ele.

În termeni statistici, verificarea relației ρ = 0 înseamnă testarea ipotezei nule care este
formalizată astfel: 𝐻0 : ρ = 0. Ipoteza alternativă este 𝐻0 : ρ ≠ 0.

27
Pentru testarea ipotezei nule se utilizează testul „t”. În acest scop, trebuie să calculăm
statistica de test „t”7, care urmează o distribuție Student cu n-2 grade de libertate. Relația de calcul a
statisticii de test este:
𝜌𝑋𝑌
𝑡𝑐 = (23)
2 )/(𝑛
√(1 − 𝜌𝑋𝑌 − 2)

în care:

• ρXY este coeficientul de corelație liniară simplă;

• n este numărul observațiilor;

• n – 2 este numărul gradelor de libertate.


Valoarea calculată pe baza relației 23 se compară cu valoarea teoretică din tabelul Student,
pentru un prag de semnificație α (de regulă α= 0.05 ) și n – 2 grade de libertate (gradul de libertate
este n-2 deoarece dreapta are doi parametri fixați, adică media și abaterea medie pătratică).
Întrucât ipoteza nulă privește testarea egalității coeficientului de corelație a întregii
colectivități statistice cu valoarea 0, este posibil ca, în realitate, 𝜌 să fie „semnificativ” mai mare de
0 sau „semnificativ” mai mic de 0. De aceea, este firesc să verificăm dacă statistica t este fie foarte
mare, fie foarte mică pe curba distribuției teoretice a acesteia, știind că punctul de simetrie al acestei
distribuții este t=0, adică să aplicăm un test t bilateral.

În consecință, se compară valoarea calculată a statisticii t cu cea teoretică, iar regula de


evaluare a testului este următoarea: se respinge ipoteza nulă conform căreia ρ = 0 dacă tc > tteoretic
la pragul de semnificație de α/2 sau dacă tc < -tteoretic la pragul de semnificație de α/2 și nu
respingem ipoteza nulă în caz contrar. Altfel spus, dacă tc > tteoretic sau dacă tc < -tteoretic,
probabilitatea8 ca ρ să fie egal cu 0 este mai mică decât pragul de semnificație ales (de regulă, o
probabilitate totală de 5% sau 𝛼 =0,05, adică 2,5% din stânga distribuției Student și 2,5% din dreapta
ei), deci riscul să respingem în mod greșit ipoteza nulă (atunci când ea este adevărată în realitate) este
mai mic decât pragul de semnificație ales pentru test.
În cazul datelor din Tabel 1, statistica t calculată este:
0,63
𝑡𝑐 = ⋅ √10 − 2 = 2,294
√1 − 0,632

Valoarea statisticii t pentru un prag de semnificație de 0,025 și 8 grade de libertate se poate


citi într-o tabelă a valorilor critice ale variabilei t calculate pentru teste bilaterale și găsim că tteoretic;
0,025 = 2,306.

7
În statistica t, magnitudinea numărătorului tinde să crească pe măsură ce ipoteza alternativă este adevărată.
8
Valoarea teoretică față de care facem comparația este o cuantilă, iar probabilitatea ca valoarea calculată să o depășească
pe cea teoretică este suprafața aflată sub curba distribuției.

28
Întrucât 2,294 < 2,306, nu reușim să respingem ipoteza nulă 𝜌 = 0 și concluzionăm că
valoarea coeficientului de corelație estimată din eșantion este, de fapt, zero la nivelul colectivității
generale, concluzie pe care o putem considera adevărată în 95 de cazuri din 100 posibile. Cu alte
cuvinte, deși am calculat că 𝜌𝑋𝑌 = 0,63, în condițiile eșantionului nostru concluzionăm că între notele
la admitere și media notelor la examene nu există o corelație liniară. Aflând acest fapt, ne putem
întreba care sunt motivele acestei necorelări.

Pentru a respinge ipoteza nulă, era necesar ca valoarea calculată a statisticii t să fie mai mare
decât statistica teoretică, fapt ce ar fi fost posibil dacă valoarea coeficientului de corelație ar fi fost
mai mare în condițiile eșantionului studiat.

3.7 ÎNTREBĂRI DE CONTROL


1. Prin ce se deosebește o legătură stohastică de una funcțională (deterministă)?

2. Ce informații oferă metodele simple de analiză a legăturilor dintre variabile?


3. Când se aplică și cum se interpretează coeficientul de corelație liniară?

4. Când se utilizează și cum se interpretează raportul de corelație?


5. Când se recomandă corelația rangurilor pentru măsurarea intensității legăturilor dintre
variabile?

4. BIBLIOGRAFIE:
Damodar N. Gujarati, Dawn C. Porter, Basic Econometrics, Fifth Edition, Mc. Graw-Hill/Irwin,
2009

D.P. Vasiliu: Bazele matematice ale econometriei, Editura Univ. Titu Maiorescu, 2007
D.P. Vasiliu, A.M.D. Vasiliu: Metode Cantitative în probleme economice, Edit. Tribuna Economica,
București, 2000
Mansfield, E.: Basic Statistics with Applications, W.W. Norton&Company Inc., 1986

Ov. Tănăsescu, A.I. Iacob: Modele Econometrice, vol. 1, Ed.2, ASE - București
Wonnacott, T.H., Wonnacott, R. J.: Statistique – Economie, Gestion, Science, Medecine (avec
exercices d’application), Economica, Paris, 1991

29
5. GLOSAR DE TERMENI determină efectul ceteris paribus al fiecărei
variabile explicative.
Ceteris Paribus: Toți ceilalți factori sunt
menținuți constanți. Model economic: O relație derivată din teoria
economică sau dintr-un raționament economic
Deplasare (Bias): Diferența dintre valoarea
formulat mai puțin precis.
așteptată a unui estimator și valoarea din
populație pe care acel estimator o estimează Numărul de grade de libertate de la
numitor: Într-un test F, este numărul de grade
Eroarea medie pătratică (Mean Squared
de libertate dintr-un model cu toate variabilele
Error (MSE)): Distanța pătratică așteptată la
explicative (model nerestricționat).
care se află un estimator de valoarea din
populație; ea este egală cu varianța plus Parametru: O valoare necunoscută care
pătratul oricărei deplasări (bias) descrie o mărime statistică a populației (media,
mediana, total, proporție etc.).
Estimator deplasat: Un estimator a cărui
valoare așteptată sau medie de sondaj este p-Value: Cel mai mic nivel de semnificație
diferită de valoarea din populație pe care se (probabilitate) la care ipoteza nulă poate fi
presupune că o estimează. respinsă. Echivalent, este cel mai mare nivel de
semnificație la care ipoteza nulă nu poate fi
Estimator: O regulă (formulă) de combinare a
respinsă.
datelor pentru a produce o valoare numerică a
parametrului unei populații; forma regulii nu Suma pătratelor explicată (SSE): Variația
depinde de un eșantion sau altul de date. totală a valorilor estimate (ajustate) din
eșantion într-un model de regresie multiplă.
Estimație: Valoarea numerică luată de un
estimator din datele unui eșantion. Suma pătratelor reziduală (SSR): Suma
pătratică a valorilor reziduale obținute prin
Experiment: În teoria probabilităților, un
metoda CMMP din eșantion.
termen general care descrie un eveniment al
cărei rezultat este incert. În analiza Suma pătratelor totală (SST): Variația totală
econometrică, denotă o situație în care datele din eșantion a variabilei dependente în jurul
sunt colectate prin atribuirea aleatorie a mediei de sondaj.
indivizilor în grupul de control și în cel de Termen de eroare: Variabila dintr-un model
tratament. de regresie simplă sau multiplă care conține
Grade de libertate (Degrees of Freedom (df)): factorii neobservați ce pot influența variabila
În analiza regresiei multiple este numărul de dependentă. Termenul de eroare poate include
observații minus numărul parametrilor și erorile de măsurare din variabilele
estimați. dependentă sau independente.

Model econometric: O ecuație care descrie Valoare așteptată: O măsură de tendință


relația dintre variabila dependentă și un set de centrală a distribuției unei variabile aleatorii,
variabile explicative și perturbații neobservate, inclusiv estimatorul aferent acesteia.
în care parametrii necunoscuți ai populației

30
Variabila dependentă: Variabila desemnată
ca variabilă ce este explicată într-un model de
regresie, ca și într-o multitudine de alte
modele.

Variabila explicată: Vezi variabilă


dependentă.

Variabilă explicativă: În modelele de


regresie, o variabilă care este utilizată pentru a
explica variația variabilei dependente.
Varianța erorii: Varianța termenului de
eroare dintr-un model de regresie.

31

S-ar putea să vă placă și