Sunteți pe pagina 1din 104

UNIVERSITATEA „TITU MAIORESCU” – BUCUREȘTI

FACULTATEA DE FINANȚE-BĂNCI, CONTABILITATE


ȘI ADMINISTRAREA AFACERILOR

INTRODUCERE
ÎN
ECONOMETRIE
NOTE DE CURS

Lect. dr. Dan-Ion GHERGUȚ

Aceste note de curs sunt destinate studenților din anul II al


Facultății de Finanțe-Bănci, Contabilitate și Administrare a
Afacerilor (FBCAA) a Universității „Titu Maiorescu”, de la toate
specializările. Ele au fost elaborate pe baza notelor de curs ale
domnului conf. dr. Dan Vasiliu, care în trecut a fost titularul
acestui curs.

București, 2019

Ediția 1, Versiunea 1
Cuprins
1. Introducere: cui folosește econometria ...................................................................................5
2. Un exemplu de aplicare a metodologiei econometrice .............................................................7
2.1 Specificarea teoriei sau a ipotezei ........................................................................................7
2.2 Specificarea modelului matematic al teoriei consumatorului .............................................7
2.3 Specificarea modelului statistic sau econometric ................................................................8
2.4 Obținerea datelor .................................................................................................................9
2.5 Estimarea parametrilor modelului econometric ..................................................................9
2.6 Testarea ipotezelor.............................................................................................................10
2.7 Previzionarea sau predicția ................................................................................................10
2.8 Utilizarea modelului pentru scopuri de control sau de formulare a politicilor ..................11
3. Inferența statistică și testarea ipotezelor ............................................................................... 12
3.1 Ce înseamnă inferența statistică? ......................................................................................12
3.2 Ipotezele statistice..............................................................................................................14
3.2.1 Formularea ipotezei nule -------------------------------------------------------------------------- 14
3.2.2 Formularea ipotezei alternative------------------------------------------------------------------ 15
3.2.3 Notația ipotezei nule și alternative -------------------------------------------------------------- 15
3.2.4 Testarea ipotezelor și erorile de decizie-------------------------------------------------------- 16
3.2.5 Reguli de formulare a concluziei în urma testării ipotezelor ------------------------------ 18
3.2.6 Teste bilaterale sau unilaterale------------------------------------------------------------------- 23
4. Analiza legăturilor dintre variabile ........................................................................................ 25
4.1 Introducere .........................................................................................................................25
4.2 Tipuri de legături ................................................................................................................25
4.3 Metode simple de analiză a legăturii dintre variabile ........................................................27
4.3.1 Metoda grafică --------------------------------------------------------------------------------------- 27
4.3.2 Metoda tabelului de contingență ---------------------------------------------------------------- 30
4.4 Regula de adunare a dispersiilor ........................................................................................32
4.5 Analiza legăturii dintre variabile: metoda corelației ..........................................................37
4.6 Metode neparametrice de măsurare a intensității corelației ............................................38
4.7 Metode parametrice de măsurare a intensității corelației ................................................40
5. Regresia liniară – noțiuni de bază .......................................................................................... 43
5.1 Legătura dintre două variabile: de la relație la cauzalitate ................................................44
5.2 Modelul regresiei liniare simple .........................................................................................48
5.3 Estimarea parametrilor funcției de regresie prin Metoda Celor Mai Mici Pătrate ............49
5.4 Calculul parametrilor funcției de regresie în MS Excel.......................................................52
5.5 Puterea explicativă a modelului: coeficientul de determinare ..........................................54
5.6 Calculul coeficientului de determinare în Excel .................................................................57
2
6. Calitatea modelului regresiei liniare simple ........................................................................... 58
6.1 Supoziții esențiale ale modelului de regresie liniară ..........................................................58
6.2 Analiza varianței (ANOVA) ..................................................................................................61
6.3 Distribuția estimatorilor proveniți din metoda CMMP ......................................................64
6.3.1 Media estimatorului 𝑏1 ---------------------------------------------------------------------------- 64
6.3.2 Media estimatorului 𝑏0 ---------------------------------------------------------------------------- 64
6.3.3 Varianța estimatorului 𝑏1 ------------------------------------------------------------------------- 65
6.3.4 Varianța estimatorului 𝑏0 ------------------------------------------------------------------------- 65
6.3.5 Covarianța estimatorilor 𝑏0 ș𝑖 𝑏1 --------------------------------------------------------------- 66
6.4 Estimarea varianței erorilor................................................................................................66
6.5 Inferența statistică asupra parametrilor modelului ...........................................................68
6.5.1 Teste privind panta 𝑏1 a dreptei de regresie ------------------------------------------------- 68
6.5.2 Intervalul de încredere pentru 𝑏1 --------------------------------------------------------------- 70
6.5.3 Teste privind tăietura 𝑏0 în origine ------------------------------------------------------------- 70
6.5.4 Interval de încredere pentru 𝜇𝑌𝑥 ---------------------------------------------------------------- 71
7. Un exemplu numeric............................................................................................................. 72
7.1 Calculul parametrilor estimați ............................................................................................72
7.2 Coeficientul de determinare ..............................................................................................73
7.3 Eroarea medie pătratică a estimatorilor 𝒃𝟎 și 𝒃𝟏 .............................................................73
7.4 Teste privind parametrii estimați .......................................................................................73
7.4.1 Alegerea pragului de semnificație 𝛼 ------------------------------------------------------------ 73
7.4.2 Definirea ipotezei nule și a ipotezei alternative ---------------------------------------------- 73
7.4.3 Verificarea ipotezei asupra parametrului 𝑏1 ------------------------------------------------- 74
7.4.4 Intervalul de încredere pentru 𝑏1 --------------------------------------------------------------- 74
7.4.5 Verificarea ipotezei asupra parametrului 𝑏0 ------------------------------------------------- 75
7.4.6 Intervalul de încredere pentru 𝑏0 --------------------------------------------------------------- 75
8. Regresia multiplă .................................................................................................................. 76
8.1 Scopul regresiei liniare multiple .........................................................................................76
8.2 Specificarea modelului regresiei liniare multiple ...............................................................76
8.3 Modelul de regresie cu două variabile explicative .............................................................77
8.4 Calculul și interpretarea estimației parametrilor modelului ..............................................78
8.5 Coeficientul de determinare ..............................................................................................80
8.6 Ipotezele modelului ............................................................................................................81
8.7 Calculul intervalelor de încredere ale parametrilor 𝒃𝟏 și 𝒃𝟐 ............................................84
9. Bazele analizei datelor categoriale: analiza varianței (ANOVA) cu un factor ............................ 88
9.1 Variația totală .....................................................................................................................90

3
9.2 Variația inter-grupe ............................................................................................................91
9.3 Variația intra-grup ..............................................................................................................92
9.4 Formularea ipotezelor, Calculul statisticii F și decizia asupra ipotezei nule ......................93
9.5 Realizarea unei analize ANOVA cu un factor în SAS® .........................................................94
Anexa 1:Valorile statisticii t ale distribuției Student .................................................................... 100
Anexa 2: Valorile critice ale statisticii F ...................................................................................... 101
10. BIBLIOGRAFIE: .................................................................................................................... 103
11. Glosar de termeni ............................................................................................................... 104

4
1. INTRODUCERE: CUI FOLOSEȘTE ECONOMETRIA
Oamenii se tem cel mai mult de ceea ce nu cunosc, de ceea ce nu le este familiar. La fel și voi,
studenții, aveți o reticență, dacă nu chiar o repulsie față de matematică și, de aici, față de statistică și
econometrie. Cei mai mulți dintre voi ajungeți chiar să fiți convinși că nu vreți să le cunoașteți, pentru
că sunteți siguri că nicăieri și niciodată nu vă vor fi de folos. Această percepție este în mare măsură
justificată, pentru că trebuie să vă aduceți aminte de matematica studiată în liceu, iar matematica, cel
puțin până la vârsta la care ați ajuns, nu s-a arătat că vă este necesară la ceva. Mai mult, cursurile de
statistică și econometrie conțin o mulțime de formule pe care trebuie să le înțelegeți și, iată că se poate
și mai rău de atât, trebuie să le aplicați în tot soiul de probleme. Coșmarul vostru este că ar trebui să
memorați formulele. Nu, formulele nu trebuie învățate pe de rost. Nu trebuie să le memorați pentru
că formulele sunt peste tot: în cărți, pe Wikipedia, în o sumedenie de documente pe care le găsim pe
Internet. Apoi există calculatoare care fac aceste calcule pentru noi. Este nevoie doar de câteva
exemple simple ”de mână” ca să înțelegeți logica lucrurilor și, pe măsură ce le folosiți, rămân în
memorie. Înțelegerea formulelor este, însă, obligatorie. Altfel nu am ști cum să interpretăm rezultatele
statistice, pentru că nu pătrundem înțelesul lor.
De ce este util să cunoaștem econometrie?
Econometria, în sens semantic, înseamnă „măsurare economică”. Econometria poate fi definită
ca știința socială în care instrumentele teoriei economice, matematice și inferența statistică sunt
aplicate pentru analiza fenomenelor economice (Goldberger, 1964, p. 1). Aici apare un termen pe care
l-am cunoscut la cursul de statistică: inferența statistică.
Studenții la științe economice studiază, evident, multe discipline din aria economiei. Studiază,
spre exemplu, contabilitatea. În contabilitate se produc și se înregistrează sistematic date despre
tranzacțiile unei companii. Studiază teoria microeconomică, unde află legi care postulează, spre
exemplu, că o creștere a prețului unui produs conduce la scăderea cantității consumate și, implicit, a
cantității vândute din acel produs. Sau, la teoria macroeconomică, studiază legături între producție,
consum și investiții. Observați că vorbim despre „legături”? Între preț și cantitate presupunem că
există o legătură inversă, despre care ați aflat la cursul introductiv de statistică. Producția presupune
o anumită combinație dintre consum și investiții, dacă simplificăm foarte mult expunerea, limitând
producția doar la acești termeni.
Damodar Gujarati (Gujarati, 2004) face o foarte bună argumentare a necesității studiului
econometriei, amintind de situațiile în care se găsesc studenții, descrise mai sus. El spune că, în
teoriile economice, afirmațiile sau ipotezele sunt calitative, în cea mai mare măsură. Dacă teoriile
identifică relații, acestea nu sunt însoțite de măsuri numerice. De aceea, strict din teorie nu putem
spune cu cât se va modifica cantitatea consumată dintr-un produs dacă prețul crește cu un leu sau cu
un anumit procent. Econometria are acest exact acest scop, de a conferi teoriei economice o bază
factuală, empirică. Cu ajutorul metodelor econometrice putem valida o teorie economică sau chiar să
descoperim una nouă.
Dar să nu ne referim doar la teoria economică. Încă din copilărie suntem învățați de părinți că
este bine să mergem la școală pentru că asta ne va aduce, foarte probabil, un trai mai bun. Nu pare a
fi o teorie, ci mai degrabă o concluzie reieșită din observarea societății, adică o concluzie empirică.
Atunci, ar fi de interes să aflăm care este venitul suplimentar adus de fiecare an de școală în plus?
Există date pentru asta, de ce nu am încerca să aflăm? Postulăm, așadar, că există o relație pozitivă
între numărul de ani de educație și venit. Cu toate acestea, cunoaștem destule cazuri care ne arată că
venitul nu este influențat numai de anii de școală, pentru că mai sunt și alți factori: ocupația,
experiența la locul de muncă sau experiența acumulată în afara școlii sau a unui loc de muncă, zona
geografică, mărimea întreprinderii etc. Alegerea acestor „alți factori” nu este foarte simplă, din mai
multe motive: pe ce anume ne bazăm când alegem un factor și renunțăm la altul; dacă am ales un
factor sau altul, există date pentru aceștia? Acestea sunt doar două întrebări. Mai departe, dacă
estimăm cu un model econometric că fiecare an de educație aduce o anumită sumă de bani în plus,

5
este corect să concluzionăm că e profitabil să învățăm cât mai mulți ani, până la vârste înaintate,
pentru că așa ne spune modelul econometric? Desigur că nu. Așadar, orice model, inclusiv cel
econometric, trebuie supus testului realității, oricât de atractiv ar fi.
Econometricianul, mai notează Gujarati, este nevoit să lucreze cu date produse în altă parte, de
altcineva, fără să poată interveni asupra lor. De cele mai multe ori, aceste date provin din sistemele
proprii ale companiilor, așa cum sunt datele contabile produse de contabili, sau datele din sistemele
băncilor prin care se înregistrează fiecare tranzacție, sau din datele companiilor de telefonie mobilă
etc. Datele macroeconomice sunt produse de oficiile de statistică sau de alte instituții ale statului ori
alte organizații. Econometricianul, în foarte puține cazuri, are posibilitatea să își producă propriile
date în cadrul unor experimente atent controlate, ceea ce poate ridica alte probleme.
Datele sunt așezate de econometrician într-o formă matematică, mai precis în forma unor ecuații
care, de fapt, sunt un model al realității sintetizate prin teoria economică respectivă. Aceste modele,
care presupun cunoștințe și pricepere – uneori se spune că este o adevărată artă să construiești un
model econometric – sunt destinate exclusiv testării empirice a teoriei. Datele colectate cu sau fără
ajutorul metodelor statistice, dar descrise cu ajutorul statisticilor descriptive și cu ajutorul ecuațiilor
matematice, sunt transpuse în formă econometrică pe baza unei teorii sau ipoteze. Prin modele
econometrice, apoi, se pot formula și testa politici economice: ce efect va avea reducerea sau creșterea
TVA asupra consumului gospodăriilor, producției interne, importului, exportului și vânzărilor, sau
asupra bugetului de stat? Sau se pot formula modele de risc: care este probabilitatea ca un client cu
un anumit profil (vârstă, venit, situație familială, situație patrimonială, istoric al rambursării creditelor
anterioare etc.) să nu își poată plăti rata unui credit, probabilitate care va condiționa decizia băncii de
a-i oferi sau nu un nou credit? Sau care este probabilitatea ca o persoană de o anumită vârstă, de gen
feminin sau masculin, care conduce un autovehicul cu o anumită putere, să producă un accident în
primul an de la obținerea permisului de conducere?
Sunt extrem de numeroase exemplele în care cunoștințele de teorie economică, cele de
matematică, de statistică și de econometrie sunt folosite pentru a găsi răspunsuri la probleme concrete,
nu numai de tipul celor enumerate mai sus. Însă pentru a găsi soluții cu ajutorul instrumentelor de
analiză a datelor, un student care se gândește astăzi să îmbrățișeze o carieră de ”analist de date”1
trebuie să aibă nu doar cunoștințe și deprinderi de matematică ori de statistică, ci și de utilizare a
tehnologiilor de prelucrare a datelor și, cel puțin la fel de important, să cunoască domeniul de
activitate în care dorește să aplice aceste cunoștințe și deprinderi. Spre exemplu, este foarte greu
pentru un analist să construiască un model al profitabilității cardurilor de credit dacă nu cunoaște
factorii care contribuie la veniturile și cheltuielile rezultate din operațiunile cu carduri de credit.

1
Sau, mai cosmopolit, ”data analyst”, ”business intelligence expert”, ”data scientist” etc. Sunt o multitudine de denumiri
de posturi pentru care se cer astfel de competențe.
6
2. UN EXEMPLU DE APLICARE A METODOLOGIEI ECONOMETRICE
Există mai multe școli de gândire care sistematizează modul în care econometricienii
abordează analiza unei probleme economice. Damodar Gujarati sistematizează etapele metodei
econometrice în ceea ce el numește metodologia tradițională, care domină cercetarea empirică în
științele economice, sociale sau comportamentale.
Sunt opt etape ale metodologiei econometrice:
1. Specificarea teoriei sau a ipotezei;
2. Specificarea modelului matematic al teoriei;
3. Specificarea modelului statistic sau econometric;
4. Obținerea datelor
5. Estimarea parametrilor modelului econometric;
6. Testarea ipotezelor;
7. Previzionarea sau predicția;
8. Utilizarea modelului pentru scopuri de control sau de formularea politicilor.
Pentru exemplificarea acestor etape, să pornim de la binecunoscuta teorie a consumatorului,
formulată de G.M. Keynes.

2.1 SPECIFICAREA TEORIEI SAU A IPOTEZEI


Keynes a afirmat că „Legea psihologică fundamentală […] este aceea că oameni sunt dispuși,
ca regulă și în medie, să își mărească consumul pe măsură ce veniturile lor cresc, dar nu la fel de mult
pe cât le cresc veniturile”.
În acest fel, Keynes a postulat ca înclinația marginală spre consum (IMC), adică rata de
modificare a consumului pentru modificarea cu o unitate (să spunem, cu un leu) a veniturilor, este
mai mare de 0, dar mai mică de 1.

2.2 SPECIFICAREA MODELULUI MATEMATIC AL TEORIEI CONSUMATORULUI


Keynes a postulat o relație pozitivă dintre consum și venit, dar nu și o forma precisă a relației
funcționale dintre cele două variabile.
Pentru simplitate, un economist matematician ar putea sugera următoarea formă a funcției de
consum a lui Keynes
𝑌 = 𝛽1 + 𝛽2 ∙ 𝑋 (1)
unde:
• Y este cheltuiala de consum (variabila dependentă);
• X este venitul (variabila independentă)
• β1 și β2 sunt parametrii modelului, respectiv intersecția dreptei de ecuație Y = β1 + β2X cu
axa verticală a sistemului de coordonate (β1) și panta dreptei (β2);
• parametrul β2 este o valoare pozitivă, dar subunitară, relație formulată astfel: 0 < β2 < 1.
Parametrul β2 măsoară înclinația marginală spre consum (IMC). Geometric, ecuația
consumului este reprezentată în diagrama de mai jos.

7
Figura 1: Funcția de consum a lui Keynes
Această ecuație, care stipulează că există o relație liniară dintre consum și venit, este un
exemplu de model matematic al relației dintre consum și venit numit funcția consumului în economie.
Modelul este un set de ecuații matematice, iar modelul nostru conține o singură ecuație. Dacă are mai
multe ecuații, atunci este un model cu ecuații multiple.
În acest model, variabila din stânga (cheltuiala de consum) este variabila dependentă sau
explicată, iar cea dreapta (venitul) este variabila independentă sau explicativă.

2.3 SPECIFICAREA MODELULUI STATISTIC SAU ECONOMETRIC


Modelul matematic al funcției de consum are valoarea sa parțială, pentru că, în această formă,
este un model determinist al relației dintre cheltuiala de consum și venit. Este ca și cum am presupune
că oricând putem determina cu maximă exactitate care va fi nivelul cheltuielii de consum pentru un
anumit venit. În lumea reală știm că niciodată nu este așa, deoarece la nivele identice de venit
cheltuiala de consum diferă de la o familie la alta, după cum un anumit nivel de consum poate fi
observat pentru valori diferite ale venitului. Dacă am realiza o diagramă de puncte ale veniturilor și
cheltuielilor de consum al unui număr suficient de mare de familii, una din reguli fiind de a avea cel
puțin 50 de observații, am constata că punctele respective nu se află de-a lungul unei linii drepte.
Acest fapt ne sugerează existența unor alți factori de influență a cheltuielii de consum în afara
venitului, cum sunt mărimea și compoziția familiei (copii, adulți activi, persoane inactive,
pensionari), ocupațiile lor, regiunea geografică etc.
Pentru a reflecta această relație inexactă, econometricienii includ în model un factor aleatoriu,
ceea ce face ca modelul să fie specificat ușor diferit, adică:
Y = 𝛽1 + 𝛽2 ∙ X + e (2)
unde e este termenul de eroare al modelului, care este o variabilă aleatoare (stochastică) cu o serie de
proprietăți matematice bine definite. Așa cum se prezenta și în secțiunea 2.3, termenul de eroare
reprezintă toți factorii care pot influența cheltuiala de consum, dar pe care nu i-am putut observa în
afara variabilei de venit.
Ecuația de mai sus este un exemplu de model econometric, mai precis un model econometric
de regresie liniară care formalizează ipoteza conform căreia variabila dependentă Y (cheltuiala de
consum) este liniar dependentă de variabila X (venitul). Este esențial ca variabilele, pe lângă
expresia cantitativă, să fie însoțite de unități de măsură. În exemplul nostru, cele două variabile pot fi
exprimate în unități monetare.

8
2.4 OBȚINEREA DATELOR
Estimarea modelului înseamnă, de fapt, estimarea valorilor parametrilor β1 și β2. Să pornim
de la un set de date macroeconomice ale României, mai precis ale Produsului Intern Brut și ale
consumului final al gospodăriilor2 din perioada 2000 – 2016.
Tabelul 1: Produsul Intern Brut (X) și Consumul final al gospodăriilor (Y) ale României în
perioada 2000 – 2016 (mil. euro, prețuri în bază 2010)3
Anul X Y Anul X Y
2000 82977 40105 2009 127767 79630
2001 87617 43871 2010 126746 80386
2002 92159 46573 2011 128085 81020
2003 97250 50431 2012 128906 82024
2004 105379 58389 2013 133459 82624
2005 109775 64290 2014 137564 86504
2006 118618 72484 2015 142982 91658
2007 126760 82718 2016 149823 98431
Sursa: Eurostat.
Iată cum arată graficul datelor de mai sus.

Figura 2: Produsul Intern Brut (X) și Consumul final al gospodăriilor (Y) ale României în perioada
2000 – 2016 (milioane euro, prețuri bază 2010)
Datele sunt prezentate în prețurile anului 2010, adică a fost eliminat efectul prețurilor. După
cum se observă, datele se înșiruie de-a lungul unei drepte.

2.5 ESTIMAREA PARAMETRILOR MODELULUI ECONOMETRIC


Odată ce avem datele și am explicitat modelul econometric, pasul următor este să estimăm
parametrii funcției de consum. Urmând algoritmul calculelor prezentate în secțiunea 5.3, vom obține
expresia numerică a acestor parametri estimați, care vor da forma empirică a funcției de consum:
𝑌̂ = −34642 + 0,894 ∙ 𝑋 (3)

2
Include și cheltuiala pentru consumul final al instituțiilor fără scop lucrativ în serviciul gospodăriilor populației.
3
Datele din Tabel 1 și rezultatele regresiei liniare sunt prezentate în fișierul Excel Date_Tabel_1.xls. Modul în care sunt
obținute aceste rezultate va fi detaliat în capitolele următoare.
9
Așadar, valorile parametrilor β1 și β2 sunt -34642 și, respectiv, 0,894. Reiterăm semnificația
notației ”^” plasată deasupra unei variabile sau parametru, care indică o estimare a unei valori pe baza
unui eșantion și a modelului ales.
Conform rezultatelor și din cauza faptului că datele nu se situează perfect pe dreapta ecuației
de regresie, concluzionăm că, pentru fiecare euro de creștere a Produsului Intern Brut,
consumul final al gospodăriilor crește, în medie, cu aproximativ 89 de eurocenți. De asemenea,
observăm că semnul pantei dreptei de regresie este pozitiv, ceea ce confirmă, cel puțin la prima
vedere, corelația pozitivă dintre consumul final și PIB. Să ignorăm, deocamdată semnul negativ al
intersecției dreptei de regresie cu axa verticală a graficului.

2.6 TESTAREA IPOTEZELOR


Graficul ne arată că acest model este o aproximare suficient de bună a realității economice.
Însă nimic nu ne garantează că, dacă sub influența factorilor economici, al șansei sau din cauza unor
particularități ale datelor, nu am fi obținut alte rezultate. De aceea, avem nevoie de un set de
instrumente care să ne poată da o asigurare rezonabilă că rezultatele sunt corecte și credibile și că ele
sunt în acord cu teoria testată.
Conform teoriei lui Keynes, IMC trebuie să fie pozitivă, dar subunitară. Cu alte cuvinte, ne
putem întreba dacă IMC, sau panta dreptei de regresie cu o valoare estimată de 0,894, este
semnificativ mai mare ca zero și/sau semnificativ mai mică de 1. Dacă avem un răspuns afirmativ,
atunci rezultatul empiric susține teoria lui Keynes.
O astfel de confirmare – sau respingere – a unei teorii, pe baza unor date observate sau produse
printr-un experiment se numește inferență statistică sau testarea ipotezelor. Prin inferență putem
trage concluzii generalizatoare, în limitele normative ale modelului utilizat. Acest subiect este
acoperit în Capitolul 5.

2.7 PREVIZIONAREA SAU PREDICȚIA


Dacă în urma testării ipotezei modelul nu contrazice teoria considerată, putem utiliza modelul
pentru a ”prezice” valori ale variabilei dependente Y în funcție de alte valori cunoscute sau așteptate
ale variabilei explicative sau independente X, sau valori viitoare ale variabilei X pentru a prognoza
posibile valori viitoare ale variabilei Y.
Ca exemplu, să prognozăm consumul mediu final al gospodăriilor pentru anul 2017. Datele
finale pentru anul 2017 încă nu erau publicate la data scrierii acestui capitol, dar să considerăm că
PIB a crescut față de anul 2016 cu 4,5%, ceea ce ar însemna un volum al PIB de 156.565 milioane
Euro (în prețurile anului 2010).
Utilizând modelul nostru, consumul mediu final al gospodăriilor în anul 2017 este
𝑌̂2017 = −34642 + 0,894 ∙ 156565 = 105392,2 𝑚𝑖𝑙 𝐸𝑢𝑟𝑜
Pentru ușurință, datele au fost rotunjite. Așadar, la o valoare dată a PIB, valoarea prognozată,
ca medie, a consumului final al gospodăriilor este de aproximativ 105.392 milioane Euro (în prețurile
anului 2010). Ar fi util să comparăm această estimație cu valorile exacte furnizate de Institutul
Național de Statistică, pentru a putea aprecia diferența absolută și pe cea relativă a estimației noastre.
În capitolele următoare vom vedea care sunt metodele statistice de apreciere a acestei erori,
pentru a concluziona dacă eroarea este mare sau mică, metodă care este mult mai corectă în
comparație cu evaluarea unei erori bazate pe o estimație punctuală. Ceea ce trebuie reținut este că
erorile sunt inevitabile atunci când utilizăm un model matematic.

10
Un alt exemplu de utilizare a modelului estimat (3) este sugerat de Gujarati prin referință la o
problemă de politică economică4. O reducere a impozitului pe venit pe care un guvern o decide are
efect asupra veniturilor populației, deci și asupra consumului final al populației, dar și asupra
mediului economic și ocupării forței de muncă. Dar întrebarea este care poate fi acest efect?
Modelul (3) nu conține nicio componentă care să reflecte nivelul impozitelor, al veniturilor
populației sau al ocupării forței de muncă. De aceea, Gujarati face o presupunere suplimentară, anume
că, prin politica de impozitare a veniturilor, vor crește cheltuielile pentru investiții. Cum se poate
întâmpla asta? Tot teoria economică spune că volumul investițiilor este egal cu cel al economisirii.
Ori economisirea poate avea loc numai atunci când veniturile ating un nivel de la care populația
preferă să economisească decât să aloce veniturile suplimentare consumului. Așadar, presupunerea
sa este validă. Mai departe, reamintește că între venituri și investiții există o relație dată de
multiplicatorul veniturilor M, a cărui relație este dată de:
1
𝑀 = 1−𝐼𝑀𝐶 (4)
Dacă utilizăm o valoare a IMC de 0,894, multiplicatorul M are o valoare aproximativă
M=9,47. Aceasta înseamnă că o creștere sau descreștere cu un Euro a investițiilor va conduce la o
creștere sau descreștere de peste 9 ori a veniturilor, deși este de așteptat ca acest multiplicator să își
vadă efectele în timp, nu exact în anul în care sunt făcute investițiile.
Iată cum o mărime economică așa cum este IMC poate ajuta la o estimare a efectelor politicilor
economice asupra veniturilor, cheltuielilor de consum sau șomajului. Bineînțeles, un astfel de
deziderat poate fi pus în practică construind întregul set de ecuații macroeconomice și nu rezumându-
ne numai la ecuația veniturilor.

2.8 UTILIZAREA MODELULUI PENTRU SCOPURI DE CONTROL SAU DE


FORMULARE A POLITICILOR
Iată un alt exemplu de situație în care o decizie de politică economică poate fi testată cu
ajutorul modelelor econometrice, exemplu sugerat de Gujarati și adaptat la datele economice
prezentate. Considerând că modelul (3) este valid, să presupunem că guvernul consideră că un
consum final al gospodăriilor de 95 de miliarde de euro (în prețurile anului 2010) va menține șomajul
la nivelul său actual de cca. 5,5% (la începutul anului 2017). Întrebarea este ce nivel al PIB va asigura
acest nivel al consumului final al gospodăriilor? Potrivit modelului (3), avem de rezolvat o ecuație
simplă:
95000 = −34642 + 0,894 ∙ X (5)
Rezultatul este aproximativ X=145013,4 mii Euro. Altfel spus, un PIB de aproximativ
145.013 milioane Euro, în condițiile unei IMC de 0,894 va conduce la o cheltuială pentru consumul
final al gospodăriilor de 95.000 milioane Euro (în prețurile anului 2010). Conform acestor calcule,
un model econometric poate fi utilizat pentru verificarea (controlul) politicilor economice. Prin
intermediul unei combinații monetare, fiscale și de investiții, un guvern poate controla un factor
economic (X) pentru a atinge un nivel dorit al unui rezultat (Y).

4
Gujarati, D., Basic Econometrics, Mc Graw-Hill, 2004, p.10
11
3. INFERENȚA STATISTICĂ ȘI TESTAREA IPOTEZELOR

3.1 CE ÎNSEAMNĂ INFERENȚA STATISTICĂ?


Inferența statistică este ansamblul teoriei, metodelor și practicii construirii de raționamente
asupra parametrilor unei populații și asupra încrederii în relațiile statistice, pe baza unui eșantion
aleatoriu, astfel încât, folosind rezultatele obținute, să putem caracteriza întreaga populație din care a
fost extras eșantionul.
Inferența statistică este cea mai importantă parte a analizei statistice, deoarece, cu ajutorul
teoriei, metodelor și raționamentelor se încearcă verificarea unor ipoteze asupra fenomenului
studiat, prin generalizarea concluziilor trase pe baza estimațiilor obținute dintr-un eșantion asupra
întregii populații statistice.
Testarea ipotezelor înseamnă formularea unor ipoteze asupra parametrilor unei
populații statistice.
În propoziția anterioară am folosit trei concepte: ipoteză, parametru, populație statistică.
Să le analizăm pe rând.
Ipoteza este o presupunere referitoare la valoarea unui parametru al populației, în condițiile
în care nu avem posibilitatea să calculăm acea valoare din întreaga populație statistică, ci dintr-un
eșantion5.
În situații practice, calculăm estimații ale parametrilor, după care ne propunem să verificăm
(să testăm) dacă valoarea estimației noastre este sau nu egală, mai mare, mai mică sau diferită de o
valoare pe care o cunoaștem dintr-o altă sursă de date. Spre exemplu, Compania A are date despre
clienții săi la nivelul întregii țări și cunoaște, de asemenea, dintr-o altă sursă de date care este cota sa
de piață la nivelul întregii țări și din fiecare județ (sau regiune geografică). Această sursă de date poate
fi un raport al unei organizații publice care reglementează piața respectivă sau un studiu național
realizat de o organizație publică sau privată. În urma unui studiu intern, Compania A estimează
ponderea clienților săi din județul J și dorește să evalueze calitatea estimației sale prin comparare cu
rezultatul din sursa de date pe care o folosește. Ipoteza pe care o face analistul este aceea că ponderea
clienților săi din județul J (estimație obținută din eșantion) este egală cu ponderea clienților din
județul J din sursa de date (parametrul din populația statistică). Această ipoteză este punctul de
plecare al testului statistic de semnificație pe care analistul și l-a propus să îl evalueze. Prin testul
statistic, analistul va putea concluziona dacă proporția estimată a clienților săi din județul J diferă
semnificativ sau nu de proporția clienților săi din județul J cunoscută din surse de date externă. Cum
se apreciază cât de semnificativă este diferența, vom vedea ceva mai târziu. Pentru moment, să
reținem că, mai întâi, ne formulăm o ipoteză pe care vrem să o testăm (să o verificăm).
Parametrul este o caracteristică măsurabilă a populației statistice, cum este valoarea medie,
valoarea mediană, valoarea totală, o proporție sau abaterea medie pătratică a unei variabile studiate.
Valoarea unui parametru (al populației statistice) nu este cunoscută, deoarece, dacă am cunoaște-o,
nu am mai avea nevoie de un studiu prin sondaj.
Populația statistică este mulțimea totală a entităților observate sau observabile dintr-un
anumit spațiu, într-un anumit interval de timp. Entitățile pot fi persoane, companii, evenimente sau
obiecte, care trebuie clar definite și identificate și care pot fi observate în mod obiectiv, astfel încât
analistul să poată extrage un eșantion al acestor entități, conform unor reguli științifice.

5
În contextul inferenței statistice, termenul de ipoteză este diferit de termenul de supoziție (statistical assumption) care
acoperă un spectru mai larg de concepte, cum ar fi normalitatea distribuțiilor, independența statistică, egalitatea
varianțelor etc., concepte asupra cărora vom reveni în capitolele destinate regresiei liniare sau a altor modele de analiză a
datelor. Spre exemplu, un inventar al supozițiilor statistice poate fi găsit la adresa
https://www.statisticssolutions.com/common-assumptions-in-statistics/.
12
Inferența statistică este realizată prin parcurgerea unor pași de proces, care sunt următorii:
1. Formularea ipotezelor de testat;
2. Calculul estimațiilor parametrilor (medii, mediane, totaluri, proporții, abateri medii
pătratice) din datele de sondaj utilizate, ca aproximare a parametrilor populației statistice;
3. Calculul statisticilor de test, pentru a răspunde la întrebarea formulată prin ipotezele de la
care am plecat: este estimația calculată egală cu zero sau altă valoare relevantă conform
teoriei care stă la baza studiului?
4. Decizia asupra testului statistic prin compararea statisticii de test cu statistica provenită
dintr-o distribuție teoretică potrivită testului statistic realizat astfel încât să putem decide
dacă ipoteza noastră poate fi respinsă sau nu;
5. Calculul intervalelor de încredere, prin care analistul stabilește un interval care are o
probabilitate cunoscută în care se află valoarea adevărată a parametrului populației
(necunoscută) și care confirmă decizia din pasul anterior;
6. Formularea narativă a concluziei testării ipotezelor, sprijinită de rezultatele statistice ale
testului.
Observați că pașii unei inferențe statistice se suprapun, parțial, cu pașii metodologiei
econometrice. Mai precis, pașii inferenței statistice se suprapun cu pașii 1, 5 și 6 ai metodologiei
econometrice.
În realizarea unei inferențe statistice, întotdeauna, începem prin formularea ipotezelor de
testat, care sunt, de fapt, obiectivul studiului nostru și care coincide cu pasul 1 al metodologiei
econometrice. Numai după ce ipotezele sunt clar formulate, pornim la proiectarea, realizarea și
evaluarea studiului statistic, mai precis la specificarea modelului matematic al teoriei, la specificarea
modelului statistic sau econometric și la obținerea datelor studiului, pentru a trece la pașii 2-6 ai
inferenței statistice, care corespund pașilor 5-6 ai metodologiei econometrice, după care, pentru a
conferi complet dimensiunea practică a studiului nostru, să încheiem prin pașii 7 și 8 ai metodologiei
econometrice.
Spre exemplu, dorim să estimăm media unei variabile a populației statistice sau procentele
unor caracteristici ale populației. Însă aceste dorințe trebuie subordonate ipotezelor de testat sau, cu
alte cuvinte, obiectivului studiului statistic. Astfel, trebuie să pornim de la întrebări relativ simple,
cum ar fi, spre exemplu:
a) Media estimată a notelor la examen ale unei grupe de studenți este egală cu o anumită
valoare?
b) Proporțiile notelor peste 5 obținute de studenții din două grupe diferite sunt diferite?
Aceste întrebări sunt, de fapt, presupunerile noastre asupra parametrilor populației statistice.
Presupunerile noastre sunt condiționate, să nu uităm, de teoria de la care am pornit, prin care încercăm
să identificăm relații între variabile ori cauzalități între acestea. În cazul primei întrebări, teoria
noastră ar fi că, în urma aplicării unei metode pedagogice de predare la un anumit curs al unei grupe
de studenți, ne așteptăm ca media notelor la examen să fie semnificativ mai mare comparativ cu media
unei grupe similare la care nu s-a aplicat metoda respectivă. Ori, în cazul celei de a doua întrebări,
teoria noastră ar fi că apartenența la grupe diferite de studenți influențează proporția celor care iau
notă de trecere.
Aceste presupuneri sunt punctul de plecare al formulării ipotezelor statistice.

13
3.2 IPOTEZELE STATISTICE
Odată ce datele au fost colectate printr-un studiu prin sondaj, care poate fi unul observațional
sau un experiment, inferența statistică permite analiștilor să evalueze evidența în favoarea unei
anumite ipoteze despre populația din care a fost extras eșantionul.
Cu alte cuvinte, ne propunem să verificăm dacă ipoteza noastră este adevărată. Ideal ar fi să
putem verifica veridicitatea ipotezei noastre pe întreaga populație statistică, lucru care deseori nu este
practic sau posibil. De cele mai multe ori, suntem în posesia unor date parțiale, provenite, spre
exemplu, dintr-un sondaj.
Pentru a putea folosi instrumentele inferenței statistice, analistul formulează întotdeauna
două ipoteze: ipoteza nulă și ipoteza alternativă.

3.2.1 Formularea ipotezei nule


Fiecare test al ipotezelor începe prin formularea ipotezei nule, notate cu H0 (”haș nul”).
Motivul acestei denumiri provine din faptul că, de regulă, prima ipoteză la care ne putem
gândi este că factorul pe care îl analizăm (metoda pedagogică de predare, apartenența la grupe
diferite) nu influențează rezultatul studiului. În termenii presupunerilor noastre, am putea spune că
mediile notelor la examen după și înaintea aplicării metodei pedagogice de predare sunt aceleași ori
proporțiile studenților cu note de trecere din cele două grupe de studenți sunt aceleași. Cu alte cuvinte,
factorii noștri au o influență nulă asupra rezultatelor studiului: metoda pedagogică de predare nu are
influență asupra notelor la examen, apartenența la o grupă sau alta de studenți nu influențează eșecul
sau succesul la examen.
Ipoteza nulă (H0) reprezintă o teorie care este formulată ex-ante, fie pentru că se consideră
că este adevărată, fie că este utilizată ca fundament pentru un argument, dar nu a fost încă probată.
În termeni statistici (sau probabilistici), prin ipoteza nulă se consideră că rezultatele studiului
sunt date de jocul șanselor, al întâmplării, și nu de un factor non-aleatoriu.
Pornind de la cele două exemple de întrebări și ipoteze, notațiile și formulările aferente
ipotezei nule sunt:
a) H0: Media notelor la examen ale grupei A de studenți în urma aplicării metodei
pedagogice de predare este egală cu media notelor la examen obținute de grupa B de
studenți la care nu s-a aplicat metoda pedagogică de predare.
b) H0: La aceeași disciplină de studiu, proporția notelor peste 5 obținute de studenții din
grupa A este egală cu proporția notelor peste 5 obținute de studenții din grupa B.
Observați că:
• ambele ipoteze sunt formulate în termenii absenței vreunei diferențe date de factorul
analizat (diferența este nulă), adică rezultatele sunt determinate exclusiv de factori
aleatorii;
• ambele ipoteze vizează rezultate agregate (media notelor la examen, proporția studenților)
la nivelul eșantioanelor studiate și nu diferențe individuale între entitățile studiate
(diferența dintre studentul A sau B al unei grupe sau dintre studentul A al unei grupe și
studentul B din cealaltă grupă);
• ambele ipoteze nule sunt formulate în termeni care sugerează că, de fapt, am dori să nu se
confirme, adică să fie respinse ori că, în realitate, factorii studiați au o influență asupra
rezultatelor studiului.

14
3.2.2 Formularea ipotezei alternative
Ipoteza alternativă (notată cu H1 sau HA), este o afirmație asupra a ceea ce un test de ipoteză
statistică trebuie să stabilească, de fapt. Ipoteza alternativă se mai numește ipoteza de cercetat sau cea
care, în realitate, dorim să o confirmăm.
În termeni statistici (sau probabilistici), prin ipoteza alternativă se consideră că rezultatele
studiului sunt date de efectul unui factor sau unor factori non-aleatorii.
Ipoteza alternativă este contrariul ipotezei nule, însă trebuie să ținem seamă ca formularea
celor două ipoteze trebuie să acopere toate situațiile posibile, adică să fie reciproc exclusive și
complementar exhaustive.
Pornind de la cele două exemple de întrebări și ipoteze, notațiile și formulările aferente
ipotezei alternative sunt:
c) HA: Media notelor la examen ale grupei A de studenți în urma aplicării metodei
pedagogice de predare este diferită de media notelor la examen obținute de grupa B de
studenți la care nu s-a aplicat metoda pedagogică de predare.
d) HA: La aceeași disciplină de studiu, proporția notelor peste 5 obținute de studenții din
grupa A este diferită de proporția notelor peste 5 obținute de studenții din grupa B.
Într-o formulare mai apropiată de nevoile noastre practice, cele două ipoteze alternative ar
putea fi următoarele:
a) HA: Media notelor la examen ale grupei A de studenți în urma aplicării metodei
pedagogice de predare este mai mare comparativ cu media notelor la examen obținute
de grupa B de studenți la care nu s-a aplicat metoda pedagogică de predare.
b) HA: La aceeași disciplină de studiu, proporția notelor peste 5 obținute de studenții din
grupa A este mai mare de proporția notelor peste 5 obținute de studenții din grupa B.
Aceste formulări se bazează pe teoria că o metodă pedagogică nouă influențează pozitiv
rezultatele la examenul unei anumite discipline, în primul caz, și că, în general, grupa A de studenți
are performanțe mai bune comparativ cu grupa B (pe baza anumitor considerente obiective).

3.2.3 Notația ipotezei nule și alternative


Convenind că formulările de mai sus sunt satisfăcătoare, să facem și notațiile matematice
corespunzătoare ipotezelor noastre, pentru fiecare exemplu în parte.
a) Aplicarea unei noi metode pedagogice de predare
𝐻0 : 𝑥̅1 = 𝑥̅ 0
(6)
𝐻𝐴 : 𝑥̅1 ≠ 𝑥̅0
sau
H0 : x̅1 = x̅0
(7)
HA : x̅1 > x̅0
unde
• x̅1 este media notelor la examenul la o disciplină universitară obținute de grupa A de
studenți după aplicarea unei metode pedagogice de predare;
• x̅0 este media notelor la examenul la aceeași disciplină universitară obținute de grupa B
de studenți la care nu s-a aplicat noua metodă pedagogică de predare.
Formularea matematică a ipotezei alternative din relația (7) este reciproc exclusivă și
complementar exhaustivă cu ipoteza nulă, deoarece două valori numerice distincte nu pot fi în același
timp egale, iar una să fie mai mare ca cealaltă.
15
b) Performanța grupei de studenți A comparativ cu grupa de studenți B
H0 : x̅A = x̅B
(8)
HA : x̅A ≠ x̅B
sau
H0 : x̅A = x̅B
(9)
HA : x̅A > x̅B
unde
• x̅A este media notelor la examenul la o disciplină universitară obținute de grupa A de
studenți;
• x̅B este media notelor la examenul la aceeași disciplină universitară obținute de grupa B
de studenți.

3.2.4 Testarea ipotezelor și erorile de decizie


Pentru a spune că ipoteza nulă este adevărată, trebuie să adunăm ”probe” sau ”dovezi”. Aceste
probe sunt, în realitate, mărimi statistice care ne ajută să concluzionăm că ipoteza nulă este respinsă
sau că nu poate fi respinsă.
Rețineți următoarele:
• Nu vom spune niciodată că ipoteza nulă este adevărată sau falsă, ori că ipoteza alternativă
este falsă sau adevărată, pentru că niciodată nu putem fi siguri de acest lucru;
• Concluzia finală, odată ce testul a fost realizat, este întotdeauna dată în termenii ipotezei
nule.
Dacă avem suficiente probe în defavoarea ipotezei nule, concluzia noastră va fi formulată
astfel:
• Fie “Respingem H0”
sau
• “Avem suficiente probe să respingem H0” – deci respingem H0 în favoarea H1.
Dacă nu avem suficiente probe în defavoarea ipotezei nule, concluzia noastră va fi formulată
astfel:
• “Nu respingem H0”
sau
• “Nu avem suficiente probe să respingem H0” – deci nu reușim să respingem H0.
Niciodată nu concluzionăm, în raport cu formularea “Respingem H0”, “Acceptăm HA” sau,
în raport cu formularea “Nu respingem H0”, “Respingem HA” și nici măcar ”Acceptăm H0” .
Dacă vom concluziona “Nu respingem H0”, aceasta nu înseamnă în mod necesar că ipoteza
nulă este adevărată, sugerează doar că nu există suficiente probe împotriva lui H0 în favoarea HA. Din
acest motiv, în acest caz, formularea echivalentă nu va fi ”Acceptăm H0”! Respingerea ipotezei nule,
astfel, sugerează că ipoteza alternativă ar putea fi adevărată.
Atunci când decidem să respingem sau nu ipoteza nulă, comitem o serie de erori pentru că,
spre exemplu, respingem ipoteza nulă când ea este de fapt adevărată sau o nu reușim să o respingem
când ea, în realitate, este falsă.

16
Tabelul următor descrie pe coloane situațiile reale în care se poate afla ipoteza nulă, dar pe
care nu le vom putea ști niciodată cu siguranță, iar pe rânduri alternativele noastre de decizie pe baza
datelor din eșantionul (sau eșantioanele) observat (observate).
Tabelul 2: Alternative de decizie asupra ipotezei nule și tipurile de erori

Alternative Situația reală (necunoscută)

de decizie H0 este adevărată H0 nu este adevărată

Respingem H0 Eroare de tip I Decizie corectă

Nu reușim să respingem H0 Decizie corectă Eroare de tip II

Eroarea de tip I este eroarea pe care o comitem atunci când respingem H0, când H0 este în
realitatea adevărată. Probabilitatea de a comite o Eroare de tip I mai este numită nivel de semnificație
sau alfa, notată cu simbolul α. Aceasta este eroarea pe care o acceptăm prin pragul de semnificație
(celebrul 5%, spre exemplu) – să respingem H0 când ea este, în realitate, adevărată.
Eroarea de tip II este eroarea pe care o comitem când nu reușim să respingem H0, când H0
este în realitate falsă. Probabilitatea de a comite o Eroare de tip II este numită Beta, fiind notată cu
simbolul β. Probabilitatea de a nu comite o Eroare de tip II se numește Puterea unui test, pe care o
notăm cu 1 - β. Eroarea de tip II este mai greu de calculat, dar este și mult mai costisitoare decât
Eroarea de tip I.
Pentru a exemplifica importanța modului de formulare a unui test statistic și a erorilor de tip
I sau II, să facem o analogie cu procesele în instanțele de judecată.
În sistemul judiciar funcționează prezumția de nevinovăție: ”inculpatul este nevinovat până
când se dovedește că este vinovat”, iar ipoteza inițială este că inculpatul este nevinovat. În termenii
statistici prezentați anterior, cele două ipoteze cu care sistemul judiciar lucrează sunt:
• H0: Inculpatul nu este vinovat
• HA: Inculpatul este vinovat
Pentru a ajunge la o decizie a instanței de condamnare a inculpatului, acuzarea adună dovezi
– amprente, documente olografe, înregistrări, mărturii – cu speranța că vor fi suficiente probe care să
demonstreze fără cea mai mică urmă de îndoială că inculpatul este vinovat, iar în baza probelor
administrate, judecătorul respinge sau nu ipoteza nulă.
Să ne imaginăm acum un prim caz, în care instanța respinge ipoteza nulă când ea este în
realitate adevărată, adică decide că inculpatul este vinovat, în condițiile în care, în realitate, este
nevinovat, deci ia o decizie eronată. În asemenea situații, ne-am dori ca probabilitatea unei asemenea
decizii eronate (asimilabilă cu Eroarea de tip I) să fie cât mai mică, de unde se aleg praguri de
semnificație mici (1‰, 2‰, 3‰,1%, 2%, 5%), pentru că riscul unei asemenea erori există și nu îl
putem elimina în totalitate.
A condamna o persoană nevinovată este o greșeală, desigur, și costul personal al condamnării
unei persoane nevinovate este mare. Pentru a evita în totalitate acest risc ar însemna ca nimeni să nu
mai fie judecat sau condamnat pentru că există un risc, oricât de mic, de a condamna o persoană
nevinovată, în realitate. Așadar, toți acuzații ar fi lăsați liberi.
Să ne imaginăm un al doilea caz, în care instanța nu respinge ipoteza nulă când ea este în
realitate falsă, adică decide că inculpatul este nevinovat, în condițiile în care, în realitate, este
vinovat, deci ia o decizie eronată. În asemenea situații, ne-am dori, de asemenea, ca probabilitatea
unei asemenea decizii eronate (asimilabilă cu Eroarea de tip II) să fie cât mai mică, deoarece și riscul
acestei erori există și nu îl putem elimina în totalitate.

17
A elibera o persoană vinovată este o greșeală, este la fel de sigur. Ca să evităm acest risc,
atunci ar fi nevoie numai de instanțe care să condamne orice persoană acuzată de o faptă anume,
pentru a evita punerea în libertate a persoanelor vinovate. Așadar, toți acuzații ar fi condamnați.
Probabilitatea Erorii de tip II este în relație inversă cu probabilitatea sau pragul de
semnificație al Erorii de tip I. Ca să înțelegem această relație, să ne imaginăm cele două cazuri
extreme de mai sus. În cazul în care dorim să eliminăm riscul de a condamna o persoană nevinovată
(Eroarea de tip I), toți acuzații sunt eliberați. În consecință, inclusiv persoanele vinovate vor fi
eliberate, deci creștem probabilitatea Erorii de tip II. În cazul în care dorim eliminarea riscului de a
elibera persoane vinovate (Eroarea de tip II), toți acuzații sunt condamnați, deci vor fi condamnate și
persoanele nevinovate, crescând probabilitatea de a comite o Eroare de tip I.
În termeni probabilistici, cu cât pragul de semnificație al unei Erori de tip I scade, aria de
acceptare a ipotezei nule crește, când ea ar putea fi falsă în realitate, deci probabilitatea Erorii de tip
II crește. Cu alte cuvinte, dacă încercăm să reducem probabilitatea Erorii de tip I (decizia de
condamnare a unei persoane nevinovate) de la 5 la mie la 1 la mie, să spunem, creștem probabilitatea
Erorii de tip II (de a nu putea respinge ipoteza nulă – acuzatul este nevinovat – când în realitate
persoana este vinovată).
La extrem, ce să preferăm, toți acuzații să fie liberi sau toți să fie condamnați? Dilema este
profundă. Libertatea este un drept suprem, motiv pentru care am putea spune că este mai bine să
eliberăm un vinovat decât să lipsim de libertate o persoană nevinovată. Însă, în acest fel, oamenii nu
ar trebui să se mai teamă de rigorile legii, de vreme ce riscul de a fi condamnat este redus.
Un răspuns de bun simț la întrebarea de mai sus este că nu putem prefera nici una din aceste
opțiuni extreme, pentru că dacă una ar fi adevărată, a doua nu este implicit falsă. În consecință, este
nevoie de un criteriu de evaluare și de control al celor două tipuri de erori. Unul dintre ele ar fi costul
fiecărei decizii.
Care este costul eliberării unei persoane care este în realitate vinovată, în comparație cu costul
deciziei de condamnare a unei persoane nevinovate? Care cost ar trebui să prevaleze, cel individual
sau cel societal? Sunt întrebări în care pot fi evidențiate aspectele morale, etice, de drept, sociale sau
economice. Statistic, însă, ele pot fi evidențiate și, pe baza acestor evidențe, să se stabilească un mod
de gestiune a acestor riscuri, pentru a le minimiza pe cât posibil, fiind pe deplin conștienți că nu le
putem elimina în totalitate.
Iată câteva alte exemple de teste statistice, în care pot fi evaluate consecințele erorilor de tip I
și II:
• În industria farmaceutică: introducerea unui nou medicament
H0: Medicamentul nu are niciun efect asupra unei stări fiziologice
HA: Medicamentul are un efect asupra unei stări fiziologice
• În marketing: efectul unei campanii de promovare asupra vânzărilor
H0: Campania nu a avut efect (vânzările nu au crescut)
HA: Campania a avut efect (vânzările au crescut)
• În sondajele la urne:
H0: Candidatul A nu câștigă (obține mai puțin de 50%+1 din voturi)
HA: Candidatul A câștigă (obține cel puțin 50%+1 din voturi)

3.2.5 Reguli de formulare a concluziei în urma testării ipotezelor


Inferența statistică include în etapele sale decizia de respingere a ipotezei nule, pe baza unor
reguli. Aceste reguli de respingere (sau de eșec al respingerii) sunt descrise de analist prin intermediul
18
unei statistici de test și, corespunzător acesteia, al unei probabilități asociate statisticii de test (numită
și valoarea-P sau P-value) sau a unei regiuni de acceptare a testului.
Statistica de test este calculată, în primul rând, cu ajutorul estimației calculate a parametrului
de interes și, în al doilea rând, cu ajutorul abaterii medii pătratice (abaterii standard) a acestei
estimații. Dar dacă din eșantion putem calcula o singură estimație (spre exemplu, valoarea medie a
unei variabile), cum putem calcula abaterea ei standard?
Ca să aflăm răspunsul la această întrebare, să studiem o variabilă Z numită și scor Z (z-score
în limba engleză) și să facem un exercițiu de imaginație.
Studiem variabila Z deoarece statisticile de test sunt calculate printr-o relație asemănătoare cu
relația de calcul a variabilei Z, care rezultă din transformarea oricărei variabile, inclusiv a unei
estimații de medie, cu ajutorul următoarei relații:
xi − x̅
zi = (10)
σX
După cum vedem, fiecare valoare a variabilei Z (𝑧𝑖 ) este rezultatul unui raport dintre diferența
valorilor variabilei X față de media acestor valori (𝑥𝑖 − 𝑥̅ ) și abaterea medie pătratică sau abaterea
standard a valorilor variabilei X (𝜎𝑋 ).
Această transformare face ca distribuția variabilei Z, provenită dintr-o variabilă oarecare X cu
media 𝑥̅ și abaterea medie pătratică 𝜎𝑋 , să fie o distribuție normală cu media 0 (zero) și abatere
standard egală cu 1, situație pe care o notăm matematic astfel: Z~N(0,1)6. Această notație o citim
astfel: ”variabila Z urmează o distribuție normală de medie 0 și abatere standard 1”. Cu alte cuvinte,
prin această transformare normalizăm și standardizăm orice altă variabilă. De aceea se mai supune
că variabila Z este o variabilă normală standard.
Acum să facem exercițiul de imaginație. Dacă am cunoaște populația statistică și a am extrage
un al doilea eșantion, am putea calcula noua estimație (media) din acest eșantion care, foarte probabil,
va fi diferită de prima noastră estimație. Apoi din al treilea eșantion am obține alt rezultat, din al
patrulea altul și, dacă am extrage din populația statistică toate eșantioanele posibile, am obține un
număr foarte mare de estimații punctuale. Având atât de multe estimații, am putea calcula dispersia
sau abaterea medie pătratică a tuturor acestor estimații.
Numai că noi nu avem la dispoziție nici populația statistică și nici nu ar fi practic să extragem
toate eșantioanele posibile din care să calculăm toate estimațiile de care am avea nevoie. Însă dacă
am reuși acest lucru, am observa că mediile de sondaj se așază în mod miraculos sub forma unei
distribuții normale, cum este cea din Figura 3. Acest fapt poate fi demonstrat ca o consecință a
teoremei limită centrală care ne spune că mediile de sondaj au o distribuție aproximativ normală.
În Figura 3, pe axa orizontală sunt reprezentate valorile posibile ale mediilor de sondaj. Pe
axa verticală sunt prezentate procentual frecvențele de apariție ale fiecărei valori (amintiți-vă de
diagramele de bare și de faptul că fiecare bară reprezenta în termeni absoluți sau relativi frecvența de
apariție a fiecărei valori). Observați că cea mai mare frecvență apare în dreptul valorii 𝑋̅, care este
media tuturor mediilor de sondaj și care este egală cu media adevărată din populația totală, dar pe
care nu o cunoaștem. Să observăm că, pe măsură ce ne depărtăm de media 𝑋̅ și ne apropiem de
marginile din stânga sau din dreapta ale distribuției, frecvențele relative de apariție ale unor valori
mai depărtate de medie scad și chiar tind spre zero.

6
Litera ”N” din această notație semnifică distribuția normală.
19
Figura 3: Distribuția mediilor de sondaj și probabilitățile de apariție a diferitelor valori ale
estimațiilor
Să observăm că în această distribuție normală media mediilor de sondaj 𝑋̅ este în același timp
valoare medie, mediană și modală, iar distribuția este simetrică cu un coeficient de aplatizare egal cu
1.
Curba ”clopotului” distribuției normale unește vârfurile frecvențelor de apariție ale tuturor
valorilor posibile ale mediilor de sondaj. În consecință, putem spune că aria de sub curbă este egală
cu 1, așa cum suma tuturor frecvențelor relative posibile ale unei valori nu poate fi mai mare de 1
(sau 100% când exprimam procentual frecvențele). În acest fel, putem spune că aria de sub curbă de
la stânga mediei 𝑋̅ are 0,5 din suprafața totală (la fel ca mediana), iar aria din dreapta ocupă 0,5 din
suprafața totală. Asimilând această suprafață cu probabilitatea de apariție a unei anumite valori, putem
spune că probabilitatea ca o valoare estimată a mediei dintr-un eșantion posibil să fie mai mică de 𝑋̅
este de 50%, la fel cum probabilitatea ca o valoare estimată a mediei dintr-un eșantion posibil să fie
mai mare de 𝑋̅ este de 50%. Matematic, notăm aceste formulări narative cu P(𝑥̅̂ ≤ 𝑋̅) = 0,5 și,
respectiv, cu P(𝑥̅̂ ≥ 𝑋̅) = 0,5.
Să observăm acum celelalte valori de pe axa orizontală: 𝑥̅ − σ, 𝑥̅ − 2σ, 𝑥̅ − 3σ la stânga
scalei, 𝑥̅ + σ, 𝑥̅ + 2σ, 𝑥̅ + 3σ la dreapta scalei. Aceste valori reprezintă puncte de pe axa orizontală
aflate la 1, 2 sau 3 abateri standard distanță față de media 𝑋̅, la stânga sau dreapta ei.
Revenind la probabilitățile de mai sus, într-o distribuție normală, întotdeauna, vom constata
că:
• aproximativ 68% din valorile posibile ale mediilor de sondaj se găsesc între -1 și +1 abateri
̅7;
standard față de media X
• aproximativ 95% din valorile posibile ale mediilor de sondaj se găsesc între -2 și +2 abateri
̅;
standard față de media X
• aproximativ 98% din valorile posibile ale mediilor de sondaj se găsesc între -3 și +3 abateri
standard față de media ̅
X.

7
Media 𝑋̅ este parametrul pe care îl estimăm cu ajutorul datelor din eșantion. Teoria limită centrală ne spune că dacă am
extrage toate eșantioanele posibile dintr-o populație și am calcula media fiecărui eșantion, media mediilor de sondaj este
egală cu valoarea mediei populației totale pe care, în practică, nu o cunoaștem cu adevărat. Această teoremă stă la baza
inferenței statistice deoarece, în condițiile în care putem culege date dintr-un singur eșantion, putem face ipoteze asupra
estimației pe care o obținem, luând în considerare teoria pe care se fundamentează această teoremă.
20
Figura de mai jos este o reprezentare similară a graficului din Figura 4, cu deosebirea că, pe
axa orizontală, sunt reprezentate valorile posibile ale mediilor de sondaj după transformarea în scoruri
Z.

Figura 4: Distribuția normală a variabilei Z


În Figura 4, pe axa orizontală sunt reprezentate valorile posibile ale variabilei Z, care variază
între aproximativ – 3,5 și + 3,5. Pe axa verticală sunt prezentate procentual frecvențele de apariție ale
fiecărei valori. Observați că, de această dată, cea mai mare frecvență apare în dreptul valorii 0, care
este media valorilor variabilei transformate Z și că, pe măsură ce ne depărtăm de medie și ne apropiem
de marginile din stânga sau din dreapta ale distribuției, frecvențele relative de apariție ale unor valori
mai depărtate de medie scad și chiar tind spre zero, așa cum constatam și în Figura 3.
Atât din Figura 4, cât și din Figura 3, putem constata că la stânga sau la dreapta valorilor aflate
la aproximativ 2 abateri standard față de medie se găsesc câte 2,5% din mediile de sondaj posibile,
adică 5% în total.
Din Figura 3 am putem spune că dacă estimația mediei din eșantionul nostru se găsește,
fie în stânga, fie în dreapta, la cel puțin două abateri standard ale tuturor mediilor de sondaj
față de media adevărată, dar încă necunoscută, riscăm cu o probabilitate totală de 5% să
concluzionăm că estimația noastră este diferită de media adevărată (mai mică sau mai mare), adică
să respingem ipoteza nulă când ea este adevărată, comițând o Eroare de tip I. Aceasta este
probabilitatea sau pragul de semnificație pe care l-am ales în acest caz, de 5%.
Din Figura 4 am putea spune că dacă am normaliza estimația noastră, adică dacă am scădea
valoarea adevărată a mediei din fiecare medie estimată și am împărți la abaterea standard a
tuturor mediilor de sondaj, iar valoarea noastră normalizată ar fi mai mare sau mai mică de 2 (pentru
că abaterea standard este egală cu 1 în acest caz), atunci am putea concluziona că estimația noastră
nu este egală cu media adevărată (0 în acest caz), dar încă necunoscută, adică să respingem ipoteza
nulă conform căreia estimația noastră este egală cu adevărata medie de sondaj (cu valoarea zero) și
să riscăm să comitem o Eroare de tip I cu o probabilitate de 5%.
Cu alte cuvinte, putem spune că la dreapta unei valori aflate la 2 abateri standard de medie se
află 2,5% din valori, iar la stânga unei valori aflate la 2 abateri standard de medie se află alte 2,5%
din valori. Aceste două puncte, unul la 𝑥̅ − 2σ și altul la 𝑥̅ + 2σ, ori la -2 sau +2 față de media 0 sunt,
de fapt, două cuantile ale distribuției noastre8. Dacă dorim să scădem pragul de semnificație, adică

8
Amintiți-vă de cuantilele de la cursul de statistică.
21
să reducem riscul unei Erori de tip I, valorile cuantilelor ar crește (s-ar deplasa mai mult către stânga
sau către dreapta axei orizontale), iar dacă dorim să îl creștem, adică să mărim riscul unei Erori de tip
I, cuantilele s-ar apropia de valoarea centrală (zero).
În realitate, însă, repetăm, avem o singură valoare estimată a mediei și o singură valoare
a abaterii standard, ambele calculate din datele din eșantion, nu din toate eșantioanele posibile.
Pornind tot de la fundamentele teoremei limită centrală, se demonstrează că media de sondaj este
un estimator nedeplasat al adevăratei medii a valorilor variabilei de interes din populația totală,
iar abaterea standard din eșantion este un estimator nedeplasat al adevăratei abateri standard
a valorilor variabilei din populația totală, cu o serie de corecții de calcul necesare.
În consecință, în practică, vom calcula o statistică cu ajutorul unei relații de acest tip:
x̅̂ − μ
𝑺= (11)
̂x
σ
unde:
• 𝑺 este statistica de test pe care o calculăm potrivit relației (11);
• x̅̂ este estimația mediei calculată din eșantion (ori alt estimator de interes);
• μ este valoarea de test a ipotezei nule;
• σx este abaterea standard estimată a estimatorului de interes (medie, proporție, sumă,
̂
coeficient de corelație etc.)
Cunoscând distribuția teoretică a statisticii de test pe care o calculăm9, se poate determina
cărei cuantile teoretice corespunde valoarea calculată și, corespunzător acesteia, care este valoarea
probabilității asociate acesteia, adică valoarea-P.
Valoarea-P măsoară și ne arată cât de puternice sunt probele în favoarea ipotezei nule, astfel
încât să nu o putem respinge. Să presupunem că am calculat statistica de test S. Valoarea-P este
probabilitatea de a observa o statistică de test identică sau mai depărtată de S, presupunând că
ipoteza nulă e adevărată. Am accentuat această precizare pentru că este fundamentală. Dacă
valoarea-P pe care am observat-o în urma calculării statisticii de test este mai mică ca pragul de
semnificație (α = 5%), atunci putem respinge ipoteza nulă.
Această probabilitate o comparăm cu ariile care se află la stânga sau la dreapta dreptelor
verticale din Figura 4, unde se află regiunile de respingere a ipotezei nule, zone care ne indică unde
este regiunea de acceptare a ipotezei nule.
Regiunea de acceptare a ipotezei nule este un interval de valori. Dacă statistica de test S
intră în regiunea de acceptare, ipoteza nulă nu este respinsă, plasându-ne sub riscul Erorii de tip II.
Dimensiunea regiunii de acceptare este definită de pragul de semnificație 𝜶, adică de probabilitatea
de a comite o Eroare de tip I. În Figura 4, dacă α = 5%, regiunea de acceptare este aria colorată în
verde de sub curba distribuției normale, aflată în interiorul ariei delimitate de cele două drepte
verticale.
Dacă statistica de test cade în regiunea de respingere a ipotezei nule, ipoteza nulă este
respinsă și vom spune că ipoteza nulă este respinsă la valoarea 𝜶 a pragului de semnificație.
Cele două abordări, fie ale valorii-P, fie ale regiunii de acceptare, sunt echivalente. De cele
mai multe ori se operează cu valorile-P. Utilizarea conceptului de regiune de acceptare este proprie
calculului intervalelor de încredere.

9
Există mai multe distribuții statistice teoretice. Una dintre ele este distribuția normală, însă există și altele: Student, hi-
pătrat, binomială, log-normală etc. Vom vorbi despre ele la momentul potrivit.
22
3.2.6 Teste bilaterale sau unilaterale
Ipotezele sunt întotdeauna formulate în termenii parametrilor populației statistice, cum ar fi
media pe care o notăm cu simbolul μ.
O ipoteză alternativă, cea pe care dorim în realitate să o confirmăm, poate fi verificată printr-
un test unilateral sau un test bilateral. Pentru înțelegerea acestor concepte este nevoie să consultăm
Figura 4.
Un test unilateral pretinde că un parametru este fie mai mare fie mai mic decât valoarea dată
de ipoteza nulă.
Un test bilateral pretinde că un parametru nu este egal cu valoarea dată de ipoteza nulă, adică
este fie mai mare, fie mai mic decât valoarea testată, situație în care direcția de mai mare sau mai mic
nu mai contează.
În testele unilaterale, setul de ipoteze asupra unei medii a populației poate lua următoarea
formă:
H0: μ= k (media este egală cu o valoare)
H1: μ> k (media este mai mare de o valoare)
sau
H0: μ= k (media este egală cu o valoare)
H1: μ< k. (media este mai mică de o valoare)
În primul caz, operăm cu un test unilateral dreapta, iar în al doilea caz operăm cu un test
unilateral stânga.
Iată un exemplu de test unilateral dreapta.
Un distribuitor vrea să verifice dacă proporția unor echipamente defecte dintr-un lot este de
4%. Nu contează dacă proporția este egală sau mai mică de 4%. Motivul este evident, distribuitorul
fiind decis să accepte loturi în care proporția de echipamente defecte să fie în jur de 4%, dar nu mai
mare de 4%, lotul fiind respins dacă proporția echipamentelor defecte este mai mare de 4%.
Setul său de ipoteze este următorul:
H0: P=0.04 HA: P>0.04
După ce a stabilit un prag de semnificație α = 5%, spre exemplu, care nu are nicio legătură
cu proporția echipamentelor defecte, analistul calculează statistica aferentă acestui test și
probabilitatea asociată (valoarea-P). Dacă valoarea-P este mai mică de pragul de semnificație ales
(5%), atunci analistul îi poate comunica distribuitorului că poate respinge lotul (ipoteza nulă este
respinsă). Dacă valoarea-P este mai mare de pragul de semnificație ales, atunci statistica de test se
află în regiunea de acceptare, motiv pentru care nu respinge ipoteza nulă și, în consecință, nu respinge
lotul. Dacă valoarea-P este mai mare de pragul de semnificație, atunci analistul de află sub un risc
mai mare de respingere a ipotezei nule când ea ar fi adevărată în realitate (Eroarea de tip I).
Pentru exemplificarea unui test unilateral stânga să presupunem că un producător de
echipamente pretinde că durata medie de funcționare a unui echipament este de 10000 de ore, cu o
abatere standard de σ/√𝑛10. Presupunerea producătorului, dată de criterii de calitate pe care nu le
poate încălca, este că lotul este respins dacă durata medie de funcționare a unui eșantion de
echipamente este mai mică de 10000 de ore.

10
Vom reveni asupra acestei relații pentru a clarifica de ce o folosim. Să reamintim doar că ceva mai devreme am afirmat
că abaterea standard a unei variabile dintr-un eșantion este un estimator nedeplasat al abaterii standard a aceleiași variabile
dintr-o populație statistică, cu o serie de corecții de calcul necesare.
23
Setul său de ipoteze este următorul:
H0: μ=10000 H1: μ <10000
Extrăgând un eșantion de n echipamente, cu o probabilitate de 5%, vom respinge lotul dacă
media din eșantion este mai mică de 10000-1,64*𝜎̂/√𝑛, unde:
• 1,64 este valoarea statisticii normale Z (cuantila) pentru o probabilitate de 5%,
• ̂ este abaterea standard a duratei de funcționare a echipamentelor din eșantion
σ
• n este mărimea eșantionului.
Să observăm că valoarea 10000 − 1,64 ∗ 𝜎̂/√𝑛 este exprimată în termenii abaterii standard,
așa cum am văzut în Figura 3 și Figura 4. De aceea, în condițiile exemplului de față, dacă media
duratei de funcționare a eșantionului de echipamente este semnificativ mai mică de 10000 de ore,
atunci lotul este respins, deoarece respingem ipoteza nulă. Caracterul ”semnificativ” al diferenței
este dat de valoarea cuantilei corespunzătoare pragului de semnificație ales, de abaterea
standard a duratei de funcționare observate în eșantionul de echipamente și de mărimea
eșantionului. Cu cât pragul de semnificație este mai mic, valoarea cuantilei este mai mare. Cu cât
abaterea standard este mai mare, cu atât diferența față de valoarea testată este mai mare, însă această
diferență poate fi diminuată mărind volumul eșantionului.
În testele bilaterale, setul de ipoteze asupra unei medii a populației poate lua următoarea
formă:
H0: μ= k (media este egală cu o valoare)
H1: μ≠ k. (media este diferită de o valoare)
După cum se poate vedea, nu ne mai interesează dacă media noastră este mai mare sau mai
mică de o valoare de test, deci direcția testului nu mai contează.
În acest caz, însă, regiunile de respingere sunt de mărime egală și se află atât în stânga, cât și
în dreapta diagramei variabilei Z. De aceea, pragul de semnificație ales – sau probabilitatea de a greși
respingând ipoteza nulă când ea este adevărată în realitate – trebuie împărțit în două părți egale, ceea
ce conduce și la obținerea unei alte valori a cuantilei care determină regiunea de respingere sau,
complementar, regiunea de acceptare. Astfel, dacă într-un test unilateral valoarea cuantilei pentru un
prag de 5% este de 1,64, în cazul unui test bilateral valoarea cuantilei este de 1,96, corespunzătoare
unei probabilități de 2,5%, deoarece probabilitatea totală de a avea o Eroare de tip I este de 5%.
Astfel, cu o probabilitate de 5%, vom respinge ipoteza nulă dacă media estimată de noi este
mai mică de μ -1,96*σ/√𝑛 sau mai mare de μ +1,96*σ/√𝑛, unde 1,96 este valoarea critică a statisticii
Z pentru o probabilitate de 2,5%.

24
4. ANALIZA LEGĂTURILOR DINTRE VARIABILE

4.1 INTRODUCERE
Într-o cercetare statistică sunt înregistrate întotdeauna date pentru mai multe variabile, nu doar
pentru una singură. În cursul de statistică descriptivă au fost prezentate modalitățile prin care datele
aferente unei variabile pot fi prelucrate și analizate independent de cele ce descriu celelalte variabile.
De cele mai multe ori, însă, este necesar să ne punem câteva întrebări: Între aceste variabile există
vreo legătură? Dacă există, cât de puternică este? Cum se comportă o variabilă dacă alta sau altele se
modifică? Spre exemplu, un manager poate fi interesat de legătura dintre salariul angajaților, pe de o
parte, și experiența anterioară ori performanța lor la locul de muncă, pe de altă parte. Sau un sociolog
vrea să știe cum se relaționează rezultatele la examene ale studenților cu locul de muncă și venitul pe
care le au după absolvire. Pentru a estima astfel de legături, statisticienii utilizează tehnicile de
regresie și, pentru a măsura cât de puternice sunt aceste legături, ei utilizează tehnicile de corelație,
analizând seriile interdependente.
În acest capitol se tratează conceptele, tehnicile și metodele utilizate cel mai frecvent în
analiza legăturii între variabile statistice: metode simple de caracterizare a legăturii dintre două
variabile; regresia liniară simplă și multiplă; indicatorii prin care se măsoară intensitatea legăturilor
statistice; corelația neparametrică.
Cunoașterea acestor tehnici și metode este utilă în practica economică pentru explicarea
evoluției fenomenelor în trecut, dar și pentru fundamentarea predicției evoluției variabilelor în viitor
sau în circumstanțe diferite.

4.2 TIPURI DE LEGĂTURI


Prima problemă care trebuie soluționată în analiza legăturii între o variabilă dependentă
(rezultativă, efect sau explicată, notată cu Y) și una sau mai multe variabile independente
(factoriale, cauzale sau explicative, notate cu Xi) este următoarea: „există o legătură între variabile”
sau „modificarea variabilei explicate este influențată de modificarea variabilei (variabilelor)
explicative”? Răspunsul la o astfel de întrebare presupune să se pornească de la teorie, respectiv de
la știința de specialitate care studiază fenomenele respective și de la datele empirice înregistrate
pentru variabilele presupuse a fi corelate.
De la bun început, însă, trebuie să clarificăm un aspect important referitor la legătura dintre
variabile, pe de o parte, și efectul uneia sau mai multor variabile asupra variabilei explicate sau
cauzalitatea, pe de altă parte: dacă între două variabile constatăm că există o legătură, cauzalitatea
dintre ele nu este implicită. În schimb, dacă între ele există o relație de cauzalitate, legătura este
implicită.
Pornind de la datele empirice, se pot întâlni în practică următoarele situații:
a) variabila independentă X determină modificarea variabilei dependente Y, caz în care între
cele două variabile există o legătură univocă;
b) între cele două variabile există o legătură reciprocă;
c) variabilele au o evoluție similară, determinată nu de dependența dintre ele, ci de o altă
variabilă care influențează simultan modificarea celor două variabile;
d) cele două variabile au întâmplător o evoluție similară, fără să existe vreo legătură între
ele.
În cele ce urmează se tratează numai primele două tipuri de relații dintre variabile.
Legăturile dintre variabilele independente se clasifică după mai multe criterii.

25
a) După natura relației de interdependență se disting legături funcționale (deterministe)
și legături stohastice (statistice).
În cazul legăturilor deterministe, legătura dintre variabila Y și variabila X este cunoscută
cu certitudine. Spre exemplu, relația dintre profit și costuri nu comportă nici un fel de incertitudine:
odată ce cunoaștem veniturile totale și costurile totale, vom putea afla cu exactitate care este profitul.
Cu alte cuvinte, variabila X determină în mod univoc variabila Y, ceea ce înseamnă că unei valori a
variabilei cauză îi corespunde o valoare unică a variabilei efect. Legăturile funcționale sunt de forma:
𝑦 = 𝑓(𝑥). Acest tip de legătură se întâlnește mai rar în realitatea economico-socială, deoarece variația
unei variabile efect (Y) este rezultatul influenței simultane a mai multor variabile cauză (Xi).
Legăturile stohastice se întâlnesc cel mai frecvent în realitatea economico-socială. În acest
caz, modul în care funcționează legătura dintre variabile nu poate fi precizat cu certitudine. Legătura
statistică există între două variabile dacă valoarea medie a unei variabile se află în relație cu valoarea
medie a altei variabile. Astfel, variabila dependentă (Y) este influențată de una sau mai multe variabile
independente (Xi), dar pe lângă aceste cauze considerate esențiale există și alte variabile neînregistrate
(nespecificate) care acționează asupra variabilei Y. Caracteristic pentru legăturile stohastice este
faptul că în variația variabilei Y rămâne întotdeauna o parte neexplicată, determinată de influența
factorilor neînregistrați. Cu alte cuvinte, nu putem calcula cu certitudine care este valoarea variabilei
explicate pe baza unei valori a variabilei explicative.
Influența variabilelor nespecificate este luată în calcul în modelul stohastic sub forma variabilei
reziduale (𝜀), denumită și eroare aleatoare:
𝑦 = 𝑓(x) + 𝜀 (12)
Legătura statistică nu poate fi identificată la nivelul fiecărei unități, ci numai la nivelul
ansamblului unităților observate. Tendința de corelare se manifestă numai în cazul unui număr
suficient de mare de înregistrări.
b) După numărul variabilelor factoriale luate în considerare se deosebesc legături simple
și legături multiple.
În cazul legăturilor simple, se analizează dependența variabilei efect (Y) în funcție de o
singură variabilă cauză (X), toate celelalte variabile cu o influență semnificativă sau nu (esențiale sau
întâmplătoare) sunt considerate cu o acțiune constantă. De exemplu, dependența profitului de cifra de
afaceri.
În cazul legăturilor multiple, variația variabilei Y se analizează în funcție de mai multe
variabile cauză (X1, X2, ...).
De exemplu, analiza variației salariului într-o colectivitate (Y) în funcție de numărul orelor
lucrate (X1), de vechime (X2), de nivelul calificării (X3).
c) După natura caracteristicilor se disting legături corelative și legături de cauzale.
În cazul analizei legăturii dintre două variabile cantitative sau una cantitativă și alta calitativă
poate fi vorba, în primul rând, de o corelație statistică. De exemplu, ne putem propune să analizăm
legătura dintre ramura de activitate economică și câștigul salarial. Este destul de lesne să observăm
că există anumite ramuri cu salarii ridicate (sectorul financiar-bancar sau producerea energiei
electrice) și altele cu salarii mai mici (industria confecțiilor, turism și restaurante sau educație). De
asemenea, putem considera exemplul anecdotic al corelației dintre numărul nou-născuților și numărul
cuiburilor de barză11. Între cele două fenomene poate exista o corelație, dar nu în mod necesar o
cauzalitate: va crește numărul nou-născuților dacă va crește numărul cuiburilor de barză sau invers?
Firește că nu, nici într-un sens, nici în celălalt.

11
Acest exemplu este atribuit lui Jerzy Neyman, însă chiar Neyman îl consideră ca autor originar pe George Udny Yule.
26
Cauzalitatea statistică intervine în cazul legăturilor dintre două sau mai multe variabile
cantitative în sensul că modificarea uneia sau mai multor variabile considerate explicative antrenează
modificarea variabilei explicate într-o manieră consistentă. În cazul cuiburilor de barză și al nou-
născuților există, cel puțin, o a treia variabilă care le influențează distinct: ritmul biologic, gradul de
dezvoltare socio-economică, prezența și/sau abundența resurselor de hrană etc.
d) După direcția legăturii există legături directe și legături inverse.
Dacă modificarea variabilei cauză este însoțită de modificări în același sens ale variabilei
efect, există o legătură directă. În cazul în care variabilele corelate tind să se modifice în sens opus,
este cazul unei legături inverse.
e) După forma funcției (expresia analitică a legăturii) acestea pot fi liniare sau neliniare.
Dacă reprezentarea grafică a datelor empirice corespunzătoare celor două variabile sugerează
o dreaptă, legătura este liniară. În cazul legăturilor neliniare, dependența dintre variabile se exprimă
grafic printr-o curbă (hiperbolă, parabolă etc).
f) După timpul realizării legăturii se deosebesc legături sincrone (concomitente) și
asincrone (cu decalaj).
În primul caz, modificarea variabilelor se produce în același timp, concomitent, iar în cel de
al doilea caz variația variabilei cauză (X) este urmată după un anumit timp de variația variabilei efect
(Y). De exemplu, legătura dintre modificarea prețurilor de consum și modificarea cheltuielilor
populației pentru consum este una sincronă, iar legătura dintre investițiile realizate în economie și
modificarea produsului intern brut este una asincronă.
Analiza corelațiilor presupune parcurgerea următoarelor etape:
• identificarea variabilelor cauză și ierarhizarea acestora;
• culegerea datelor pentru variabile presupuse a fi corelate;
• verificarea existenței și a formei legăturii prin metode simple;
• calculul indicatorilor de corelație și testarea semnificației indicatorilor de corelație.

4.3 METODE SIMPLE DE ANALIZĂ A LEGĂTURII DINTRE VARIABILE


După culegerea datelor pentru variabilele implicate în analiza legăturii, trebuie verificat dacă
între variabile există o corelație, care este forma analitică a acesteia. Metodele care răspund acestor
probleme de cunoaștere sunt, de fapt, procedee de sistematizare a datelor empirice înregistrate, și
anume: metoda grafică; metoda grupărilor; metoda tabelului de corelație (de contingență). În cele ce
urmează ne concentrăm pe metoda grafică și metoda tabelului de contingență.

4.3.1 Metoda grafică


Metoda grafică este un procedeu simplu și sugestiv de vizualizare a interdependenței dintre
două variabile. Această metodă este, de altfel, cea mai rapidă pe care o putem aplica cu ajutorul celor
mai comune aplicații informatice care ne oferă posibilitatea de a realiza grafice prin nor de puncte12.
Metoda presupune reprezentarea grafică, în sistemul de axe rectangulare, a perechilor de
valori empirice (xi, yi). Pe abscisă se înscriu valorile caracteristicii independente iar pe ordonată cele
ale caracteristicii dependente. Fiecare pereche de valori empirice se reprezintă în cadranul I printr-un
punct. Procedând astfel se obține o diagramă de corelație sau o corelogramă.

12
„Scatter diagrams” în limba engleză sau “nouage de points” în limba franceză.

27
Să presupunem că ne interesează să vedem dacă există o relație între nota de la examenul de
admitere la o universitate și media notelor primite la prima sesiune de examene de către studenți.
Firesc, vom avea nevoie de un eșantion de studenți din anul I asupra cărora să organizăm o cercetare
statistică. Eșantionul este format din 10 studenți, iar rezultatele observării sunt prezentate în tabelul
următor.
Tabelul 3: Rezultatele la examenul de admitere și media notelor din prima sesiune de examene –
eșantion de 10 studenți
Media notelor la
Student Nota la admitere examenele din prima
sesiune
1 7,34 7
2 8,52 8
3 8,05 7
4 9,21 8
5 6,55 7
6 7,32 6
7 9,16 9
8 9,33 7
9 7,21 8
10 6,15 6

Pentru construirea graficului, variabila explicativă (sau independentă) este nota la admitere,
ale cărei valori le vom reprezenta pe axa orizontală, iar variabila explicată (sau dependentă) este
media notelor la examenele din prima sesiune, ale cărei valori le vom reprezenta pe axa verticală în
Figura 5.
10

9
Media la examene

4
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10
Nota la admitere

Figura 5 - Diagrama rezultatelor la admitere și în prima sesiune de examene


Pe baza graficului se concluzionează dacă există o corelație, dacă există date atipice și care
este forma și direcția legăturii în funcție de tendința de ordonare a punctelor. Din graficul de mai sus
rezultă destul de vizibil că există o relație între cele două variabile, respectiv o legătură directă între
nota la admitere și rezultatele din prima sesiune de examene.

28
Dacă punctele tind să se ordoneze în jurul unei linii drepte, corelația este liniară directă
(Figura 6) sau indirectă (Figura 7) iar dacă se ordonează sub forma unei curbe (Figura 8), între cele
două variabile există o corelație neliniară. De asemenea, graficul ne arată și dacă nu există nici o
relație între două variabile (Figura 9). Dacă punctele se împrăștie fără nici o regularitate, variabilele
trebuie considerate independente.

Figura 6: Legătură liniară directă Figura 7: Legătură liniară indirectă

Figura 8: Legătură neliniară Figura 9: Absența legăturii

Cu cât tendința de ordonare a punctelor este mai pronunțată, cu atât corelația între cele două
variabile este mai intensă, adică legătura este puternică (Figura 10). Dacă punctele sunt ordonate, dar
sunt relativ împrăștiate, legătura dintre variabile este mai slabă (Figura 11).

Figura 10: Legătură puternică Figura 11: Legătură slabă

29
În mod evident, metoda grafică ne arată care este forma relației doar dintre două variabile.
Dacă vom considera o variabilă drept variabilă efect și vom încerca să o punem în relație cu un set de
alte variabile explicative pe care le-am inclus în programul de observare, singura posibilitate de a
vizualiza legăturile existente este să construim perechi între variabila efect și fiecare din variabilele
explicative.

4.3.2 Metoda tabelului de contingență


Metoda tabelului de contingență (de corelație) presupune gruparea unităților colectivității
după variația unui set de două variabile și interpretarea tendinței de ordonare a frecvențelor.
De regulă, o variabilă este prezentată sub forma unei distribuții de frecvențe sau de
probabilitate. Distribuția variabilelor X și Y se prezintă în următoarea formă:
Tabelul 4: Distribuțiile de probabilitate a variabilelor X și Y

x1 x2 x3 … xn
p(x1) p(x2) p(x3) … p(xn)
y1 y2 y3 … yn
p(y1) p(y2) p(y3) … p(yn)
unde
• 𝑥𝑖 , i = ̅̅̅̅̅
1, 𝑛 reprezintă valorile variabilei explicative X
• 𝑦𝑖 , i = ̅̅̅̅̅
1, 𝑛 reprezintă valorile variabilei explicate Y
• p(𝑥𝑖 ) reprezintă probabilitățile de apariție a valorilor 𝑥𝑖 (și ca frecvențe)
• p(𝑦𝑖 ) reprezintă probabilitățile de apariție a valorilor 𝑦𝑖
Așadar, este facilă calcularea mediei și a altor statistici descriptive ale distribuției valorilor 𝑥𝑖
și 𝑦𝑖
În tabelele de contingență se poate recurge la gruparea datelor în intervale de valori sau
grupele pot fi reprezentate de valorile individuale ale celor două variabile observate.
Grupele construite după variabila independentă (Y) apar, de regulă, pe coloane, iar cele
aferente variabilei dependente (X) apar pe rânduri. La intersecția dintre rândul "i" și coloana "j" apare
numărul unităților (nij) corespunzător perechii de valori xj, yi. Tabelul care rezultă este unul cu dublă
intrare (vezi Tabelul 6).
Spre exemplu, Tabelul 5 grupează 80 de întreprinderi pe două criterii (variabile de analiză):
numărul de salariați și cifra de afaceri, considerând că numărul de salariați (variabila independentă)
influențează direct cifra de afaceri (variabila dependentă).
Dacă valorile care definesc intervalele de grupare după X și Y au fost ordonate crescător, iar
frecvențele tind să se ordoneze după diagonala principală, atunci există o corelație directă.
Dacă frecvențele se concentrează în jurul diagonalei secundare, atunci există o corelație
inversă. Cu cât concentrarea frecvențelor în jurul unei diagonale este mai puternică, cu atât legătura
dintre cele două variabile este mai intensă.
Împrăștierea fără nici o regularitate a frecvențelor sugerează că cele două variabile sunt
independente sau necorelate.

30
Tabelul 5: Gruparea agenților economici după numărul salariaților și după cifra de afaceri
Grupe Grupe după cifra de afaceri (mil. lei)
după nr. Total
salariați 4-6 6-8 8 - 10 10 - 12 12 - 14
0–9 6 8 6 - - 20
10 – 19 4 11 11 4 - 30
20 – 29 - - 4 7 4 15
30 – 39 - - - 5 5 10
40 – 49 - - - 2 3 5
Total 10 19 21 18 12 80

Din felul în care se distribuie frecvențele observate (pe diagonala principală) intuim că există
o legătură directă între numărul de salariați și cifra de afaceri.
În Tabelul 6 se prezintă macheta unei distribuții bidimensionale, în care valorile au fost
împărțite în r grupe după caracteristica X și în c grupe după caracteristica Y.
Tabelul 6: Modelul tabelului de contingență
Totalul
Valorile Valorile frecvențelor
variabilei caracteristicii Y(yi) asociate
X (xi) variabilei
y1 y2 ... yj ... yc X (xi.)
x1 n11 n12 ... n1j … n1c n1.
x2 n21 n22 ... n2j … n2c n2.
... … ... … ... … … …
xi ni1 ni2 ... nij … nic ni.
... … ... … ... … … …
xr nr1 nr2 ... nrj … nrc nr.
Totalul
frecvențelor
asociate n.1 n.2 … n.j ... n.c n..
variabilei
Y (n.j)

Fiecare linie și fiecare coloană a tabelului de contingență definesc o distribuție după o singură
valoare a variabilei de pe rând și de pe coloană.
Ultimul rând și ultima coloana care dau repartiția populației totale după fiecare variabilă se
numesc distribuții marginale. Punctele din notațiile frecvențelor (𝑛.𝑗 , 𝑛𝑖. , 𝑛.𝑐 , 𝑛𝑟. , 𝑛.. ) semnifică
faptul că pe rândul sau coloana respectivă s-a procedat la însumarea frecvențelor de pe rândul sau
coloana în cauză.
Celelalte rânduri și coloane care ne dau repartiția populației care corespunde unei condiții a
uneia dintre variabile în funcție de cealaltă variabilă se numesc distribuții condiționate. Spre
exemplu, primul rând ne arată distribuția variabilei Y condiționată de valoarea 𝑥1 a variabilei X, iar
prima coloană ne arată distribuția variabilei X condiționată de valoarea 𝑦1 a variabilei Y.

31
4.4 REGULA DE ADUNARE A DISPERSIILOR
În cele ce urmează sunt prezentate o serie de proprietăți ale distribuției bidimensionale, de a
căror înțelegere depinde înțelegerea unui număr mare de categorii de modele de analiză econometrică,
printre care regresia liniară sau modelele ANOVA. Deoarece sunt introduse o serie de noi concepte
de analiză a datelor care sunt ”statistici”, apelul la relații matematice este inevitabil. În mare parte ne
vom limita la relații algebrice clasice în care sunt folosite notații statistice cunoscute. Atenția și
răbdarea vor fi puse la încercare, însă trebuie să aveți încredere că le puteți parcurge și înțelege, dar
cu o condiție: să scrieți pe hârtie relațiile de calcul și să exersați calcule ”de mână” cu exemplele
simple prezentate pentru a înțelege pe deplin logica procesului de analiză și pentru a interpreta
rezultatele obținute.
Dispersia este un indicator pe baza căruia se calculează abaterea medie pătratică. De
asemenea, se folosește la analiza interdependențelor, în sensul că, nu de puține ori, este necesar să se
cuantifice cât din variația valorilor unei variabile efect (rezultat) se poate explica pe seama altei /
(altor) variabile explicative. De exemplu, ne interesează cât la sută din variația cifrei de afaceri celor
80 de întreprinderi se poate explica prin variația numărului de angajați?
Pentru a răspunde unei astfel de cerințe de cunoaștere se recurge la tabelul de contingență.
Corespunzător celor două tipuri de distribuții se pot calcula pentru variabila Y următoarele
medii:
• media generală pentru distribuția marginală a variabilei Y (y), calculată prin
intermediul valorilor individuale ale variabilei Y și a distribuției marginale a acesteia:
∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛.𝑗
𝑦= (13)
∑𝑐𝑗=1 𝑛.𝑗
Aceeași măsură poate fi obținută prin intermediul valorilor individuale ale variabilei Y pe
ansamblul distribuției din tabelul de contingență:
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗
𝑦= (14)
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑛𝑖𝑗
• medii de grupă sau medii condiționate (y̅i ) de factorul de grupare xi pentru
distribuțiile condiționate:
∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗 ∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗
𝑦̅𝑖 = = (15)
∑𝑐𝑗=1 𝑛𝑖𝑗 𝑛𝑖•
Formula de mai sus arată că, pentru fiecare valoare 𝑥𝑖 a variabilei X, se poate calcula o valoare
medie a variabilei Y.
Pe baza relației (15), relația (14) a mediei generale poate fi rescrisă în funcție de mediile
condiționate ale variabilei Y, astfel:
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑦𝑗 ⋅ 𝑛𝑖𝑗 ∑𝑟𝑖=1 𝑦̅𝑖 ⋅ 𝑛𝑖•
𝑦= = (16)
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑛𝑖𝑗 ∑𝑟𝑖=1 𝑛𝑖•
Formula de mai sus arată că, mai întâi, pentru fiecare valoare a variabilei X (rândul i) se
ponderează valorile variabilei Y cu frecvențele 𝑛𝑖𝑗 , parcurgând toate coloanele de la stânga la dreapta.
În final, se însumează aceste valori ponderate pentru toate rândurile (de sus în jos). Ultimul termen al
relației arată că aceeași medie generală poate fi obținută ponderând mediile condiționate ale variabilei
Y cu ponderile date de frecvențele marginale ale fiecărui rând.
Numărul mediilor de grupă este egal cu numărul grupelor construite după caracteristica
factorială X (adică numărul de rânduri r), iar media mediilor de grupă este egală cu media generală,
așa cum se poate vedea în relația (16).
32
Deoarece dispersia măsoară variația valorilor unei variabile de la media lor și pornind de la
valorile individuale ale variabilei efect (𝑦𝑗 ), de la mediile condiționate (𝑦̅𝑖 ) și de la media generală
(𝑦) se pot determina următoarele abateri:
a) variația valorilor individuale în jurul mediei generale, yj − y;
b) variația valorilor individuale în jurul mediilor de grupă (condiționate), yj − yi;
c) abaterea mediilor condiționate de la media generală, yi − y.
Corespunzător celor trei tipuri de abateri, la nivelul fiecărei unităţi observate se poate scrie:
𝑦𝑗 − 𝑦 = 𝑦𝑗 − 𝑦𝑖 + 𝑦𝑖 − 𝑦 (17)
Relația (17) arată că abaterea totală este egală cu suma dintre abaterea valorilor individuale
fată de media grupei și abaterea mediei de grupă de la media generală. Ce semnificație au aceste
abateri?
Termenul din stânga al relației, 𝑦𝑗 − 𝑦, măsoară variația valorilor individuale în jurul mediei
generale. Dacă valorile empirice înregistrate (𝑦𝑗 ) sunt rezultatul influenței tuturor factorilor (esențiali
și neesențiali), iar media presupune că toți factorii sunt constanți, înseamnă că această diferență
exprimă variația valorilor individuale în jurul mediei sub acțiunea tuturor factorilor: factorul X
considerat esențial și toți ceilalți factori, considerați neesențiali.
Primul termen al părții din dreapta a relației, 𝑦𝑗 − 𝑦𝑖 , măsoară variația valorilor individuale
de la media de grupă, deci exprimă variația în interiorul fiecărei grupe construite după factorul X.
Cum factorul X are aceeași valoare în cazul tuturor unităților din aceeași grupă, înseamnă că această
diferență se datorează acțiunii cauzelor din interiorul grupei, deci a factorilor neesențiali.
Al doilea termen al părții din dreapta a relației, 𝑦𝑖 − 𝑦, evidențiază influența factorului esențial
de grupare (X) asupra variației valorilor mediei condiționate în jurul mediei generale.
Pe baza acestor abateri se pot calcula următoarele dispersii.
Dispersia generală (𝜎02 sau 𝜎𝑌2 ) se determină pentru repartiția marginală construită pentru Y,
și ca urmare, nu ține seama de grupele construite după factorul X.
2
∑cj=1(yj − y) ⋅ n•j
2 (18)
σ0 =
∑cj=1 n•j
Prin 𝜎02 se măsoară variația variabilei dependente (efect) sub influența tuturor factorilor.
Formula de mai sus arată, în pași, că:
a) din fiecare valoare a variabilei Y scădem media ei generală
b) această diferență este ridicată la pătrat
c) pătratul diferenței este ponderat cu raportul dintre frecvența de coloană și frecvența totală
d) se însumează toate pătratele ponderate ale diferențelor față de medie.
Pentru ansamblul tabelului de contingență, dispersia generală mai poate fi scrisă și sub
următoarea formă:
2
2
∑𝑟𝑖=1 ∑𝑐𝑗=1(𝑦𝑗 − 𝑦) ⋅ 𝑛𝑖𝑗
𝜎0 = (19)
∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑛𝑖𝑗

33
Dispersia de grupă sau dispersia condiționată 𝜎𝑖2 măsoară variația la nivelul fiecărei grupe
construite după factorul X. Numărul dispersiilor de grupă este egal cu numărul grupelor stabilite după
caracteristica factorială (i = 1, 2 ... r).
2
2
∑𝑐𝑗=1(𝑦𝑗 − 𝑦𝑖 ) ⋅ 𝑛𝑖𝑗
𝜎𝑖 = (20)
∑𝑐𝑗=1 𝑛𝑖𝑗
Fiecare dispersie de grupă măsoară variația valorilor variabilei dependente sub influența
factorilor din interiorul grupei respective, care sunt priviți ca factori neesențiali în raport cu factorul
X.
Pentru a măsura acțiunea tuturor factorilor neesențiali din toate grupele se calculează media
dispersiilor de grupă.
2
Media dispersiilor de grupă (𝜎 ) este o medie aritmetică ponderată a dispersiilor de grupă,
deoarece grupele au frecvențe diferite, motiv pentru care fiecare dispersie de grupă trebuie ponderată
corespunzător frecvenței pe care o are în total:
2 ∑𝑟𝑖=1 𝜎𝑖2 ⋅ 𝑛𝑖•
𝜎 = (21)
∑𝑟𝑖=1 𝑛𝑖•
Dacă toate grupele sunt de același volum (n1 = n2 = ... = ni = ...), atunci toate dispersiile de
𝑛 𝑛 𝑛
grupă intră în calculul mediei cu aceeași importantă ∑𝑟 1•𝑛 = ∑𝑟 2•𝑛 = ⋯ = ∑𝑟 𝑟•𝑛 , atunci se aplică
𝑖=1 𝑖• 𝑖=1 𝑖• 𝑖=1 𝑖•
media aritmetică simplă:
∑𝑟𝑖=1 𝜎𝑖2
2
𝜎 = (22)
𝑟
2
Dispersia dintre grupe (𝜎 2 ) sau dispersia explicată (𝜎𝑌/𝑋 ) măsoară variația mediilor de grupă
de la media generală și exprimă variația datorată acțiunii factorilor de grupare, deci a factorului X.
2
2
∑𝑟𝑖=1(𝑦𝑖 − 𝑦) ⋅ 𝑛𝑖•
𝜎𝑌/𝑋 = (23)
∑𝑟𝑖=1 𝑛𝑖•
Pornind de la factorii de influență care determină variația valorilor variabilei Y, între
dispersiile menționate există relația:
2
𝜎02 = 𝜎̅ 2 + 𝜎𝑌/𝑋 (24)
Relația (24) este denumită regula de adunare a dispersiilor.
Dispersia totală ne arată că este suma dintre media dispersiilor de grupă și dispersia mediilor
de grupă.
Pe baza acestei relații se calculează doi indicatori derivați (mărimi relative de structură) care
exprimă ponderea variației acțiunii fiecărui grup de factori (esențiali și neesențiali) în variația totală
și anume:
• Coeficientul de determinare (R2Y/X ), care exprimă ce cotă parte din variația totală se
datorează acțiunii factorului considerat esențial:
2
2
𝜎𝑌/𝑋
𝑅𝑌/𝑋 = ⋅ 100 (25)
𝜎02
• Coeficientul de nedeterminare (K 2Y/X ) măsoară cât la sută din variația totală se datorează
influenței factorilor neînregistrați, considerați neesențiali sau reziduali.

34
2
2
𝜎
𝐾𝑌/𝑋 = 2 ⋅ 100 (26)
𝜎0

Exemplul 1: Regula adunării dispersiilor


Variația cifrei de afaceri prezentată în Tabelul 7 este cauzată de acțiunea unui mare număr de factori:
numărul salariaților, domeniul de activitate, prețurile practicate, calitatea produselor etc.
Presupunem că un factor esențial de influență este numărul de salariați (X) și vrem să măsurăm cât
de mare este această influență asupra cifrei de afaceri. În acest caz se grupează mai întâi agenții
economici după acest factor, iar grupele obținute se definesc după cifra de afaceri (Y). Procedând
astfel se obține o repartiție bidimensională cum este, spre exemplu, cea din tabelul următor13.
Tabelul 7: Gruparea agenților economici după numărul de salariați și după cifra de afaceri
Grupe Grupe după cifra de afaceri (mii lei)
după
numărul de 1600- 2000- 2400- 2800- 3200- 3600- 4000- Total
salariați 2000 2400 2800 3200 3600 4000 4400
(pers.)
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200

Pentru verificarea regulii de adunare a dispersiilor și calculul coeficientului de determinare, procedăm


mai întâi la calculul mediilor pentru variabila « cifra de afaceri ».
a) media generală (𝑦 ):
∑7 𝑦𝑗 ⋅𝑛⋅𝑗 1800⋅15+2200⋅25+2600⋅50+3000⋅46+3400⋅35+3800⋅24+4200⋅5
𝑦 = ∑2𝑗=1∑7 = = 2906 𝑚𝑖𝑖 𝑙𝑒𝑖
𝑖=1 𝑗=1 𝑛𝑖𝑗 200

b) mediile de grupă (𝑦𝑖 ):


∑7𝑗=1 𝑦𝑗 ⋅ 𝑛1𝑗 1800 ⋅ 15 + 2200 ⋅ 25 + 2600 ⋅ 40 + 3000 ⋅ 25 + 3400 ⋅ 15 + 3800 ⋅ 0 + 4200 ⋅ 0
𝑦1 = =
∑7𝑗=1 𝑛1𝑗 120
= 2600 𝑚𝑖𝑖 𝑙𝑒𝑖
∑7𝑗=1 𝑦𝑗 ⋅ 𝑛2𝑗 1800 ⋅ 0 + 2200 ⋅ 0 + 2600 ⋅ 10 + 3000 ⋅ 21 + 3400 ⋅ 20 + 3800 ⋅ 24 + 4200 ⋅ 5
𝑦2 = =
∑7𝑗=1 𝑛2𝑗 80
= 3365 𝑚𝑖𝑖 𝑙𝑒𝑖
Media generală (𝑦) poate fi calculată pe baza mediilor parțiale (𝑦𝑖 ) astfel:
∑2𝑖=1 𝑦𝑖 ⋅ 𝑛𝑖• 2600 ⋅ 120 + 3365 ⋅ 80
𝑦= = = 2906 𝑚𝑖𝑖 𝑙𝑒𝑖
∑2𝑖=1 𝑛𝑖• 200
Să vedem cum facem toate aceste calcule în Tabelul 7.

13
Pentru facilitarea calculelor, tabelul a fost simplificat, iar pentru valorile cifrei de afaceri au fost folosite centrele de
interval.
35
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
𝒚𝒋 ⋅ 𝒏𝟏𝒋 27000 55000 104000 75000 51000 0 0 312000
𝒚𝒋 ⋅ 𝒏𝟐𝒋 0 0 26000 63000 68000 91200 21000 269200
𝒚 𝒋 ⋅ 𝒏 ⋅𝒋 27000 55000 130000 138000 119000 91200 21000 581200

În continuare, procedăm la calculul dispersiilor pentru variabila Y:


c) dispersia generală (𝜎02 = 𝜎𝑌2 )
2
∑7𝑗=1(𝑦𝑗 − 𝑦) ⋅ 𝑛•𝑗 (1800 − 2906)2 ⋅ 15 + (2200 − 2906)2 ⋅ 25+. . . +(4200 − 2906)2 ⋅ 5
𝜎02
= = =
∑7𝑗=1 𝑛•𝑗 200
71992800
= 359964
200
d) dispersiile de grupă (𝜎𝑖2 ):
2
∑7𝑗=1(𝑦𝑗 − 𝑦1 ) ⋅ 𝑛1𝑗 (1800 − 2600)2 ⋅ 15 + (2200 − 2600)2 ⋅ 25
𝜎12= = +
∑7𝑗=1 𝑛1𝑗 120
(2600 − 2600)2 ⋅ 40 + (3000 − 2600)2 ⋅ 25 + (3400 − 2600)2 ⋅ 15 27200000
= = 226666,7
120 120
2
∑7𝑗=1(𝑦𝑗 − 𝑦2 ) ⋅ 𝑛2𝑗 (2600 − 3365)2 ⋅ 10 + (3000 − 3365)2 ⋅ 21
𝜎22= = +
∑7𝑗=1 𝑛2𝑗 80
(3400 − 3365)2 ⋅ 20 + (3800 − 3365)2 ⋅ 24 + (4200 − 3365)2 ⋅ 5 897647375
= = 208775,0
80 80
e) media dispersiilor de grupă (𝜎2 ):
2 ∑2𝑖=1 𝜎𝑖2 ⋅ 𝑛𝑖• 226666,7 ⋅ 120 + 208775,0 ⋅ 80
𝜎 = = = 219510,0
∑2𝑖=1 𝑛𝑖• 200
2
f) dispersia dintre grupe (𝜎 2 ) sau dispersia explicată (𝜎𝑌/𝑋 )
2
2
∑2𝑖=1(𝑦𝑖 − 𝑦) ⋅ 𝑛𝑖• (2600 − 2906)2 ⋅ 120 + (3365 − 2906)2 ⋅ 80
𝜎𝑌/𝑋 = = = 140454,0
∑2𝑖=1 𝑛𝑖• 200
g) regula de adunare a dispersiilor:
2 2
𝜎02 = 𝜎 + 𝜎𝑌/𝑋 = 219510,0 + 140454,0 = 359964
După cum lesne se poate observa, regula de adunare a dispersiilor este verificată.
Calculele adiționale de mai sus sunt sintetizate în tabelul de mai jos:

36
Yj Total
Xi
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
2
(𝑦𝑗 − 𝑦)
18348540 12460900 4681800 406456 8541260 19181664 8372180 71992800,0
⋅ 𝑛•𝑗
2
(𝑦𝑗 − 𝑦1 ) ⋅ 𝑛1𝑗 9600000 4000000 0 4000000 9600000 0 0 27200000,0
2
(𝑦𝑗 − 𝑦2 ) ⋅ 𝑛2𝑗 0 5852250 2797725 24500 4541400 3486125 16702000,0

2
h) Coeficientul de determinare 𝑅𝑌/𝑋 este:
2
2 𝜎𝑌/𝑋 140454
𝑅𝑌/𝑋 = ⋅ 100 = ⋅ 100 = 39,01%. Aceasta înseamnă că 39% din variația cifrei de afaceri
𝜎02 359964
a celor 200 de întreprinderi este explicată de variația numărului de salariați, în timp ce restul de
71% din variație este explicată de alți factori, neobservați în studiul de față.

4.5 ANALIZA LEGĂTURII DINTRE VARIABILE: METODA CORELAȚIEI


Metodele statisticii descriptive oferă o serie de informații utile în studiul interdependențelor,
însă nu sunt în măsură să descrie analitic dependența și să măsoare numeric intensitatea acesteia.
Metodele care permit acest lucru sunt metoda corelației și metoda regresiei.
Din grupa metodei corelației diferențiem metodele neparametrice și parametrice de măsurare
a intensității legăturilor dintre variabile.
Diferențierea dintre metodele „parametrice” și „neparametrice” este extrem de importantă,
deși nu există o definiție unanim acceptată a semnificației celor doi termeni. Importanța este dată de
faptul că alegerea incorectă a unei metode sau a unei metode mai puțin puternice poate duce la
rezultate eronate și greu de explicat.
Un prim criteriu care ne indică natura metodei este faptul că în calculul indicatorilor statistici
intervin sau nu parametri calculați pe baza datelor ce provin, de regulă, dintr-un eșantion: medii sau
dispersii. În cazul în care se utilizează acești parametri, metodele sunt parametrice, iar în caz contrar
sunt neparametrice.
Metodele parametrice de măsurare a intensității legăturilor dintre variabile presupun
formularea anumitor supoziții asupra variabilelor implicate și a formei relației dintre acestea. Mai
precis, aceste metode pot fi aplicate dacă variabilele îndeplinesc două condiții:
a) sunt de natură cantitativă, numerică (scale de măsurare sunt de tip interval și raport);
b) repartițiile variabilelor tind spre distribuția normală.
Pentru evaluarea formei distribuției, indicatorii adecvați sunt cei ai asimetriei și aplatizării.
Dacă forma distribuțiilor diferă foarte mult de la una normală, există riscul ca rezultatul obținut să fie
incorect. În acest caz, se recomandă folosirea metodelor neparametrice. De altfel, dacă nu sunt
îndeplinite cele două condiții se recomandă aplicarea metodelor neparametrice.
Metodele neparametrice sunt mai slabe decât cele parametrice și se bazează numai poziția a
perechilor de scoruri (poziții) alocate valorilor analizate. Aceste metode se aplică în cazul în care
scala de măsurare a variabilelor este nominală sau ordinală.

37
4.6 METODE NEPARAMETRICE DE MĂSURARE A INTENSITĂȚII CORELAȚIEI
Cei mai utilizați indicatori din categoria metodelor neparametrice sunt: coeficientul de
asociere Yule; coeficientul de corelație a rangurilor Spearman; coeficientul de corelație a rangurilor
Kendall.
Coeficientul de asociere Yule (Q) se aplică în cazul analizei corelației dintre două variabile
alternative sau dihotomice. Astfel de caracteristici admit numai două forme de manifestare: DA și
NU și se codifică cu 1 și 0.
Repartiția celor două variabile alternative se prezintă într-un tabel de asociere care este o
variantă simplificată a tabelului cu dublă intrare. În acest tabel valorile variabilei X apar în capetele
rândurilor, iar cele ale variabilei Y apar în capetele coloanelor.
Tabelul 8: Tabel de asociere
X \ Y 𝒚𝟏 (DA) 𝒚𝟐 (NU) Total
𝒙𝟏 (DA) n11 n12 n1.
𝒙𝟐 (NU) n21 n22 n2.
Total n.1 n.2 n..
Coeficientul de asociere Yule se calculează pe baza relației:
𝑛11 ⋅ 𝑛22 − 𝑛12 ⋅ 𝑛21
𝑄= (27)
𝑛11 ⋅ 𝑛22 + 𝑛12 ⋅ 𝑛21
Acest indicator poate lua valori cuprinse între - 1 și +1. Valorile negative ale lui Q indică o
asociere inversă, respectiv directă, dacă acest indicator este pozitiv.
Cu cât Q tinde mai mult spre ±1, cu atât asocierea este mai puternică. Dacă coeficientul de
asociere este egal cu 0, între cele două variabile nu există o legătură de asociere.
Coeficienții de corelație a rangurilor se aplică în cazul în care valorile sau formele de
manifestare a celor două variabile pot fi ierarhizate. Acești indicatori se recomandă în situațiile în
care cel puțin una din variabile este nenumerică (calitativă sau exprimată prin cuvinte) sau când
distribuția nu este cunoscută.
Caracteristic pentru acești coeficienți este faptul că la determinarea lor nu se pornește de la
valorile empirice corespunzătoare celor două variabile, ci de la numere care indică locul fiecărei
valori / forme de manifestare în serie, denumite ranguri (𝑅𝑥 , 𝑅𝑦 ). Deci, valorile empirice / formele de
manifestare se înlocuiesc cu ranguri. Se ordonează crescător rangurile după caracteristica X (cel mai
mic nivel are rangul 1) și se atașează rangurile corespunzătoare caracteristicii Y.
Coeficientul de corelație a rangurilor Spearman (𝑟𝑆 ) se determină pe baza rangurilor celor
două variabile (𝑅𝑥 , 𝑅𝑦 ), ordonate așa cum s-a menționat mai sus:
6 ⋅ ∑𝑁 2
𝑖=1 𝐷𝑖
𝑟𝑆 = 1 − (28)
𝑁 ⋅ (𝑁 2 − 1)
în care:
• Di = R x,i − R y,i
• N este numărul cuplurilor de valori X, Y.
Acest coeficient poate lua valori cuprinse între - 1 și +1 și se interpretează în același fel ca în
cazul coeficientului de corelație liniară (r).
Exemplul următor ilustrează modul de calcul al coeficientului de corelație a rangurilor
Spearman.

38
Exemplul 2: Calculul coeficientului de corelație a rangurilor Spearman
În tabelul următor sunt prezentate rangurile a 6 țări ordonate după rata de alfabetizare masculină (xi)
și feminină (yi). Spre exemplu, țara 3 este a IV-a în ordinea ratei de alfabetizare masculine și a V-a
după rata de alfabetizare feminină.
Tabelul 9: Rangurile țărilor în funcție de rata de alfabetizare a populației masculine și feminine
Țara
1 2 3 4 5 6
Rangul xi 6 5 4 3 1 2
Rangul yi 6 4 5 2 1 3
𝑫𝒊 0 1 1 1 0 1
𝑫𝟐𝒊 0 1 1 1 0 1
𝑁 2
6 ∑𝑖=1 𝐷𝑖 6⋅4
𝑟𝑆 = 1 − 2
=1− = 0,886
𝑁(𝑁 − 1) 6 ⋅ (36 − 1)
Deoarece valoarea coeficientului de corelație a rangurilor Spearman este ridicată, concluzionăm că există o
corelație puternică între rata de alfabetizare a populației feminine și a celei masculine în cele 6 țări analizate.

Coeficientul de corelație a rangurilor Kendall (𝑟𝐾 ) se calculează numai pe baza rangurilor


variabilei Y, după ce datele au fost sortate după variabila X. Relația de calcul este:
∑ 𝑃𝑖 −∑ 𝑄𝑖
𝑟𝑘 = 1 (29)
𝑛(𝑛−1)
2

unde :
• ∑ Pi− suma rangurilor superioare care urmează în continuare după rangul i analizat;
• ∑ Qi − suma rangurilor inferioare care urmează în continuare după rangul i analizat.
• n este numărul de ranguri analizate.
Coeficientul Kendall ia de asemenea valori cuprinse între –1 și +1. Semnul coeficientului
indică direcția legăturii (+ corelație directă și – o corelație inversă), cu cât tinde mai mult spre ±1, cu
atât corelația este mai puternică.
Calculul coeficienților de corelație a rangurilor se exemplifică în continuare pe baza datelor
privind cifra de afaceri (X) și profitul (Y) realizate de către opt agenți economici.
Exemplul 3: Calculul coeficienților de corelație a rangurilor Spearman și Kendall
Într-o cercetare statistică au fost studiate 8 companii, ale căror cifră de afaceri și profit au fost
sintetizate în tabelul următor.
Tabelul 10: Cifra de afaceri și profitul obținute de 8 companii studiate
Cifra de
Nr. Profit
afaceri Rx Ry Di2 Pi Qi
crt. (mil. lei)
(mil. lei)
1 47 4,0 1 1 0 7 0
2 54 4,7 2 2 0 6 0
3 58 5,9 3 7 16 4 0
4 60 5,2 4 4 0 3 1
5 61 5,0 5 3 4 2 0
6 62 5,8 6 6 0 1 1
7 64 5,6 7 5 4 1 0
8 70 6,4 8 8 0 0 0
Total - - - - 24 24 2

39
Pi și Qi au fost determinate exclusiv pe baza coloanei de ranguri Ry.
Aplicând relațiile corespunzătoare,
• Coeficientul de corelație Spearman este:

6 ∑𝑁 2
𝑖=1 𝐷𝑖 6 ⋅ 24 144
𝑟𝑆 = 1 − = 1 − = 1 − = 0,714
𝑁(𝑁 2 − 1) 8 ⋅ (64 − 1) 504
• Coeficientul de corelație Kendall este:
∑ 𝑃𝑖 − ∑ 𝑄𝑖 2 ⋅ (24 − 2) 44
𝑟𝑘 = = = = 0,786
1 8 ⋅ (8 − 1) 56
2 𝑛(𝑛 − 1)
Corelația dintre cele două variabile este una directă și destul de mare ca intensitate.

4.7 METODE PARAMETRICE DE MĂSURARE A INTENSITĂȚII CORELAȚIEI


O funcție de regresie descrie forma analitică a dependenței variabilei rezultative de variabila
sau variabilele cauză atrase în analiza legăturii. În studiul legăturilor dintre variabile este frecvent
necesar să se măsoare cât de puternică este corelația dintre variabile, caz în care se aplică metodele
parametrice de măsurare a corelației14.
Indicatorii prin care se măsoară intensitatea legăturilor sunt: covarianța 𝑐𝑜𝑣( X, Y);
coeficientul de corelație liniară Pearson (𝜌𝑋𝑌 ); raportul de corelație (R) și coeficientul de determinare
(𝑅 2 ), prezentat în sub-capitolul 5.5. Acești indicatori sunt adecvați situațiilor în care corelația
dintre variabile este de tip liniar, în caz contrar nu este recomandată utilizarea acestora.
Covarianța dintre două variabile este o medie aritmetică simplă a produselor perechilor
abaterilor valorilor empirice (𝑥𝑖 și 𝑦𝑖 ) de la mediile lor aritmetice (𝑥̄ și 𝑦̄ ).
∑(𝑥𝑖 − 𝑥̄ ) ⋅ (𝑦𝑖 − 𝑦̄ )
𝑐𝑜𝑣( 𝑋, 𝑌) = (30)
𝑛
Dacă corelația este directă, atunci 𝑐𝑜𝑣( 𝑋, 𝑌) > 0 și are valori negative în cazul corelațiilor
inverse. Acest indicator se aplică mai rar în analiza corelațiilor, datorită următoarelor cauze:
• nu are un interval fix de variație; cu cât corelația este mai intensă cu atât covarianța, în
valoare absolută, este mai mare;
• se exprimă în unitățile de măsură a caracteristicelor implicate în analiză, fapt ce generează
dificultăți în cazul comparațiilor.
Coeficientul de corelație liniară (𝜌𝑋𝑌 ) (sau coeficientul de corelație Pearson15) este un
indicator sintetic care măsoară intensitatea legăturilor liniare simple. Se calculează ca un raport între
covarianță și produsul abaterilor medii pătratice ale variabilelor implicate în analiza corelației (𝜎𝑥 și
𝑥 −𝑥̄ 𝑦 −𝑦̄
𝜎𝑦 ) sau ca o medie aritmetică a produselor abaterilor normale normate: 𝜎𝑖 și 𝜎𝑖 :
𝑥 𝑦

𝑐𝑜𝑣( 𝑋, 𝑌) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̄ ) ⋅ (𝑦𝑖 − 𝑦̄ )


𝜌𝑋𝑌 = = (31)
𝜎𝑥 ⋅ 𝜎𝑦 𝑛 ⋅ 𝜎𝑥 ⋅ 𝜎𝑦

14
Metoda corelației presupune că ambele variabile analizate (X și Y) sunt aleatoare și distribuite normal, în timp ce
metoda regresiei presupune că variabila Y este aleatoare, în timp ce X nu este. De asemenea, se presupune că abaterea
standard a variabilei Y este constantă pentru toate valorile lui X, iar abaterea standard a variabilei X este constantă pentru
toate valorile lui Y.
15
In limba engleză poartă denumirea de “Product-moment correlation coefficient”
40
Înlocuind în această expresie 𝑥̄ , 𝑦̄ , 𝜎𝑥 și 𝜎𝑦 cu relațiile de calcul pe baza cărora se determină
∑𝑥 ∑𝑦 ∑ 𝑥𝑖2 ∑ 𝑥𝑖 2 ∑ 𝑦𝑖2 ∑ 𝑦𝑖 2
(𝑥̄ = ,𝑦̄ = , 𝜎𝑥 = √ −( ) și 𝜎𝑦 = √ −( ) se ajunge la o relație relativ simplă de
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
aplicat:
𝑛 ⋅ ∑ 𝑥𝑖 ⋅ 𝑦𝑖 − ∑ 𝑥𝑖 ⋅ ∑ 𝑦𝑖
𝜌𝑋𝑌 =
(32)
√[𝑛 ⋅ ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ] ⋅ [𝑛 ⋅ ∑ 𝑦𝑖2 − (∑ 𝑦𝑖 )2 ]

Coeficientul de corelație liniară poate lua valori cuprinse între –1 și +1. Semnul coeficientului
de corelație coincide cu cel al coeficientului de regresie b, în cazul regresiei liniare simple. Dacă
𝜌𝑋𝑌 > 0 există o corelație directă, iar dacă 𝑟𝑥𝑦 < 0 între cele două variabile este o corelație inversă.
Cu cât 𝜌𝑋𝑌 se apropie mai mult de ± 1 cu atât legătura dintre variabile este mai puternică.
Dacă 𝜌𝑋𝑌 = 1, atunci există o corelație directă funcțională, iar dacă 𝜌𝑋𝑌 = −1, între variabile este o
corelație inversă funcțională. O valoare egală cu 0 indică lipsa legăturii dintre variabile.
În exemplul prezentat privind legătura dintre nota la examenul de admitere și media notelor
la examenele din prima sesiune (vezi Tabelul 3), coeficientul de corelație este:
10 ⋅ 681,7 − 78,8 ⋅ 73 61,4
𝜌𝑋𝑌 = = = 0,63
√(10 ⋅ 633,3 − 78, 82 ) ⋅ (10 ⋅ 541 − 732 ) 97,3
Altfel spus, constatăm o corelație moderată dintre nota la admitere și media notelor la
examenele din prima sesiune.
Relațiile (31) și (32) se aplică în cazul în care datele înregistrate pentru cele două variabile se
prezintă sub forma a două serii simple și între care există o relație liniară. Dacă numărul perechilor
de valori înregistrate este mare, acestea se sistematizează prin gruparea lor pe intervale egale și se
prezintă într-un tabel cu dublă intrare. Într-o asemenea situație, fiecărei valori xi și yi i se atașează
frecvența corespunzătoare de apariție.
Relația (32) devine:
𝑛 ⋅ ∑ 𝑥𝑖 ⋅ 𝑦𝑖 ⋅ 𝑛𝑥𝑦 − ∑ 𝑥𝑖 ⋅ 𝑛𝑥 ∑ 𝑦𝑖 ⋅ 𝑛𝑦
𝜌𝑋𝑌 =
2 (33)
√[𝑛 ⋅ ∑ 𝑥𝑖2 ⋅ 𝑛𝑥 − (∑ 𝑥𝑖 ⋅ 𝑛𝑥 )2 ] ⋅ [𝑛 ⋅ ∑ 𝑦𝑖2 ⋅ 𝑛𝑦 − (∑ 𝑦𝑖 ⋅ 𝑛𝑦 ) ]

În aplicațiile reale, o măsură foarte mare a coeficientului de corelație este rar întâlnită.
De asemenea, este necesar să precizăm faptul că datele pe baza cărora se calculează coeficientul de
corelație este, în majoritatea cazurilor, un eșantion, în condițiile în care analistul este interesat
valoarea acestuia pentru întreaga populație, caz în care coeficientul de corelație este notat cu ρ (se
pronunță „ro”). De aceea, este important să știm câtă încredere putem da valorii calculate conform
relației (33). Altfel spus, analistul este interesat să verifice dacă valoarea coeficientului de corelație
din populație este egal cu zero sau nu, deoarece, dacă 𝜌 = 0, atunci cele două variabile analizate sunt
independente, adică nu există corelație între ele.
În termeni statistici, verificarea relației ρ = 0 înseamnă testarea ipotezei nule care este
formalizată astfel: 𝐻0 : ρ = 0. Ipoteza alternativă este 𝐻0 : ρ ≠ 0.
Pentru testarea ipotezei nule se utilizează testul „t”. În acest scop, trebuie să calculăm
statistica de test „t”16, care urmează o distribuție Student cu n-2 grade de libertate. Relația de calcul
a statisticii de test este:

16
În statistica t, magnitudinea numărătorului tinde să crească pe măsură ce ipoteza alternativă este adevărată.
41
𝜌𝑋𝑌
𝑡𝑐 = (34)
2 )/(𝑛
√(1 − 𝜌𝑋𝑌 − 2)
în care:
• ρXY este coeficientul de corelație liniară simplă;
• n este numărul observațiilor;
• n – 2 este numărul gradelor de libertate.
Valoarea calculată pe baza relației (34) se compară cu valoarea teoretică din tabelul Student,
pentru un prag de semnificație α (de regulă α= 0.05 ) și n – 2 grade de libertate (gradul de libertate
este n-2 deoarece dreapta are doi parametri fixați, adică media și abaterea medie pătratică).
Întrucât ipoteza nulă privește testarea egalității coeficientului de corelație a întregii
colectivități statistice cu valoarea 0, este posibil ca, în realitate, 𝜌 să fie „semnificativ” mai mare de
0 sau „semnificativ” mai mic de 0. De aceea, este firesc să verificăm dacă statistica t este fie foarte
mare, fie foarte mică pe curba distribuției teoretice a acesteia, știind că punctul de simetrie al acestei
distribuții este t=0, adică să aplicăm un test t bilateral.
În consecință, se compară valoarea calculată a statisticii t cu cea teoretică, iar regula de
evaluare a testului este următoarea: se respinge ipoteza nulă conform căreia ρ = 0 dacă tc > tteoretic
la pragul de semnificație de α/2 sau dacă tc < -tteoretic la pragul de semnificație de α/2 și nu
respingem ipoteza nulă în caz contrar. Altfel spus, dacă tc > tteoretic sau dacă tc < -tteoretic,
probabilitatea17 ca ρ să fie egal cu 0 este mai mică decât pragul de semnificație ales (de regulă, o
probabilitate totală de 5% sau 𝛼 =0,05, adică 2,5% din stânga distribuției Student și 2,5% din dreapta
ei), deci riscul să respingem în mod greșit ipoteza nulă (atunci când ea este adevărată în realitate) este
mai mic decât pragul de semnificație ales pentru test.
În cazul datelor din Tabelul 3, statistica t calculată este:
0,63
𝑡𝑐 = ⋅ √10 − 2 = 2,294
√1 − 0,632
Valoarea statisticii t pentru un prag de semnificație de 0,025 și 8 grade de libertate se poate
citi într-o tabelă a valorilor critice ale variabilei t calculate pentru teste bilaterale și găsim că tteoretic;
0,025 = 2,306.

Întrucât 2,294 < 2,306, nu reușim să respingem ipoteza nulă 𝜌 = 0 și concluzionăm că


valoarea coeficientului de corelație estimată din eșantion este, de fapt, zero la nivelul colectivității
generale, concluzie pe care o putem considera adevărată în 95 de cazuri din 100 posibile. Cu alte
cuvinte, deși am calculat că 𝜌𝑋𝑌 = 0,63, în condițiile eșantionului nostru concluzionăm că între notele
la admitere și media notelor la examene nu există o corelație liniară. Aflând acest fapt, ne putem
întreba care sunt motivele acestei necorelări.
Pentru a respinge ipoteza nulă, era necesar ca valoarea calculată a statisticii t să fie mai mare
decât statistica teoretică, fapt ce ar fi fost posibil dacă valoarea coeficientului de corelație ar fi fost
mai mare în condițiile eșantionului studiat.

17
Valoarea teoretică față de care facem comparația este o cuantilă, iar probabilitatea ca valoarea calculată să o depășească
pe cea teoretică este suprafața aflată sub curba distribuției.
42
5. REGRESIA LINIARĂ – NOȚIUNI DE BAZĂ
Prin definiție, modelul econometric include în ecuația sau ecuațiile sale variabile care se află
în legătură. Însă atunci când studiem legături dintre variabilele statistice, trebuie să acordăm foarte
serios atenție teoriei la care facem referire, fie ea economică, socială sau dintr-un alt domeniu al
științelor, în limitele căreia alegem să utilizăm instrumentele statistico-matematice adecvate. De ce?
Pentru că putem găsi oricând ”legături” între manifestările unei variabile ale unor entități pe care le
studiem.
Fără încadrarea într-o teorie validă a unui model explicativ, este posibil să demonstrăm orice.
Statisticianul George Udny Yule, care în anul 1911 a publicat ”Introduction to the Theory of
Statistics”, descria ce înseamnă confuzia factorilor care pot explica raportul de legătură între variabile.
El observa că în satele din Alsacia numărul de nou-născuți era corelat cu numărul de berze care
cuibăreau în acele sate. Este ușor de spus că, prin această corelație, berzele chiar aduc pe lume nou-
născuții, dar explicația era mult mai simplă. Satele mai mari aveau mai multe coșuri de fum pe care
berzele își construiau cuiburile, iar mai mulți copii veneau pe lume în satele mai mari, care aveau și
mai multe familii. Factorul care le unea, de fapt, era mărimea satelor. În plus, factorii economici
aveau o influență vizibilă. În anii în care condițiile de mediu erau mai favorabili, atât sursele
alimentare ale animalelor și păsărilor erau mai abundente, cât și producția agricolă era mai mare. Atât
berzele, cât și oamenii puteau prospera, fără însă vreo cauzalitate între ele. De aceea se spune că între
două variabile poate exista o corelație, dau nu neapărat și cauzalitate.
De ce este nevoie să discutăm despre legături (relații) între variabile și „regresie”? Istoria
descoperirilor ne va ajuta să înțelegem.
La cursul de statistică se studiază coeficientul de corelație. Denumirea dată coeficientului de
corelație induce pe mulți în eroare, atribuind descoperirea acestei mărimi statistice lui Karl Pearson.
O serie de lucrări descoperite la începutul anilor 200018 conduc la concluzia că ideea conceptualizării
noțiunilor de corelație și regresie aparține lui Sir Francis Galton. Mai mult, originea metodei nu este
legată de explicarea „regresiei către medie” a înălțimii copiilor în relație cu strămoșii lor, în încercarea
de a explica modul în care sunt moștenite trăsăturile înaintașilor de către urmași, ci de un alt organism
mult mai prozaic: mazărea dulce.
Francis Galton a ales mazărea dulce pentru că această specie se auto-fecundează; plantele de
sex feminin arată variațiile genetice ale plantelor-mamă fără contribuția unui alt părinte. El a eliminat,
în acest fel, problema evaluării statistice a contribuției genetice a mai multor surse, reușind să
controleze mai bine experimentul, mai precis factorii de influență sau variabilele care au legături între
ele.
Primele concluzii despre regresie au izvorât dintr-o diagramă bidimensională în care a trasat
punctele determinate de mărimea boabelor de mazăre „fiice” față de boabele de mazăre „mamă”,
ilustrând elementele fundamentale a ceea ce astăzi statisticienii numesc „regresie liniară”.
Dar de ce regresie liniară? Pornind de la observațiile sale, Galton a concluzionat că mărimea
boabelor de mazăre „regresează” către medie, deoarece din boabele mari au ieșit boabe mai mici, iar
din boabele mici au ieșit boabe mai mari. Aceste valori observate în perechi (mărimea boabelor
„mamă” și mărimea boabelor „fiică”), reprezentate grafic, sunt așezate de-a lungul unei linii drepte.
El a fixat pentru totdeauna acești termeni și metoda în sine când a publicat în anul 1886 lucrarea sa
„Regression Towards Mediocrity in Hereditary Stature”.

18
Jeffrey M. Stanton, „Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors”,
Syracuse University, Journal of Statistics Education Volume 9, Number 3, 2001
43
5.1 LEGĂTURA DINTRE DOUĂ VARIABILE: DE LA RELAȚIE LA CAUZALITATE
Să pornim, așadar, de la cel mai simplu exemplu, în care vom analiza legătura numai dintre
două variabile (sau variabile), X și Y. Spre exemplu, profitul unei întreprinderi exprimat în lei (Y) și
valoarea investițiilor sau a productivității exprimate în lei pe salariat (X). Ori valoarea cheltuielilor
alimentare ale unei gospodării (Y) și valoarea veniturilor lunare ale acesteia (X). Prin aceste notații
presupunem că variabila Y este influențată într-un fel sau altul de către valoarea pe care o ia variabila
X.
Cu Y notăm variabila explicată. Mai poartă numele de variabilă
endogenă, sau dependentă, sau de rezultat.
NOTAȚII -
DEFINIȚII Cu X notăm variabila (sau variabilele) explicativă (sau explicative).
Mai poartă numele de variabile exogene sau independente. Într-un
model, valorile variabilelor explicative sunt cunoscute a-priori.
Să observăm că, pornind de la teorie, postulăm cine este variabila independentă și cine este
variabila dependentă. Așadar, de la identificarea unei relații, așa cum este aceea dintre cuiburile de
barză și nou-născuți, trecem la definirea unei cauzalități.
Cel mai simplu mod prin care putem aplica metode de măsurare economică este de a
reprezenta o astfel de ”influență” prin așa-numita ”dependență de tip funcțional”, adică sub forma
unei relații de tipul unei funcții:
𝑌 = f (𝑋) (35)
unde f este o funcție. Aceasta este forma generală a modelului nostru econometric.
Se poate întâmpla să știm că între variabilele X și Y există o relație de tipul menționat, dar să
nu cunoaștem care este funcția f implicată.
De aceea, se pun două probleme majore:
• cum ne dăm seama că dependența dintre variabilele X și Y este una de tip funcțional?
• în caz afirmativ: cum găsim expresia acestei funcții, sau măcar o serie de informații despre
variabilele acestei funcții ?
Să ne reamintim că, după cum se știe din teoria elementară, o funcție este o corespondență
între două mulțimi, având următoarea proprietate esențială: la o valoare dată x0 a variabilei X,
corespunde cel mult o singură valoare a variabilei Y. Această valoare, pe care o notăm cu y0, este
chiar valoarea luată de f pentru X = x0, adică y0 = f (x0).
Exemplul 4: Corelația dintre variabilele X și Y
Să considerăm corespondența între variabilele X și Y dată de graficul de mai jos:

44
Este clar că această corespondență de la mulțimea de 5 valori ale variabilei X {1, 2, 3, 4, 5}, care se
află pe axa orizontală, la mulțimea de 8 valori ale variabilei Y {1, 2, 3, 4, 5, 6, 7, 8}, care se află pe axa
verticală, nu este de tip funcție.
Unul dintre motive: la valoarea x1=1 corespund trei valori ale variabilei Y, anume 𝑦1,1 = 1; 𝑦1,2 =
2; 𝑦1,3 = 6.
Exemplul precedent ridică o problemă și mai mare, anume: în condițiile figurii prezentate, se mai poate
măcar admite că între variabilele X și Y există vreo legătură?
Iată însă o altă situație:

Și în acest caz, figura ilustrează o corespondență de la mulțimea {1, 2, 3, 4, 5} la {1, 2, 3, 4, 5, 6},


corespondență care nu este de tip funcție. De data aceasta însă, este clar că odată cu creșterea valorilor 𝑥 ∈ 𝑋,
valorile corespunzătoare 𝑦 ∈ 𝑌au tendința să crească.
Astfel, pentru 𝑥1 = 1 corespund valorile 𝑦1,1 = 1 și 𝑦1,2 = 2, iar pentru 𝑥2 = 2, corespund valorile
nu mai mici 𝑦2,1 = 2 și 𝑦2,2 = 3. Așadar, există în mod categoric o influență a lui X asupra lui Y, numai că
aceasta influență nu este de tip funcție.
În studierea dependenței dintre două variabile, se folosesc drept date specifice eșantioane de
forma (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ), obținute în urma efectuării unor cercetări sau experiențe
specifice.
În cazul în care la fiecare valoare „x” corespunde o singură valoare „y”, adică (∋)i, j =
̅̅̅̅̅
1, n, i ≠ j pentru care xi = xj , atunci obligatoriu avem și 𝑦𝑖 = 𝑦𝑗
Se poate trece la căutarea unei funcții „f”, pentru care să se poată afirma că verifică relația Y
= f ( X ).
În raport cu eșantionul {(𝑥𝑖 , 𝑦𝑖 )}𝑖=1,𝑛 , o astfel de funcție va trebui să verifice relațiile
𝑦𝑖 = 𝑓(𝑥𝑖 ), 𝑖 = ̅̅̅̅̅
1, 𝑛 (36)
Din numeroase motive, o astfel de pretenție este fără sens: întâi, din punct de vedere
matematic, exista o infinitate de funcții cu proprietatea 𝑦𝑖 = f(𝑥𝑖 ), i = ̅̅̅̅̅
1, 𝑛, pentru orice pereche a
unui eșantion {(𝑥 )}
𝑖 , 𝑦𝑖 𝑖=1,𝑛 .

Pe de altă parte, în orice situație practică ce poate fi imaginată, pretenția ca 𝒚𝒊 să coincidă


perfect cu f(𝑥𝑖 ), pentru orice 𝑖 = 1, 𝑛 este total exagerată: este imposibil, ca din diverse motive, între
cele două seturi de valori să nu apară mici deosebiri.
Pentru a preîntâmpina astfel de inconveniente, se iau o serie de măsuri. Iată primele astfel de
precauții:

45
- ne asigurăm că, din punct de vedere al contextului practic în care lucrăm, între variabilele X
și Y trebuie să existe o legătură, sprijinită de teoria în care lucrăm; în caz că o astfel de legătură
există, urmează sa determinăm care dintre variabile este ”variabila independentă” și care
„variabilă dependentă„ sau ”explicată“;
- se construiește un eșantion de perechi de valori{(xi , yi )}i=1,n și se reprezintă grafic punctele
corespunzătoare în planul (XoY). Din inspectarea reprezentării grafice, se alege o funcție „f”
care să pară potrivită.
Exemplul 5: Forma legăturii dintre variabile
Iată trei reprezentări grafice ale unor eșantioane.

Datele prezentate în grafic sunt următoarele:


xi 1 2 3 4 5 6 7 8
yi 0 0,8 1 1,5 2,1 2,5 3 3,2

46
Vom inspecta graficele, pentru a încerca să stabilim tipul de funcție ”f” pentru care se poate afirma –
în fiecare caz separat – că avem Y = f ( X ).
Este clar că opțiunile cele mai bune de a defini funcțiile căutate par a fi următoarele:
- în cazul variantei 1: Y = 𝑏0 + 𝑏1 ∙ X (dependență liniară simplă) ;
- în cazul variantei 2: Y = 𝑏0 + 𝑏1 ∙ 𝑋 2 + 𝑏2 ∙ X (dependență parabolică de grad 2) ;
𝑏1
- în cazul variantei 3: Y = 𝑏0 + (dependență de tip hiperbolic ).
𝑋

Așadar, este nevoie de cunoaștere matematică pentru a putea identifica cele mai potrivite modele care
reflectă datele observate.
Să remarcăm câteva aspecte ale celor trei modele, în particular, și o noțiune importantă, în general.
În particular, în oricare din cele trei modele, dacă vom cunoaște valorile parametrilor 𝑏0 , 𝑏1 și 𝑏2 după
caz, având valorile observate ale variabilei X (notate cu 𝑥𝑖 ), vom putea întotdeauna să aflăm valorile exacte
ale variabilei Y (notate cu 𝑦𝑖 ). Un astfel de model, în care cunoaștem forma exactă a relației, iar valorile
introduse în model sunt cunoscute și fixate, se numește model determinist.
Un model a cărui formă nu este cunoscută cu exactitate deoarece include unul sau mai mulți
termeni aleatori, iar datele introduse în model au caracteristici aleatoare se numește model stochastic.
În acest curs vom utiliza și vom studia numai modele stochastice.
În general, ceea ce urmărim într-un model econometric este să aflăm valorile componentelor
𝑏0 , 𝑏1 și 𝑏2 , al căror număr depinde de numărul variabilelor independente introduse în model și de
forma modelului. Aceste componente se numesc parametrii modelului.
Funcția aleasă ”f” conține, așadar, o serie de parametri necunoscuți. Determinarea de valori
(aproximative) pentru acești parametri, pe baza unui eșantion {(𝑥𝑖 , 𝑦𝑖 )}𝑖=1,𝑛 va fi numită estimare.
Astfel, pentru varianta 2 de mai sus, vom estima parametrii 𝑏0 , 𝑏1 și 𝑏2 pe baza datelor din eșantion.
Funcția ”f ”, în care parametrii au fost înlocuiți cu valorile estimate, va fi numită funcție estimată.
Pentru un eșantion și pentru o funcție estimată pe baza acestui eșantion, notată cu 𝑓̂, nu avem
𝑦𝑖 = 𝑓̂(𝑥𝑖 ), ci numai 𝑦𝑖 ≈ 𝑓̂(𝑥𝑖 ), adică 𝑦𝑖 va fi aproximativ egală cu valoarea dată de funcția 𝑓̂ în
punctul 𝑥𝑖 .
Diferențele dintre valorile observate ale variabilei Y și valorile teoretice19 ale aceleiași
variabile, determinate de model, vor fi numite reziduuri, deoarece modelul nu reflectă perfect
realitatea și, în consecință, vor fi întotdeauna astfel de diferențe. Folosim litera 𝑢̂ cu accentul „^”

19
Valorile observate sunt valorile variabilelor observate în cercetarea statistică și pentru care am cules datele utilizate în
analiză. Sunt datele culese sau empirice. Valorile teoretice sunt valorile variabilelor observate obținute în urma estimării
lor cu ajutorul modelului econometric ales. Sunt datele estimate prin model.
47
pentru reziduuri, deoarece reflectă erorile de estimare. Accentul „^” semnifică faptul că și această
diferență este o estimare, pentru că valoarea adevărată a reziduului (termenului de eroare), sau a
parametrilor, cum vom vedea în continuare, nu o putem cunoaște niciodată cu exactitate. Expresia
reziduurilor este
𝑢̂𝑖 = 𝑦𝑖 − 𝑓̂(𝑥𝑖 ), 𝑖 = ̅̅̅̅̅
1, 𝑛 (37)
În capitolele care urmează ne vom concentra pe modelele liniare de forma
𝑌 = 𝑏0 + 𝑏1 ∙ 𝑋1 + 𝑏2 ∙ 𝑋2 + ⋯ + 𝑏𝑝 ∙ 𝑋𝑝 (38)
în care postulăm că variabila Y este dependentă de un număr de p variabile independente 𝑋𝑗 , j = ̅̅̅̅̅
1, 𝑝.
Spre exemplu, putem studia un model în care consumul unui număr de n gospodării (Y) este
dependent de cantitatea de bunuri de consum (𝑋1 ) și de prețul acestora (𝑋2), având așadar p=2
variabile independente sau 2 predictori.
Modelul este numit liniar pentru că este liniar în privința parametrilor (b0, b1, b2, …, bm),
care sunt la puterea întâi (1).
Să mai remarcăm, în final, notațiile de indici. Indicele i (i = ̅̅̅̅̅ 1, 𝑛) reprezintă indicatorul
entității observate din cele n în total. Indicele j (j = ̅̅̅̅̅
1, 𝑝) reprezintă indicatorul variabilelor explicative
observate din cele p în total. Să mai observăm că, într-un model de regresie liniară, numărul
parametrilor de estimat este egal cu p+1.

5.2 MODELUL REGRESIEI LINIARE SIMPLE


Modelul regresiei liniare simple este o particularizare a relației (38), reflectând situația în care
caracteristica Y depinde liniar în raport numai cu o caracteristică X. Modelul nostru va fi de forma:
𝑌̂ = 𝑏̂0 + 𝑏̂1 ∙ 𝑋 (39)
Remarcăm că, dacă am cunoaște estimațiile parametrilor 𝑏̂0 și 𝑏̂1, având valorile observate ale
variabilei X, putem obține fără dificultate valorile estimate ale variabilei Y. Un astfel de model este,
în esență, un model determinist. Însă, prin acest model, de altfel foarte corect, nu știm sigur că vom
obține exact valorile observate ale variabilei Y.
Conform acestui model, pentru entitatea observată i, valoarea estimată a variabilei Y este dată
de:
𝑦̂𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 (40)
Pentru a reflecta situațiile în care intervine factorul aleatoriu în manifestarea fenomenului
studiat, este necesar ca modelul nostru să înglobeze o variabilă aleatoare care să includă toți ceilalți
factori pe care nu i-am putut observa pe lângă variabila explicativă X. Astfel, trebuie să exprimăm
valorile observate ale variabilei explicate Y prin intermediul modelului ales și al variabilei explicative
descrise mai sus, care nu este altceva decât variabila ale cărei valori reziduale au fost identificate prin
relația (37). Modelul nostru va fi în acest caz:
𝑦𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 + 𝑢̂𝑖 (41)
Este evident, din nou, că valorile reziduale 𝑢̂𝑖 , i = ̅̅̅̅̅
1, 𝑛 sunt date de:
𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (42)
Reziduurile 𝑢̂𝑖 sunt considerate valori ale unei variabile aleatoare U cu valori {𝑢̂𝑖 }, i = ̅̅̅̅̅
1, 𝑛,
ce nu poate fi observată direct, în condițiile în care situația concretă ne limitează capacitatea de
observare numai asupra variabilelor Y și X.
De observat că, în aceste condiții, și valorile 𝑦𝑖 au caracter aleatoriu, întrucât depind de
valorile aleatoare 𝑢̂𝑖 .

48
Această simplificare este necesară pentru a facilita înțelegerea conceptului de regresie liniară.
De la un astfel de model se pot face apoi generalizări, în sensul formulării unor modele cu mai multe
variabile explicative, caz în care modelul respectiv se numește „model de regresie liniară multiplă”.
Mai departe, se pot imagina modele cu ecuații simultane, în care putem modela mai multe variabile
explicate sau modele neliniare, cu aplicații diverse.
Ne putem pune aici o întrebare: de ce sau prin ce diferă relațiile (40) și (41)? Să ne oprim
puțin și să reflectăm. Așadar, încercăm să explicităm o relație dintre două variabile, ale căror date le
observăm și le colectăm. Mai departe, ne propunem să formulăm o relație funcțională între cele două
variabile cu ajutorul unei funcții liniare. Modelul pune în evidență parametrii funcției liniare, al căror
număr este egal cu numărul variabilelor explicative plus unu (p+1). Dacă ne limităm la acesta, avem
un model determinist care nu ne asigură că ne vom apropia suficient de mult prin model de datele
observate ale variabilei explicate, De aceea, pentru a reflecta cât mai bine realitatea, trebuie să
adăugăm în model o variabilă reziduală (de eroare) pentru a-i conferi un adevărat caracter aleatoriu,
adică să fie un model stochastic. În acest fel putem trece de la modelul descris prin relația (40), al
valorilor estimate ale variabilei explicate, la modelul descris cu relația (41), al valorilor observate
ale variabilei explicate.
Ne mai putem pune și o altă întrebare: pentru ce fel de variabile este potrivit să utilizăm un
astfel de model? Un astfel de model este potrivit în cazurile în care variabilele X și Y sunt variabile
numerice continue. Condiția este chiar obligatorie pentru variabila explicată. Dacă variabila explicată
este numerică discretă sau reprezintă codificarea unei variabile calitative, este preferabil să utilizăm
alte metode de regresie, care nu sunt însă acoperite prin acest curs. Dacă variabila explicată este
numerică continuă, iar variabila explicativă este numerică discretă sau calitativă, interpretare
rezultatelor unui astfel de model trebuie făcută cu mare precauție.
Având modelul specificat conform relației (41), vom putea trece acum la estimarea
parametrilor funcției de regresie.

5.3 ESTIMAREA PARAMETRILOR FUNCȚIEI DE REGRESIE PRIN METODA CELOR


MAI MICI PĂTRATE
Orice metodă de estimare a parametrilor modelului are la bază ideea minimizării reziduurilor
(erorilor), adică a distanței dintre valorile observate ale variabilei explicate (𝑦𝑖 ) și valorile teoretice
ale variabilei obținute cu ajutorul funcției de regresie (𝑦̂𝑖 ). Una dintre aceste metode, cel mai des
utilizată, este metoda celor mai mici pătrate (CMMP).
Prin metoda CMMP putem afla valorile estimate ale celor p+1 parametri, notați cu 𝑏̂0 și 𝑏̂1,
ceea ce semnifică faptul că vom estima valorile acestora. După ce aflăm valorile parametrilor, putem
afla valorile teoretice ale variabilei Y care, pentru fiecare entitate observată i, cu valorile aferente ale
variabilelor Xp, vor avea expresia
𝑦̂𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 (43)
̅̅̅̅̅
În acest caz, seria de reziduuri va fi {𝑢̂𝑖 }, i = 1, 𝑛 unde
𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (44)
sau, introducând relația (43) în (44), avem
𝑢̂𝑖 = 𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 (45)
Pentru estimarea coeficienților 𝑏̂0 și 𝑏̂1 vom folosi drept condiție de minim a listei
reziduurilor, condiția:
𝑛
(𝑚𝑖𝑛)
̂ ̂ ∑ 𝑢̂𝑖2
𝑏0 , 𝑏1
𝑖=1

49
Cu alte cuvinte, căutăm cele mai mici valori ale pătratelor reziduurilor, de unde și denumirea
metodei: metoda celor mai mici pătrate.
Așadar, urmează să rezolvăm problema de minim nerestricționat:
2
(𝑚𝑖𝑛)𝑓(𝑏̂0 , 𝑏̂1 ) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 )
În această formă, funcția noastră nu mai este dependentă de valorile variabilelor X și Y, care
sunt fixe, fiind valori observate din eșantion, ci de valorile posibile ale parametrilor 𝑏̂0 și 𝑏̂1. Așadar,
pentru a estima valorile celor doi parametri care minimizează valoarea funcției f(𝑏̂0 , 𝑏̂1 ), trebuie să
2
derivăm expresia ∑𝑛𝑖=1(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 ) în funcție de parametrii 𝑏̂0 și 𝑏̂1. Condițiile necesare de
extrem sunt, deci:
𝜕𝑓
=0
𝜕𝑏̂0
𝜕𝑓
=0
{𝜕𝑏̂1
Pentru prima derivată, avem:
𝜕𝑓
= 2 ∙ ∑𝑛𝑖=1(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 ) ∙ (−𝑏̂0 )′ = 2 ∙ ∑𝑛𝑖=1(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 ) ∙ (−1) =
𝜕𝑏̂0
= −2 ∙ [∑𝑛𝑖=1 𝑦𝑖 − 𝑛 ∙ 𝑏̂0 − 𝑏̂1 ∙ ∑𝑛𝑖=1 𝑥𝑖 ] = 0
⇔ 𝑛 ∙ 𝑏̂0 + 𝑏̂1 ∙ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦𝑖
Să notăm:
1
- media valorilor {xi }: 𝑥̅ = 𝑛 ∙ ∑𝑛𝑖=1 𝑥𝑖 ;
1
- media valorilor {yi }: 𝑦̅ = 𝑛 ∙ ∑𝑛𝑖=1 𝑦𝑖 .
Cu aceste notații, împărțind la n, prima ecuație a sistemului devine:
𝑏̂0 + 𝑏̂1 ∙ 𝑥̅ = 𝑦̅ (46)
Pentru cea de a doua derivată, avem:
𝜕𝑓
= 2 ∙ ∑𝑛𝑖=1(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 ) ∙ (−𝑏̂1 ∙ 𝑥𝑖 )′ = 2 ∙ ∑𝑛𝑖=1(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖 ) ∙ (−𝑥𝑖 ) =
𝜕𝑏̂1
= −2 ∙ [∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑦𝑖 − 𝑏̂0 ∙ ∑𝑛𝑖=1 𝑥𝑖 − 𝑏̂1 ∙ ∑𝑛𝑖=1 𝑥𝑖2 ] = 0
𝑛 𝑛 𝑛

⇔ 𝑏̂0 ∙ ∑ 𝑥𝑖 + 𝑏̂1 ∙ ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 ∙ 𝑦𝑖 (47)


𝑖=1 𝑖=1 𝑖=1

Să notăm:
1 1 1
𝑚𝑥2 = 𝑛 ∙ ∑𝑛𝑖=1 𝑥𝑖2 ; 𝑚𝑦2 = 𝑛 ∙ ∑𝑛𝑖=1 𝑦𝑖2; 𝑠𝑥𝑦 = 𝑛 ∙ ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑦𝑖
Atunci ecuația (12) se poate scrie:
𝑏̂0 ∙ 𝑥̅ + 𝑏̂1 ∙ 𝑚𝑥2 = 𝑠𝑥𝑦 (48)

50
Sistemul:
𝑏̂0 + 𝑏̂1 ∙ 𝑥̅ = 𝑦̅

𝑏0 ∙ 𝑥̅ + 𝑏̂1 ∙ 𝑚𝑥2 = 𝑠𝑥𝑦
se numește sistemul ecuațiilor normale și se consideră în general că este datorat lui Carl Friedrich
Gauss, despre care se spune că a descoperit această metodă în anul 1795.
Soluțiile acestui sistem, adică valorile coeficienților dreptei de regresie estimate pe baza
eșantionului dat, vor fi notate prin 𝑏̂0 și 𝑏̂1. Repetăm, „pălăriile” semnifică faptul că valorile ce le
vom obține sunt estimații ale parametrilor funcției de regresie, ale căror valori adevărate nu le vom
cunoaște niciodată. Aceste estimații sunt date de formulele
- varianta 1:
∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑦𝑖 − 𝑛 ∙ 𝑥̅ ∙ 𝑦̅ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) ∙ (𝑦𝑖 − 𝑦̅)
𝑏̂1 = =
{ ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ∙ 𝑥̅ 2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 (49)
𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅
- varianta 2:
𝑠𝑥𝑦 − 𝑥̅ ∙ 𝑦̅
𝑏̂1 =
{ 𝑚𝑥2 − 𝑥̅ 2 (50)
𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅
În fine, dacă ținem seama că avem:
- varianța de selecție a datelor {xi } ( sau varianța ):
1 ∑𝑛 2
𝑖=1 𝑥𝑖 −𝑛∙𝑥̅
2
𝑠𝑋2 = 𝑛 ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 = = 𝑚𝑥2 − 𝑥̅ 2
𝑛

- covarianța de selecție a datelor {xi}, { yi }:


1 ∑𝑛 ̅
𝑖=1 𝑥𝑖 ∙𝑦𝑖 −𝑛∙𝑥̅ ∙𝑦
𝑠𝑋𝑌 = 𝑛 ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) ∙ (𝑦𝑖 − 𝑦̅) = = 𝑠𝑥𝑦 − 𝑥̅ ∙ 𝑦̅
𝑛

atunci găsim o a treia variantă a sistemului de ecuații:


- varianta 3:
𝑠𝑋𝑌
𝑏̂1 =
{ 𝑠𝑋2 (51)
𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅
Odată determinate valorile estimate 𝑏̂0 și 𝑏̂1 se poate scrie ecuația dreptei de regresie, care se
mai numește și dreapta celor mai mici pătrate (există drepte de regresie determinate și prin alte
metode).
Atunci, valorile variabilei Y determinate folosind dreapta celor mai mici pătrate vor fi:
𝑦̂𝑖 = 𝑏0 + 𝑏̂1 ∙ 𝑥𝑖 , i=1,
̂ ̅̅̅̅̅
𝑛 sau, introducând cea de a doua ecuație din sistemul de ecuații normale, vom
obține:
𝑦̂𝑖 = 𝑦̅ + 𝑏̂1 ∙ (𝑥𝑖 − 𝑥̅ ), i=1,
̅̅̅̅̅
𝑛
Reziduurile rezultă din diferența dintre valorile observate 𝒚𝒊 ale variabilei explicate Y și
valorile 𝒚̂𝒊 estimate prin funcția de regresie ale aceleiași variabile. Pentru reziduuri avem formula
inițială:
𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖
Introducând formula valorilor estimate 𝒚
̂𝒊 în formula valorilor reziduale, obținem:

51
𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = (𝑦𝑖 − 𝑦̅) − 𝑏̂1 ∙ (𝑥𝑖 − 𝑥̅ )
Să observăm că suma reziduurilor este egală cu zero, deoarece se cunoaște proprietatea că
suma abaterilor unei variabile în raport cu media acelei variabile este zero, adică
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0 și ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅) = 0
Dacă ∑𝑛𝑖=1 𝑢̂𝑖 = 0, atunci ∑𝑛𝑖=1 𝑦 = ∑𝑛𝑖=1 𝑦̂ . Dacă împărțim cei doi termeni la numărul
entităților observate n, atunci avem
∑𝑛𝑖=1 𝑦 ∑𝑛𝑖=1 𝑦̂
𝑦̅ = =
𝑛 𝑛
Identificăm aici o proprietate centrală a acestei metode, anume că, prin funcția de regresie,
media valorilor variabilei explicate obținută din valorile observate este identică cu cea obținută din
valorile estimate.

5.4 CALCULUL PARAMETRILOR FUNCȚIEI DE REGRESIE ÎN MS EXCEL


În capitolul 2 am prezentat fără alte introduceri rezultatele unei regresii ale consumului final
al gospodăriilor (variabila Y) în funcție de Produsul Intern Brut (variabila X) din România din
perioada 2000 – 2016.
Aceste date au fost introduse într-o foaie de lucru MS Excel, iar din meniul Data am selectat
aplicația de completare (Add-In) Data Analysis și, mai departe, instrumentul de analiză Regression.

Din fereastra de regresie se selectează seria de date ale variabilei explicate Y (de răspuns sau
determinate) și cea a variabilei explicative X.

52
După selectarea opțiunilor marcate (Labels, Residuals, Normal Probability Plots) și
specificarea foii de lucru în care va fi salvat rezultatul regresiei (Regresie), în tabelele de rezultate
veți observa datele de mai jos.

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -34641,97146 2500,103032 -13,8562 5,92E-10 -39970,81493 -29313,12799
PIB 0,894415756 0,020626916 43,36158 3,52E-17 0,850450525 0,938380986

În coloana Coefficients sunt listate valorile celor doi parametri estimați: Intercept pentru 𝑏̂0 și
PIB pentru 𝑏̂1 . Ecuația de regresie este, așadar
𝑌̂ = −34642 + 0,894 ∙ 𝑋.
Interpretarea economică a pantei dreptei de regresie este următoarea:
Creșterea Produsului Intern Brut cu o unitate monetară (spre exemplu, cu un milion de
Euro, deoarece în datele noastre PIB este exprimat în milioane Euro) determină o creștere a
consumului final al gospodăriilor (exprimat tot în milioane Euro), în medie, cu 0,894
milioane Euro (sau 894000 Euro).
Folosim cuvântul ”creștere” deoarece panta dreptei de regresie are semn pozitiv, ceea ce
indică relație directă dintre PIB și consumul final al gospodăriilor.
Această interpretare este particularizarea interpretării generice a valorii pantei dreptei de
regresie, în care se spune că valoarea pantei arată care este modificarea variabilei Y (creștere sau
scădere) dacă valoarea variabilei X crește cu o unitate.
Pentru estimația parametrului de intersecție, interpretarea este făcută în condițiile în care s-ar
considera că valoarea variabilei explicative X ar fi zero. În cazul datelor noastre, valoarea estimată a
parametrului de intersecție ne arată care ar fi consumul final al gospodăriilor dacă valoarea PIB ar fi
zero: dacă PIB este 0, atunci consumul final al gospodăriilor este de -34642 milioane Euro. În
realitate, PIB nu poate fi niciodată 0, motiv pentru care interpretarea economică a estimației
parametrului de intersecție nu are sens.

53
5.5 PUTEREA EXPLICATIVĂ A MODELULUI: COEFICIENTUL DE DETERMINARE
Scopul unui model de regresie liniară este de a explica o parte din modificarea valorilor
variabilei Y, prin faptul că valoarea variabilei X s-a modificat ea însăși.
Acest fapt se poate exprima pe scurt astfel: ”Dacă X se modifică, în consecință și Y se
modifică!”. Acest fenomen constituie ceea ce numim variația explicată de către modelul de regresie.
Dar este posibil sa aibă loc și alt fenomen, anume: ”Deși X nu s-a modificat, totuși Y se mai
modifică încă!”, adică este posibil să aibă loc și o variație a lui Y, neexplicată de către model.
Aceasta ar avea loc în cazul în care, la valori „x” egale, sa corespundă mai multe valori pentru
„y”, sau dacă la valori „x” foarte apropiate între ele, să corespundă valori „y” mult diferite între ele.
Așadar, situația descrisă se poate sintetiza astfel:

variația totală a lui variația explicată variație neexplicată de


= +
Y în cadrul modelului către model
Acest mecanism este ilustrat în figura următoare, în care au fost marcate:
• valorile 𝑥𝑖 și 𝑦𝑖 pe cele două axe ale graficului;
• dreapta de regresie;
• distanțele (diferențele) dintre valoarea observată yi și punctul 𝑦̂𝑖 de pe dreapta de regresie
corespunzător valorii 𝑥𝑖 , distanța dintre punctul 𝑦̂𝑖 de pe dreapta de regresie și media
generală 𝑦̅ a variabilei dependente și distanța dintre media generală 𝑦̅ a variabilei
dependente și axa oX.

Figura 12: Vizualizarea variației totale, a variației explicată de model și a variației ne-explicate de
model (reziduală)
În relația
(𝑦𝑖 − 𝑦̅) = (𝑦̂𝑖 − 𝑦̅) + (𝑦𝑖 − 𝑦̂𝑖 )
- termenul (𝑦𝑖 − 𝑦̅) reprezintă variația totală a lui Y ;
- termenul (𝑦̂𝑖 − 𝑦̅) reprezintă variația explicată de către model ;
- termenul 𝑢̂𝑖 = (𝑦𝑖 − 𝑦̂𝑖 ) reprezintă variația ne-explicată de către model, sau reziduul.

54
O astfel de descompunere este valabilă și pentru sumele pătratice, adică pentru sumele
diferențelor ridicate la pătrat, motiv pentru care putem să definim suma pătratelor totală (SST),
suma pătratelor explicată (SSE) și suma pătratelor reziduală (SSR)20, care mai este numită și
suma pătratelor reziduale, după cum urmează:
𝑺𝑺𝑻 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 (52)
𝑺𝑺𝑬 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 (53)
𝑺𝑺𝑹 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (54)
Termenul SST măsoară variația valorilor observate 𝐲𝐢 ale eșantionului și arată suma
pătratelor diferențelor dintre valorile observate ale variabilei explicate Y și media lor, așa cum
o regăsim și în expresia dispersiei despre care am învățat despre ea la cursul de statistică, .
Termenul SSE măsoară variația valorilor estimate 𝐲̂𝐢 ale eșantionului și arată suma
pătratelor diferențelor dintre valorile estimate prin funcția de regresie ale variabilei explicate
Y (modelul de regresie) și media valorilor observate ale aceleiași variabile.
Termenul SSR măsoară variația valorilor reziduale 𝐮
̂ 𝐢 din eșantion sau variația ne-explicată
și arată suma pătratelor diferențelor dintre valorile observate 𝐲𝐢 și valorile 𝐲̂𝐢 estimate de model
ale variabilei explicate Y.
REȚINEȚI: Cu cât modelul este mai bun, cu atât
valorile estimate de model vor fi mai apropiate de
valorile observate, iar suma pătratelor explicată va fi
mai aproape de suma pătratelor totală.
REȚINEȚI: Cu cât modelul este mai bun, cu atât
variația reziduală este mai aproape de zero.
Variația totală a valorilor 𝑦𝑖 (SST) poate fi exprimată ca suma variației explicate de model
(SSE) și a variației ne-explicate (SSR), astfel:
𝑺𝑺𝑻 = 𝑺𝑺𝑬 + 𝑺𝑺𝑹 (55)
sau
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (56)
Pentru a demonstra acest lucru, primul termen al părții din dreapta a expresiei se dezvoltă
astfel:
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂𝑖 2 − 2 ∙ 𝑦̂𝑖 ∙ 𝑦̅ + 𝑦̅ 2 ) = ∑𝑛𝑖=1 𝑦̂𝑖 2 − 2 ∙ 𝑦̅ ∙ ∑𝑛𝑖=1 𝑦̂𝑖 + 𝑛 ∙ 𝑦̅ 2 =
= ∑𝑛𝑖=1 𝑦̂𝑖 2 − 2 ∙ 𝑦̅ ∙ ∑𝑛𝑖=1 𝑦𝑖 + 𝑛 ∙ 𝑦̅ 2 = ∑𝑛𝑖=1 𝑦̂𝑖 2 − 2 ∙ 𝑛 ∙ 𝑦̅ 2 + 𝑛 ∙ 𝑦̅ 2 = ∑𝑛𝑖=1 𝑦̂𝑖 2 − 𝑛 ∙ 𝑦̅ 2
Așadar,
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1 𝑦̂𝑖 2 − 𝑛 ∙ 𝑦̅ 2 (57)
Al doilea termen al părții din dreapta a expresiei se dezvoltă astfel:
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑𝑛𝑖=1(𝑦𝑖 2 − 2 ∙ 𝑦𝑖 ∙ 𝑦̂𝑖 + 𝑦̂𝑖 2 ) = ∑𝑛𝑖=1 𝑦𝑖2 − 2 ∙ ∑𝑛𝑖=1 𝑦𝑖 ∙ 𝑦̂𝑖 + ∑𝑛𝑖=1 𝑦̂𝑖2 =
= ∑𝑛𝑖=1 𝑦𝑖2 − 2 ∙ ∑𝑛𝑖=1 𝑦̂𝑖2 + ∑𝑛𝑖=1 𝑦̂𝑖2 = ∑𝑛𝑖=1 𝑦𝑖2 − ∑𝑛𝑖=1 𝑦̂𝑖2

20
Literele SS semnifică faptul că mărimile calculate sunt sume de pătrate care, în limba engleză, sunt denumite Sum of
Squares.
55
Așadar,
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑𝑛𝑖=1 𝑦𝑖2 − ∑𝑛𝑖=1 𝑦̂𝑖2 (58)
În final, folosind relațiile (57) și (58), se obține:
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦𝑖2 − 2 ∙ 𝑦𝑖 ∙ 𝑦̅ + 𝑦̅ 2 ) = ∑𝑛𝑖=1 𝑦𝑖2 − 2 ∙ 𝑦̅ ∙ ∑𝑛𝑖=1 𝑦𝑖 + 𝑛 ∙ 𝑦̅ 2 =
= ∑𝑛𝑖=1 𝑦𝑖2 − 2 ∙ 𝑛 ∙ 𝑦̅ 2 + 𝑛 ∙ 𝑦̅ 2 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛 ∙ 𝑦̅ 2 =
= [∑𝑛𝑖=1 𝑦̂𝑖 2 − 𝑛 ∙ 𝑦̅ 2 ] + [∑𝑛𝑖=1 𝑦𝑖2 − ∑𝑛𝑖=1 𝑦̂𝑖2 ] =
= ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2
Relația (56) este astfel demonstrată.
Pentru a măsura gradul în care regresia liniară explică variația lui Y, se folosește coeficientul
de determinare, notat cu R2, cu valori în intervalul [0; 1]:
𝑆𝑆𝐸
𝑅2 = (59)
𝑆𝑆𝑇
Coeficientul de determinare este raportul dintre variația explicată de model și variația totală.
Cu cât coeficientul de determinare are o valoare mai apropiată de 1, cu atât modelul identificat are o
putere explicativă mai mare, adică reușește să explice mai bine, în medie, variația lui Y în funcție de
X.
Iată și câteva forme echivalente utile pentru facilitarea calculului coeficientului de
determinare.
O primă formă arată relația dintre coeficientul de determinare și coeficientul estimat 𝑏̂.
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ∙ 𝑥̅ 2
2
𝑅 = 𝑛 ̂ 2
= 𝑏1 ∙ 𝑛 ̂ 2
= 𝑏1 ∙ 𝑛 (60)
∑𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝑖=1(𝑦̂𝑖 − 𝑦̅)2 ∑𝑖=1 𝑦𝑖2 − 𝑛 ∙ 𝑦̅ 2
La acest rezultat ajungem dacă înlocuim 𝑦̂𝑖 cu relația dată de modelul de regresie
𝑦̂𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 , cunoscând faptul că 𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅ . Înlocuind în relația modelului de regresie,
rezultă că 𝑦̂𝑖 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅ + 𝑏̂1 ∙ 𝑥𝑖 , sau 𝑦̂𝑖 = 𝑦̅ + 𝑏̂1 ∙ (𝑥𝑖 − 𝑥̅ ).
Restul calculelor le puteți face personal și acestea pot face, sau nu, obiectul unui test de
verificare.
O altă formă utilă de facilitare a calculului coeficientului de determinare este

2
∑𝑛𝑖=1 𝑦̂12 − 𝑛 ∙ 𝑦̅ 2
𝑅 = 𝑛
∑𝑖=1 𝑦12 − 𝑛 ∙ 𝑦̅ 2
La fel, calculele prin care ajungeți la această formă de la expresia inițială le puteți face
personal și acestea pot face, sau nu, obiectul unui test de verificare.

56
5.6 CALCULUL COEFICIENTULUI DE DETERMINARE ÎN EXCEL
În foaia de lucru care prezintă rezultatele regresiei liniare găsiți un tabel numit Summary
Output.
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,996034829
R Square 0,992085381
Adjusted R Square 0,99155774
Standard Error 1667,948839
Observations 17

Aici sunt calculate câteva statistici importante pentru evaluarea generală a relației dintre
variabilele analizate și a calității ajustării.
Una din primele statistici care ne interesează este coeficientul de determinare, prezentată în
tabel cu denumirea R Square, cu o valoare de 0,9921 (am rotunjit la a patra zecimală).
Așadar, 𝑹𝟐 =0,9921, ceea ce semnifică faptul că 99,21% din variabilitatea consumului
final al gospodăriilor este explicată de variabilitatea PIB, ceea ce este un rezultat foarte bun
pentru o regresie liniară simplă.
Multiple R este dat de coeficientul de corelație Pearson, prezentat în secțiunea 4.7. El ne arată,
sub supoziția unei legături liniare, cât de puternică este corelația dintre variabilele analizate. Având
o valoare atât de apropiată de 1, ne oferă un argument în plus să construim un model de regresie
liniară prin care să ne propunem să analizăm efectul PIB asupra consumului final al gospodăriilor.
Mai mult, într-un model de regresie liniară, el este egal cu rădăcina pătrată a coeficientului de
determinare.
Standard Error estimează abaterea standard a erorilor, a cărei expresie este dată de relația
(79). Ea arată cât de mult se abat valorile observate ale variabilei explicate de la valorile ei estimate
de modelul de regresie. Cu cât această valoare este mai mică, cu atât modelul ajustează mai bine
datele. Această statistică este utilă în această evaluare împreună cu 𝑹𝟐 atunci când dorim să apreciem
care este modelul de regresie cel mai bun dint-un set de modele candidate. În mod singular, abaterea
standard a erorilor poate fi raportată la media variabilei explicate (consumul final al gospodăriilor)
așa cum folosim coeficientul de variație. În cazul datelor noastre, abaterea standard a erorilor
reprezintă 2,3% din media valorilor consumului final al gospodăriilor, ceea ce semnifică, din nou, că
modelul ajustează bine datele observate. Valoarea de 2,31% rezultă din raportarea abaterii standard a
1667,95
erorilor la valoarea medie a consumului final al gospodăriilor: 72338 = 0,02306.
Adjusted R Square (𝑹𝟐 ajustat) este o formă transformată a lui 𝑹𝟐 , fiind util în compararea
modelelor de regresie atunci când se adaugă variabile explicative în model. Dacă prin adăugarea unei
noi variabile explicative în model 𝑹𝟐 ajustat crește în comparație cu modelul inițial, atunci noul
model are o putere explicativă mai mare. Întrucât această statistică nu face obiectul prezentului curs,
nu vom insista suplimentar asupra ei.
Observations arată numărul de observații incluse în regresie, care în formulele prezentate în
acest curs apare cu notația n.

57
6. CALITATEA MODELULUI REGRESIEI LINIARE SIMPLE

6.1 SUPOZIȚII ESENȚIALE ALE MODELULUI DE REGRESIE LINIARĂ


Atunci când colectăm date pentru a le putea analiza prin intermediul unui model de regresie
liniară, suntem în fața unui eșantion de entități selectat dintr-o populație mult mai mare. Dacă
„modelăm” datele după un model de regresie liniară, vom obține un set de rezultate care sunt, de fapt,
o estimare. Dacă selectăm un alt eșantion, este foarte probabil ca să obținem alte rezultate, chiar dacă
eșantionul a fost extras după toate regulile metodologice acceptate. Atunci, care rezultat este bun?
Primul sau al doilea? Sau al treilea, sau al patrulea dacă avem resurse să extragem și să observăm mai
multe eșantioane?
Așadar, ne putem pune problema unor criterii care să ne ajute să evaluăm calitatea estimațiilor
noastre, prin intermediul unor măsuri de precizie. Pentru asta, vom relua unele dintre conceptele deja
prezentate, cum ar fi teorema limită centrală, urmând să facem completările necesare studiului
regresiei în cazul stochastic.
Estimatorii calculați prin metoda CMMP au o serie de proprietăți necesare, la fel ca în cazul
regresiei liniare simple, mai precis că sunt nedeplasați și consistenți. Nedeplasarea estimatorilor este
prezentată în secțiunea 6.3, anume că valoarea așteptată a estimatorilor coincide cu valorile
parametrilor respectivi. Consistența semnifică faptul că, pe măsură ce volumul eșantionului crește,
valorile estimatorilor se apropie de valorile adevărate, dar necunoscute. Aceste proprietăți sunt
valabile dacă sunt valide următoarele supoziții ale modelului:
1. Observațiile sunt independente;
2. Variabilele explicative sunt independente;
3. Distribuția probabilităților condiționate ale variabilei explicate este aceeași indiferent de
valorile variabilelor explicative.
Observațiile sunt independente în sensul că o măsurătoare asupra unei entități observate nu
depinde de măsurătoarea asupra altei entități. Spre exemplu, salariul unui angajat, despre care
presupunem că depinde de experiența sa anterioară și de numărul de piese defecte, nu depinde de
salariul altui angajat.
Variabilele explicative sunt independente în sensul că, din exemplul anterior, nu putem
considera că experiența anterioară nu depinde de numărul de piese defecte sau invers. Desigur, putem
presupune că un angajat cu o experiență anterioară mai îndelungată este mai puțin predispus să
producă piese defecte, însă acest din urmă factor poate fi influențat de multe alți factori, necorelați cu
experiența anterioară: calitatea instruirii, noutatea produsului, starea de sănătate etc.
Distribuția probabilităților condiționate ale variabilei explicate este aceeași indiferent
de valorile variabilelor explicative în sensul că, pentru orice valoare a unei variabile explicative,
distribuția valorilor condiționate ale variabilei Y este aceeași dacă am proceda la observații repetate
prin eșantionări repetate.
Valoarea condiționată a variabilei Y este valoarea pe care o obținem prin modelul de regresie
pentru o valoare sau alta a unei variabile explicative. Spre exemplu, pentru un anumit număr de ani
de experiență anterioară și un număr specificat de piese defecte, obținem o valoare estimată a
salariului. Menținând numărul de piese defecte constant, observarea altui angajat cu aceeași
experiență anterioară va indica o altă valoare a salariului, deoarece ceilalți factori neobservați la nivel
individual sunt agregați în termenul de eroare 𝑢𝑖 . Repetând astfel de observații de foarte multe ori,
obținem o distribuție a valorilor variabilei Y condiționată de o valoare specificată a unei variabile
explicative X, care se numește distribuție de probabilitate condiționată. Pentru fiecare valoare a
variabilei X vom obține același număr de distribuții de probabilitate condiționate, care trebuie să fie

58
identice, ceea ce presupune că au media egală cu media condiționată dată de modelul de regresie și
aceeași abatere standard.
Supoziția anterioară echivalează cu a spune că termenii de eroare 𝒖𝒊 sunt normali
distribuiți.
Aceste supoziții trebuie completate cu o serie de proprietăți detaliate ale termenilor de eroare
𝑢𝑖 , valabile pentru orice model de regresie liniară, fie ea simplă sau multiplă. Din rațiuni de
simplificare, le vom descrie în condițiile unui model de regresie liniară simplă.
În condițiile în care am cules prin sondaj perechile de valori {(xi,yi )}i=1,n: modelul de regresie
liniară simplă între variabilele X și Y este de forma
𝑦𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 + 𝑢̂𝑖 (61)
Reziduurile 𝑢̂𝑖 sunt considerate valori ale unei variabile aleatoare, ce nu pot fi observate direct.
Dacă selectăm mai multe eșantioane, la limită pe toate posibile, vom avea pentru fiecare eșantion câte
un set de estimații ale parametrilor și câte o variabilă aleatoare pe care o putem nota cu U, fiecare
dintre variabilele reziduale ale fiecărui eșantion posibil având valorile 𝑢̂𝑖 . Pentru ca modelul regresiei
liniare simple să fie valid, variabilele reziduale și valorile lor 𝑢̂𝑖 trebuie să verifice și următoarele
supoziții ale modelului de regresie liniară:
a. Suma și media valorilor 𝒖
̂ 𝒊 este zero, proprietate care este exprimată matematic astfel:
∑𝑛𝑖=1 𝑢̂𝑖 = 0 (62)
Această supoziție este echivalentă cu formularea ca valorile așteptate ale reziduurilor 𝑢𝑖 ale
variabilei U, sau media lor, este zero:
𝐸(𝑈) = 0, ∀ 𝑖 = ̅̅̅̅̅
1, 𝑁 (63)
Cu alte cuvinte, această supoziție ne spune că nu poate fi adevărat că modelul ajustează mai
puțin unele date, iar pe altele mai mult. Încălcarea acestei supoziții ar însemna că modelul nu
estimează bine parametrul 𝑏0 , ceea ce arată că modelul nu include o componentă sistematică.
b. Covarianța dintre variabilele explicative și valorile reziduale este zero, adică
variabilele explicative sunt independente de reziduuri. Această proprietate este
exprimată matematic astfel:
∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑢̂𝑖 = 0 (64)
Această supoziție este echivalentă cu formularea ca valorile așteptate ale reziduurilor u,
condiționate de valorile variabilei X, este zero:
̅̅̅̅̅
𝐸(𝑈|𝑋) = 𝐸(𝑈) = 0, ∀ 𝑖 = 1, 𝑁 (65)
Înțelegerea acestei supoziții ne îndeamnă să ne imaginăm că, în prezența unor valori observate
ale unei sau mai multor variabile explicative (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) și prin repetarea acestor observări, factorii
neobservați pot conduce la valori diferite ale variabilei explicate și, implicit, la valori diferite ale
termenului de eroare. În aceste condiții, ne așteptăm ca valorile termenului de eroare pentru fiecare
valoare 𝑥1 observată repetat să se anuleze reciproc, adică media lor (valoarea așteptată) să fie zero
pentru orice variabilă X și pentru fiecare valoare a acesteia. Astfel, dacă valoarea așteptată a
reziduurilor este zero indiferent de valorile variabilei X, înseamnă că media reziduurilor este
independentă de X.
c. Varianța termenilor de eroare este constantă, care poate fi exprimată matematic astfel:
𝑉𝑎𝑟(𝑈) = 𝜎 2 , ∀ 𝑖 = ̅̅̅̅̅
1, 𝑁 (66)
Pentru înțelegerea acestei supoziții, să revenim la relația (65) unde a fost descris faptul că
reziduurile pot avea valori diferite pentru aceeași valoare a variabilei X. În această logică, este
important să considerăm, în plus, că varianțele reziduurilor pentru orice valoare a variabilei X, adică
59
pătratul distanțelor față de medie, sunt egale cu o valoare constantă, deoarece modelul nu poate fi mai
precis pentru o parte a populației – având valori 𝑢𝑖 mai mici – și mai puțin precis pentru alte valori
ale populației – având valori 𝑢𝑖 mai mari. Ca urmare, se consideră că varianța erorilor este constantă
și egală cu o mărime 𝜎 2 , pe care nu o cunoaștem încă, dar pe care o vom putea estima cu ajutorul
datelor de sondaj. Această proprietate se numește homoscedasticitate, iar încălcarea ei
heteroscedasticitate.
Încălcarea acestei supoziții conduce la concluzia că modelul de estimare a parametrilor cu
ajutorul celor mai mici pătrate nu este eficient, motiv pentru care ar putea fi calculate estimații mai
precise. De asemenea, calculul intervalelor de încredere ale estimatorilor și al valorilor predicționate
este afectat.
Această supoziție este similară cu supoziția 3 de mai sus.
d. Punctul (𝒙 ̅) este întotdeauna pe linia de regresie. Dacă în relația (43) introducem x̅
̅, 𝒚
în locul lui x și cunoaștem că ∑𝑛𝑖=1 𝑦𝑖 = ∑𝑛𝑖=1 𝑦̂𝑖 , atunci
𝑦̅ = 𝑏̂0 + 𝑏̂1 ∙ 𝑥̅ .
e. Valorile 𝒖 ̂ 𝒊 sunt două câte două independente, deci au covarianța egală cu zero:
𝑐𝑜𝑣(𝑢̂𝑖 ; 𝑢̂𝑗 ) = 0, 𝑖 ≠ 𝑗; 𝑖, 𝑗 = ̅̅̅̅̅
1, 𝑛.
Pentru înțelegerea acestei supoziții, trebuie să admitem că valorile variabilei explicative sunt
complet aleatoare și nu se influențează una pe alta. Spre exemplu, să considerăm exemplul notelor la
examen, care pot fi influențate de timpul de studiu. Ca regulă, timpul de studiu al unui student nu
poate fi influențat de timpul de studiu al altui student, caz în care eșantionul nostru nu mai este
aleatoriu. În consecință, nici nota la examen a unui student nu poate fi influențată de nota altui student,
afară de cazul în care un student se inspiră de la celălalt în rezolvarea subiectelor. În acest fel, nici
valorile reziduale nu pot fi dependente, două câte două. Altfel, dacă am ști că valoarea variabilei Y
este subestimată pentru o anumită valoare a lui X, am putea ști care este valoarea variabilei Y pentru
o valoare X corelată cu prima. Însă această situație este nepractică, pentru că suntem interesați să
cunoaștem care este efectul asupra lui Y prin modificarea unei valori ale lui X. Însă dacă o valoare a
lui X este corelată cu alta, nu am ști cui să acordăm gradul de influență.
Încălcarea acestei supoziții apare cel mai des în aplicațiile în care variabila explicativă este o
variabilă temporală, care evoluează în timp. În seriile de timp, este evident că o valoare a variabilei
este corelată cu valorile anterioare, fenomen care poartă numele de autocorelație. Încălcarea acestei
supoziții afectează puternic evaluarea puterii explicative a modelului de regresie.
f. Erorile 𝒖 ̂ 𝒊 sunt normal distribuite. Această supoziție este esențială pentru construirea
de intervale de încredere și, în general, pentru inferența statistică. Dacă erorile indică un
tipar sistematic, modelul trebuie complet regândit.
Un prim aspect care ne interesează, presupunând că am putea să selectăm toate eșantioanele
posibile, este să vedem dacă media valorilor estimate ale variabilei explicate (cu ajutorul modelului)
din toate eșantioanele este aceeași cu media adevărată a valorilor observate, dar pe care nu o
cunoaștem. Al doilea aspect care ne interesează este dacă varianțele valorilor variabilei explicate
calculate pentru fiecare punct al valorilor variabilei explicative sunt egale.
În cele ce urmează ne limităm să formulăm relațiile matematice esențiale pentru înțelegerea
unor concepte care ne ajută să ne convingem că, în condițiile validității supozițiilor de mai sus, metoda
CMMP este una din cele mai bune soluții de modelare a datelor.
Să pornim de la formularea modelului pentru cazul în care am cunoaște toate valorile
variabilelor X și Y, pentru întreaga populație statistică observată. Recurgând la modelul de regresie
liniară, am putea calcula cu maximă exactitate parametrii modelului 𝑏0 și 𝑏1 , motiv pentru care nu
mai e nevoie să folosim notația cu ”pălărie”, adică semnele ”^”. Atunci, modelul nostru ar putea fi
formulat astfel:

60
𝑦𝑖 = 𝑏0 + 𝑏1 ∙ 𝑥𝑖 + 𝑢𝑖 (67)
Să ne reamintim că, în cadrul modelului, valorile 𝒙𝒊 ale variabilei X sunt considerate
deterministe, în timp ce valorile 𝑦𝑖 ale variabilei Y și valorile 𝑢𝑖 ale variabilei U sunt aleatorii.
Pentru a face demonstrațiile necesare, facem apel la operatorul E, care semnifică valoarea
așteptată a unei variabile aleatoare a modelului și operatorul Var al varianței unei variabile aleatoare
a modelului, adică Y (variabila explicată) și U (variabila reziduală).
Astfel, pentru medie avem
𝐸(𝑦𝑖 ) = 𝐸(𝑏0 + 𝑏1 ∙ 𝑥𝑖 + 𝑢𝑖 ) = 𝑏0 + 𝑏1 ∙ 𝑥𝑖 + 𝐸(𝑢𝑖 ) = 𝑏0 + 𝑏1 ∙ 𝑥𝑖 (68)
Pentru varianță avem:
𝑉𝑎𝑟(𝑦𝑖 ) = 𝑉𝑎𝑟(𝑏0 + 𝑏1 ∙ 𝑥𝑖 + 𝑢𝑖 ) = 𝑉𝑎𝑟(𝑢𝑖 ) = 𝜎 2 , (69)
unde cu 𝜎 2 am notat varianța erorilor obținute din modelul de regresie aplicat asupra tuturor
observațiilor din populația totală, varianță pe care nu o cunoaștem, dar pe care o vom estima, după
cum vom vedea în secțiunea 6.4.
Observați că operatorii E (al valorii așteptate sau de medie ponderată) și Var (de varianță) au
fost aplicați numai variabilelor aleatoare ale modelului.
Valorile variabilei Y urmează și ele repartiția normală, de medie 𝑏0 + 𝑏1 ∙ 𝑥̅ și varianță 𝜎 2
anume: 𝑌~𝑁(𝑏0 + 𝑏1 ∙ 𝑥̅ ; 𝜎 2 ).
Pentru două valori diferite ale variabilei explicative Y (determinate), avem:
𝑐𝑜𝑣 (𝑦𝑖 , 𝑦𝑗 ) = 𝑐𝑜𝑣(𝑏0 + 𝑏1 ∙ 𝑥𝑖 + 𝑢𝑖 , 𝑏0 + 𝑏1 ∙ 𝑥𝑗 + 𝑢𝑗 ) = 𝑐𝑜𝑣(𝑢𝑖 , 𝑢𝑗 ) = 0 (70)
deci 𝑦𝑖 , 𝑦𝑗 sunt și ele variabile aleatoare independente (reamintim că pentru variabilele aleatoare cu
repartiție normală, independența și necorelarea sunt proprietăți echivalente).
Există metode de verificare a acestor supoziții, dar, pentru moment, să le considerăm ca fiind
adevărate ca niște proprietăți intrinseci ale modelului de regresie liniară. Aceste ne vor ajuta, în cele
ce urmează, să verificăm dacă modelul nostru este corect din punct de vedere teoretic. Dacă modelul
nu ar fi corect din aceste puncte de vedere, nu ar mai avea nici un rost să îl utilizăm în cazuri practice.

6.2 ANALIZA VARIANȚEI (ANOVA)


În rezultatele analizei de regresie din Excel este prezentat tabelul ANOVA (de la ANalysis of
Variance). Cu datele din exemplul nostru, acest tabel are conținutul de mai jos.
Tabelul 11: Tabelul ANOVA

df=15, egal cu numărul df=1, egal cu


de observații-1-p (n-1-1) numărul de
regresori (p)
ANOVA
df SS MS F Significance F
Regression 1 5230891784 5,23E+09 1880,227 3,51891E-17
Residual df=16, egal cu 15 41730799,96 2782053
Total numărul de 16 5272622584
observații-1 (n-1)

În prima coloană sunt evidențiate componentele care contribuie la evaluarea calității


modelului de regresie prin intermediul variației explicate de model (SSE), variația reziduală (SSR) și
variația totală (SST): Regression (Model), Residual (Reziduuri) și Total.

61
Să ne concentrăm, mai întâi, pe datele din coloana a treia, notată cu SS (de la Sum of Squares).
În această coloană găsim valorile variației explicate de model, variația reziduală și variația totală, așa
cum au fost expuse în secțiunea 5.5, unde a fost explicată relația (56).
În coloana a doua (df de la Degrees of Freedom sau Grade de libertate) sunt prezentate gradele
de libertate ale modelului de regresie, ale reziduurilor și numărul de grade de libertate aferente fiecărei
sume pătratice (sau variații).
Total df=16: Numărul de grade de libertate aferent variației totale este egal cu numărul de
observații minus 1, adică n-1. Gradul de libertate pierdut este cauzat de faptul că la calculul variației
totale (din cele n observații) avem o restricție dată de media valorilor variabilei Y.
Regression df=1: Numărul de grade de libertate aferente variației explicate de model este egal
cu numărul de variabile explicative (sau de regresori, cum se mai spune), întrucât se consideră că
valorile acestora sunt „fixe”, sunt date prin observațiile noastre. Deoarece avem un model cu o singură
variabilă explicativă, numărul de grade de libertate pentru calculul varianței explicate de model este
egal cu 1. Notăm cu p numărul de regresori, deci p=1.
Residual df=15: Numărul de grade de libertate aferent variației reziduale este egal cu diferența
dintre numărul de grade de libertate al variației totale și numărul de grade de libertate al variației
explicate de model: n-p-1=17-1-1=15.
Vom folosi aceste relații pentru a testa prima ipoteză importantă legată de calitatea ajustării
dată de modelul nostru.
Ipoteza nulă pe care o testăm este aceea a lipsei oricărei influențe a variabilei explicative
asupra variabilei explicate, ceea ce este același lucru cu ipoteza egalității tuturor parametrilor
modelului nostru cu zero. Dacă toți parametrii sunt nuli atunci între variabila explicativă (sau
variabilele explicative în cazul unei regresii multiple) și variabila explicată nu există nicio relație de
cauzalitate. Acest test se mai numește test global sau test omnibus. Ipoteza nulă și ipoteza alternativă
sunt formalizate astfel:
𝐻 : 𝑏 = 𝑏1 = 0
{ 0 0
𝐻1 : 𝑏0 ≠ 0 𝑠𝑎𝑢 𝑏1 ≠ 0
Dacă ipoteza nulă este respinsă, ipoteza alternativă ne indică faptul că cel puțin unul dintre
parametrii este diferit de zero, deci semnificativ, fără să știm care dintre ei este diferit de zero sau
dacă ambii sunt semnificativ diferiți de zero.
Pentru verificarea ipotezei nule este calculată statistica F21, cu probabilitatea ei asociată, iar
testul este evaluat la un prag de semnificație α care, în Excel și în majoritatea aplicațiilor informatice
este stabilit implicit la 5% sau 0,05.
Dacă ipoteza nulă este adevărată, statistica
𝑆𝑆𝐸/𝑝 𝑀𝑆𝐸
𝐹𝑐 = = 22 (71)
𝑆𝑆𝑅/(𝑛 − 𝑝 − 1) 𝑀𝑆𝑅
urmează o lege Fisher cu (p;n-p-1) grade de libertate.
Se poate utiliza statistica 𝐹𝑐 pentru a decide acum dacă ipoteza 𝐻0 : 𝑏̂0 = 𝑏̂1 = 0 este adevărată
sau falsă: astfel, se respinge ipoteza 𝐻0 la pragul de semnificație α dacă avem
𝐹𝑐 > 𝐹(𝛼;𝑝,𝑛−𝑝−1) sau, în cazul nostru, 𝐹𝑐 > 𝐹(𝛼;1,𝑛−2)

21
Numită astfel în memoria statisticianului Sir Ronald Fisher (1890-1962).
22
MSE și MSR sunt acronimele statisticilor denumite Mean Square Explained și Mean Square Residual, din limba
engleză, deoarece sumele pătratelor sunt împărțite la numărul gradelor de liberate, rezultând, astfel, valorile medii (mean)
ale sumelor pătratelor (square).
62
unde 𝐹(𝛼;1,𝑛−2) este cuantila (1 – α) a repartiției Fisher cu (1;n-2) grade de libertate, care se citește în
tabelele statisticii F sau se calculează cu ajutorul funcțiilor din aplicațiile software de analiză a
datelor.
Statistica 𝐹𝑐 ne arată că valoarea ei este direct proporțională cu variația explicată de model și
invers proporțională cu variația reziduală. Dacă modelul ajustează bine datele, variația explicată de
model este preponderent mai mare decât cea reziduală, motiv pentru care ne așteptăm ca valoarea
statisticii 𝐹𝑐 să fie cât mai mare. Cu cât este mai mare, cu atât probabilitatea de a respinge ipoteza
nulă când ea este în realitate este adevărată, adică probabilitatea de a comite Eroarea de tip I, este mai
mică. Cu alte cuvinte, spunem că statistica 𝐹𝑐 este semnificativă și avem suficiente dovezi să
respingem ipoteza nulă la pragul de semnificație 𝛼 și să concluzionăm că parametrii estimați sunt
semnificativ diferiți de zero. În caz contrar, spunem că nu avem suficiente dovezi să respingem
ipoteza nulă, concluzionând că cel puțin un parametru estimat nu este semnificativ diferit de zero.
În ultima coloană este afișată probabilitatea asociată statisticii 𝐹𝑐 , care poate fi formulată în
termenii următori: „Care este probabilitatea să obținem o statistică 𝐹𝑐 la fel de mare ca cea pe care am
obținut-o, dacă ipoteza nulă este adevărată?”. Calculul probabilității ne ajută să nu mai comparăm
statistica 𝐹𝑐 cu valoarea corespunzătoare pragului critic, ci să concluzionăm asupra ipotezei nule
numai pe baza acestei probabilități.
Regula de decizie: Dacă probabilitatea calculată este mai mică decât pragul de
semnificație stabilit, cum este cel de 0,05, atunci putem decide să respingem ipoteza nulă.
În caz contrar nu o respingem.
Probabilitatea asociată statisticii 𝐹𝑐 poate fi calculată în Excel cu ajutorul funcției FDIST, cu
sintaxa =FDIST(Fc;p;n-p-1).
Calculele se sistematizează de obicei în tabelul ANOVA, cu următorul conținut.
Tabelul 12: Conținutul generic al tabelului ANOVA
Felul Grade Variația Varianța Testul Probabilitatea
variației de (Sum of Squares (Mean Fisher (Significance F)
libertate – SS) Square – MS) (F)
(Degrees of
Freedom – df)
𝑛
Explicată de 𝑆𝑆𝐸 𝑀𝑆𝐸
𝑀𝑆𝐸 = 𝐹𝑐 = =FDIST(Fc;p;n-
model p=1 𝑆𝑆𝐸 = ∑(𝑦̂𝑖 − 𝑦̅)2 1 𝑀𝑆𝑅 p-1)
(Regression) 𝑖=1
𝑛
Reziduală 𝑆𝑆𝑅
n-p-1=17-1-1=15 𝑆𝑆𝑅 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 𝑀𝑆𝑅 =
(Residual) 𝑛−2
𝑖=1
Totală p + ( n-p-1 ) =
𝑆𝑆𝑅 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅
(Total) = n – 1=17-1=16
Din datele exemplului relației dintre PIB și cheltuiala de consum (v. Tabelul 1), am obținut
𝑆𝑆𝐸 = 5230891784; SSR = 41730799,96; SST = 5272622584
𝑀SE = 5,23E + 09; MSR = 2782053
𝐹𝑐 = 1880,227; p = 3,5189E − 17.
Probabilitatea p este mult mai mică decât 0,05, ceea ce ne îndreptățește să respingem ipoteza
nulă și să concluzionăm că parametrii estimați ai modelului de regresie sunt semnificativ diferiți de
zero. Valoarea statisticii 𝐹(0,05;1,15) o putem calcula cu funcția FINV din Excel. Cum
FINV(0,05;1,15)=4,54 și 𝐹𝑐 = 1880,23 > 𝐹(0,05;1,15) = 4,54, confirmă decizia de respingere a
ipotezei nule.

63
6.3 DISTRIBUȚIA ESTIMATORILOR PROVENIȚI DIN METODA CMMP
Cunoașterea distribuției estimatorilor metodei CMMP, prin intermediul mediei și abaterii
medii pătratice a acestora, este importantă din cel puțin două motive:
• Este imperativ să ne asigurăm că estimațiile pe care le calculăm sunt o cea mai bună
aproximare a valorilor estimatorilor, adică a adevăratelor valori dacă am cunoaște întreaga
populație statistică, ceea ce echivalează cu a spune că estimatorii sunt nedeplasați
(unbiased, în limba engleză);
• Estimarea mediei și abaterii medii pătratice a estimatorilor ne arată care este precizia
estimațiilor obținute în condițiile eșantionului nostru.
Considerațiile și demonstrațiile care urmează au rolul de a ne asigura că estimatorii b̂0 și b̂1
sunt cel mai bine estimați prin metoda CMMP, iar ceea ce trebuie să trebuie să observăm cu mare
atenție și să reținem sunt relațiile de calcul prin care estimăm varianțele și, respectiv, abaterile
standard ale acestor estimatori, deoarece ele vor fi utilizate mai târziu în calculul intervalelor de
încredere ale acestora.

6.3.1 Media estimatorului 𝑏̂1


Pentru estimatorii 𝑏̂0 și 𝑏̂1 vom folosi expresiile alternative
∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑦𝑖
𝑏̂1 =
{ ∑(𝑥𝑖 − 𝑥̅ )2
𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅
∑ 𝑥𝑖
𝑥̅ = 𝑛
unde: { ∑ 𝑦𝑖
𝑦̅ = 𝑛

În aceste formule, 𝑦𝑖 și 𝑦̅ sunt variabile aleatoare repartizate normal, restul componentelor


fiind constante: așadar și estimatorii 𝑏̂0 și 𝑏̂1 vor fi tot variabile aleatoare normal repartizate.
Așadar, folosind operatorul E de calcul al valorii așteptate, avem:
∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑦𝑖 ∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝐸(𝑦𝑖 ) ∑(𝑥𝑖 − 𝑥̅ ) ∙ (𝑏0 + 𝑏1 ∙ 𝑥𝑖 )
𝐸(𝑏̂1 ) = 𝐸 ( ) = = =
∑(𝑥𝑖 − 𝑥̅ )2 ∑(𝑥𝑖 − 𝑥̅ )2 ∑(𝑥𝑖 − 𝑥̅ )2
𝑏0 ∙ ∑(𝑥𝑖 − 𝑥̅ ) + 𝑏1 ∙ ∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑥𝑖 𝑏1 ∙ ∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑥𝑖
= =
∑(𝑥𝑖 − 𝑥̅ )2 ∑(𝑥𝑖 − 𝑥̅ )2
deoarece știm că avem ∑(𝑥𝑖 − 𝑥̅ ) = 0.
Mai mult, avem ∑(𝑥𝑖 − 𝑥̅ )2 = ∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑥𝑖 , deci în final avem
𝐸(𝑏̂1 ) = 𝑏1
În concluzie:
𝑏̂1 este un estimator nedeplasat pentru parametrul 𝑏1

6.3.2 Media estimatorului 𝑏̂0


Din relația de definiție a lui 𝑏̂0 se deduce:
𝐸(𝑏̂0 ) = 𝑒(𝑦̅ − 𝑏̂1 ∙ 𝑥̅ ) = 𝐸(𝑦̅) − 𝑥̅ ∙ 𝐸(𝑏̂1 ) = 𝐸(𝑦̅) − 𝑥̅ ∙ 𝑏1
Dar se știe că:

64
∑ 𝑦𝑖 ∑ 𝐸(𝑦𝑖 ) ∑(𝑏0 + 𝑏1 ∙ 𝑥𝑖 ) 𝑛 ∙ 𝑏0 + 𝑏1 ∙ ∑ 𝑥𝑖
𝐸(𝑦̅) = 𝐸 ( )= = = = 𝑏0 + 𝑏1 ∙ 𝑥̅
𝑛 𝑛 𝑛 𝑛
deci în final obținem:
𝐸(𝑏̂0 ) = 𝑏0 + 𝑏1 ∙ 𝑥̅ − 𝑥̅ ∙ 𝑏1 = 𝑏0
𝐸(𝑏̂0 ) = 𝑏0
Așadar:
𝑏̂0 este un estimator nedeplasat pentru parametrul 𝑏0

6.3.3 Varianța estimatorului 𝑏̂1


Folosind operatorul Var al varianței și relațiile din secțiunea 5.3, găsim
∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑦𝑖 ∑(𝑥𝑖 − 𝑥̅ )2 ∙ 𝑉𝑎𝑟(𝑦𝑖 ) ∑(𝑥𝑖 − 𝑥̅ )2 ∙ 𝜎 2 𝜎2
𝑉𝑎𝑟(𝑏̂1 ) = 𝑉𝑎𝑟 ( )= = =
∑(𝑥𝑖 − 𝑥̅ )2 [∑(𝑥𝑖 − 𝑥̅ )2 ]2 [∑(𝑥𝑖 − 𝑥̅ )2 ]2 ∑(𝑥𝑖 − 𝑥̅ )2
Am obținut, astfel, expresia varianței parametrului estimat b̂1 .
𝜎2
𝑉𝑎𝑟(𝑏̂1 ) = (72)
∑(𝑥𝑖 − 𝑥̅ )2
Reamintim că, în contextul modelului de regresie, valorile 𝑥𝑖 sunt non-aleatorii, inclusiv 𝑥̅ și
diferențele 𝑥𝑖 − 𝑥̅ , motiv pentru care operatorul Var se aplică exclusiv variabilei aleatoare Y și
termenilor de eroare.
Eroarea standard23 a parametrului 𝑏̂1 este

𝜎2
𝑠𝑒(𝑏̂1 ) = √ (73)
∑(𝑥𝑖 − 𝑥̅ )2

6.3.4 Varianța estimatorului 𝑏̂0


Urmând formula lui 𝑏̂0 , avem:
𝑉𝑎𝑟(𝑏̂0 ) = 𝑉𝑎𝑟(𝑦̅ − 𝑏̂1 ∙ 𝑥̅ ) = 𝑉𝑎𝑟(𝑦̅) − 2 ∙ 𝑥̅ ∙ 𝑐𝑜𝑣(𝑦̅, 𝑏̂1 ) + 𝑥̅ 2 ∙ 𝑉𝑎𝑟(𝑏̂1 )=
= 𝑉𝑎𝑟(𝑦̅) + 𝑥̅ 2 ∙ 𝑉𝑎𝑟(𝑏̂1 ),
deoarece avem
∑ 𝑦𝑖 ∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑦𝑖
𝑐𝑜𝑣(𝑦̅, 𝑏̂1 ) = 𝑐𝑜𝑣 ( , )=
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
∑𝑖(𝑥𝑗 − 𝑥̅ ) ∙ 𝐷2 (𝑦𝑖 ) + ∑ 𝑖≠𝑗 (𝑥𝑗 − 𝑥̅ ) ∙ 𝑐𝑜𝑣(𝑦𝑖 , 𝑦𝑗 )
∑𝑖 ∑𝑗(𝑥𝑗 − 𝑥̅ ) ∙ 𝑐𝑜𝑣(𝑦𝑖 , 𝑦𝑗 ) ̅̅̅̅̅
𝑖,𝑗=1,𝑛
= = =
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2 𝑛∙ ∑(𝑥𝑖 − 𝑥̅ )2
𝜎 2 ∑𝑖(𝑥𝑗 − 𝑥̅ ) + 0 𝜎̂ 2 ∙ 0 + 0
= = =0
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2 𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2

23
În tabelele de rezultate ale aplicațiilor informatice, eroarea standard apare sub denumirea Standard Error.
65
Cum avem:
∑ 𝑦𝑖 ∑ 𝑉𝑎𝑟(𝑦𝑖 ) 𝑛 ∙ 𝜎 2 𝜎̂ 2
𝑉𝑎𝑟(𝑦̅) = 𝑉𝑎𝑟 ( )= = = ,
𝑛 𝑛2 𝑛2 𝑛
în final, obținem:
𝑉𝑎𝑟(𝑏̂0 ) = 𝑉𝑎𝑟(𝑦̅) + 𝑥̅ 2 ∙ 𝑉𝑎𝑟(𝑏̂1 )
𝜎2 𝑥̅ 2 ∙ 𝜎 2
𝑉𝑎𝑟(𝑏̂0 ) = + =
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
𝜎 2 ∙ [∑(𝑥𝑖 − 𝑥̅ )2 + 𝑛 ∙ 𝑥̅ 2 ]
=
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2
Dar știm că:

∑(𝑥𝑖 − 𝑥̅ )2 = ∑ 𝑥𝑖2 − 𝑛 ∙ 𝑥̅ 2

deci obținem:
∑ 𝑥𝑖2
𝑉𝑎𝑟(𝑏̂0 ) = ∙ 𝜎2 (74)
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2
Eroarea (abaterea) standard a parametrului 𝑏̂0 este

∑ 𝑥𝑖2
𝑠𝑒(𝑏̂0 ) = √ ∙ 𝜎2 (75)
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2

6.3.5 Covarianța estimatorilor 𝑏̂0 ș𝑖 𝑏̂1


Știm că:
𝑐𝑜𝑣(𝑏̂1 , 𝑏̂0 ) = 𝑐𝑜𝑣(𝑏̂1 , 𝑦̅ − 𝑏̂1 ∙ 𝑥̅ ) = 𝑐𝑜𝑣(𝑏̂1 , 𝑦̅) − 𝑥̅ ∙ 𝑉𝑎𝑟(𝑏̂1 ) =
𝑥̅ ∙ 𝜎 2
= 0−
∑(𝑥𝑖 − 𝑥̅ )2
În final, am obținut rezultatul:
𝑥̅ ∙ 𝜎 2
𝑐𝑜𝑣(𝑏̂1 , 𝑏̂0 ) = − (76)
∑(𝑥𝑖 − 𝑥̅ )2

6.4 ESTIMAREA VARIANȚEI ERORILOR


Ne vom ocupa acum de estimarea varianței 𝜎 2 a reziduurilor, deoarece această cantitate s-a
dovedit esențială în descrierea variabilelor estimatorilor 𝑏̂0 și 𝑏̂1.
Dar, prin structura modelului, aceasta nu este cunoscută apriori și va trebui estimată pe baza
eșantionului de care dispunem.
Dacă am reuși să determinam reziduurile 𝒖𝒊 , atunci varianța lor s-ar putea estima prin
estimatorul nedeplasat dat de expresia:
∑𝑛𝑖=1(𝑢𝑖 − 𝑢̅)2 ∑𝑛𝑖=1(𝑢𝑖 )2
2
𝜎 = = (77)
𝑛 𝑛
unde prin u̅ am notat media de selecție a erorilor ui și care, prin definiție, este zero.

66
Din păcate însă, cantitățile ui nu sunt observabile direct, ci pot fi estimate numai prin relațiile:
𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , unde 𝑦̂𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 = 𝑦̅ + 𝑏̂1 ∙ (𝑥𝑖 − 𝑥̅ )
În continuare, vom utiliza unele dintre rezultatele precedente:
- știm că media reziduurilor este zero, deci:
𝑛 𝑛

∑(𝑢̂𝑖 − 𝑢̅̂)2 = ∑(𝑢̂𝑖 )2


𝑖=1 𝑖=1
𝑛 𝑛 𝑛

∑(𝑢̂𝑖 − 𝑢̅ ̂ )2 = ∑(𝑢̂𝑖 )2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2


𝑖=1 𝑖=1 𝑖=1

- deci:
𝑛 𝑛 𝑛 𝑛 𝑛

𝐸 [∑(𝑦𝑖 − 𝑦̂𝑖 ] = )2 ∑ 𝐸(𝑦𝑖2 ) − ∑ 𝐸(𝑦̂𝑖2 ) = ∑[𝑉𝑎𝑟(𝑦𝑖 ) + 𝐸 2 (𝑦𝑖 )] − ∑[𝑉𝑎𝑟(𝑦̂𝑖 ) + 𝐸 2 (𝑦̂𝑖 )]


𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1

- dar avem:
𝐸(𝑦̂𝑖 ) = 𝐸(𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 ) = 𝐸(𝑏̂0 ) + 𝑥𝑖 ∙ 𝐸(𝑏̂1 ) = 𝑏0 + 𝑏1 ∙ 𝑥𝑖 = 𝐸(𝑦𝑖 )
- astfel, înlocuim și găsim:
𝑛 𝑛 𝑛 𝑛

)2
𝐸 [∑(𝑦𝑖 − 𝑦̂𝑖 ] = ∑ 𝑉𝑎𝑟(𝑦𝑖 ) − ∑ 𝑉𝑎𝑟(𝑦̂𝑖 ) = 𝑛 ∙ 𝜎 − ∑ 𝑉𝑎𝑟(𝑦̂𝑖 ) 2

𝑖=1 𝑖=1 𝑖=1 𝑖=1

Vom calcula valoarea expresiei Var(𝑦̂𝑖 ). Avem:


𝑉𝑎𝑟(𝑦̂𝑖 ) = 𝑉𝑎𝑟(𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖 ) = 𝑉𝑎𝑟(𝑏̂0 ) + 𝑥𝑖2 ∙ 𝑉𝑎𝑟(𝑏̂1 ) + 2 ∙ 𝑥𝑖 ∙ 𝑐𝑜𝑣(𝑏̂0 ; 𝑏̂1 ) =
∑ 𝑥𝑖2 2
𝑥𝑖2 2 ∙ 𝑥𝑖 ∙ 𝑥̅
= 2
∙ 𝜎 + 2
∙ 𝜎2 − ∙ 𝜎2 =
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ ) ∑(𝑥𝑖 − 𝑥̅ ) ∑(𝑥𝑖 − 𝑥̅ )2
𝜎2 ∑ 𝑥𝑖2
= ∙( + 𝑥𝑖2 − 2 ∙ 𝑥𝑖 ∙ 𝑥̅ ) =
∑(𝑥𝑖 − 𝑥̅ )2 𝑛
𝜎2 ∑ 𝑥𝑖2 𝑛 ∙ 𝑥̅ 2
= ∙ ( − + 𝑥𝑖2 − 2 ∙ 𝑥𝑖 ∙ 𝑥̅ + 𝑥̅ 2 ) =
∑(𝑥𝑖 − 𝑥̅ )2 𝑛 𝑛
𝜎2 ∑(𝑥𝑖 − 𝑥̅ )2 2 2
1 (𝑥𝑖 − 𝑥̅ )2
= ∙ ( + (𝑥𝑖 − 𝑥̅ ) ) = 𝜎 ( + )
∑(𝑥𝑖 − 𝑥̅ )2 𝑛 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
Așadar,

2
1 (𝑥𝑖 − 𝑥̅ )2
)
𝑉𝑎𝑟(𝑦̂𝑖 = 𝜎 ( + ) (78)
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
de unde găsim forma finală, anume:
𝑛 𝑛

𝐸 [∑(𝑦𝑖 − 𝑦̂𝑖 )2 ] = 𝑛 ∙ 𝜎 2 − ∑ 𝑉𝑎𝑟(𝑦̂𝑖 )


𝑖=1 𝑖=1
𝑛
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
𝐸 [∑(𝑦𝑖 − 𝑦̂𝑖 )2 ] = 𝑛 ∙ 𝜎 2 − 𝜎 2 ( + ) = 𝜎 2 (𝑛 − 2)
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
𝑖=1

67
𝐸[∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 ]
2
𝜎 =
𝑛−2
Așadar, estimatorul abaterii standard (abatere medie pătratică) a erorilor reziduale24 este:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √ (79)
𝑛−2
Numitorul, de această dată, nu mai este egal cu volumul eșantionului (n), ci cu n-2, deoarece
la estimarea valorilor 𝑦̂ avem nevoie de cei doi parametri estimați (𝑏̂0 și 𝑏̂1 ), ceea ce înseamnă că
pierdem două grade de libertate.
În acest fel am obținut estimația 𝜎̂ a abaterii standard a erorilor 𝝈, care mai este notată și cu
simbolul 𝒔 și pe care nu o putem cunoaște în realitate. În practică, dacă calculăm suma diferențelor
pătratice dintre valorile observate și cele estimate ale variabilei Y și dacă o împărțim la (n-p-1),
obținem estimația erorii medii pătratice a erorilor.
Această estimație o vom folosi pentru determinarea abaterilor standard ale parametrilor
estimați b̂0 și b̂1 , precum și a covarianței dintre b̂0 și b̂1 .

∑ 𝑥𝑖2
𝑠𝑒(𝑏̂0 ) = √ ∙ 𝜎̂ 2 (80)
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2

𝜎̂ 2
𝑠𝑒(𝑏̂1 ) =√ (81)
∑(𝑥𝑖 − 𝑥̅ )2

𝑥̅ ∙ 𝜎̂ 2
𝑐𝑜𝑣(𝑏̂1 , 𝑏̂0 ) = − (82)
∑(𝑥𝑖 − 𝑥̅ )2

6.5 INFERENȚA STATISTICĂ ASUPRA PARAMETRILOR MODELULUI

6.5.1 Teste privind panta 𝑏̂1 a dreptei de regresie


Am văzut că estimatorul b̂ 1 are o distribuție normală, și că avem:
𝐸(𝑏̂1 ) = 𝑏1
{ 𝜎̂ 2
𝑉𝑎𝑟(𝑏̂1 ) =
∑(𝑥𝑖 − 𝑥̅ )2
Așadar, expresia:
𝑏̂1 − 𝑏1
𝑍=
√𝑉𝑎𝑟(𝑏̂1 )

are o repartiție normală normată. Folosind estimatorul 𝜎̂, găsim variabila aleatoare

24
În limba engleză, această estimație este numită Mean Square Error (MSE).
68
𝑏̂1 − 𝑏1
𝑡𝑐 =
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (83)

(𝑛 − 2) ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2

care are o repartiție Student, cu (n-p-1) grade de libertate, unde p este numărul de regresori ai
modelului nostru, adică p=1.
În cazul testării ipotezei nule, fixăm un prag de semnificație α, de regulă egal cu 5% sau 0,05
și definim ipoteza nulă 𝐻0 și ipoteza alternativă 𝐻1 , astfel:
𝐻0 : 𝑏1 = 𝑏1∗
{
𝐻1 : 𝑏1 ≠ 𝑏1∗
Cu alte cuvinte, vrem să testăm ipoteza potrivit căreia parametrul 𝑏1 este egal cu o valoare de
test 𝑏1∗ (ipoteza nulă) sau nu (ipoteza alternativă).
În acest scop, utilizam statistica calculată conform relației (83). Folosim notația 𝑡𝑐 pentru a
indica faptul că aceasta este o statistică calculată.
Acesta este un test bilateral, fapt indicat de ipoteza alternativă prin care dorim să testăm dacă
parametrul 𝑏1 este diferit de valoarea 𝑏1∗ , în aceste condiții, o ipoteză alternativă ar putea fi 𝑏1 > 𝑏1∗
sau 𝑏1 < 𝑏1∗ . În aceste ultime cazuri, am fi recurs la un test unilateral.
Pentru a decide dacă respingem ipoteza nulă, comparăm statistica 𝑡𝑐 cu valoarea
corespunzătoare a statisticii t pentru un prag de semnificație α/2, deoarece procedăm la un test
bilateral, motiv pentru care trebuie să considerăm un prag de semnificație înjumătățit, și un număr de
grade de libertate egal cu n − 2, pe care o notăm cu 𝑡(𝛼⁄ ;𝑛−2) .
2
Dacă |𝑡𝑐 | > 𝑡(𝛼⁄ ;𝑛−2) , înseamnă că parametrul 𝑏1 este semnificativ diferit din punct de
2
vedere statistic de 𝑏1∗ , motiv pentru care putem respinge ipoteza nulă 𝐻0 la pragul de semnificație α.
În caz contrar, putem concluziona că nu avem suficiente dovezi să respingem ipoteza nulă 𝐻0 ,
adică vom spune că parametrul 𝑏1 nu este semnificativ diferit din punct de vedere statistic de 𝑏1∗ .
În practică, aplicațiile informatice calculează statistica 𝑡𝑐 , dar nu o compară cu statistica
teoretică 𝑡(𝛼⁄ ;𝑛−2) , ci calculează probabilitatea asociată statisticii 𝑡𝑐 , care apare în tabelul de analiză
2
a parametrilor estimați în coloana ”P-value”. Dacă probabilitatea calculată este mai mică decât pragul
de semnificație α (0,05), atunci putem respinge ipoteza nulă.
NOTĂ: Aplicațiile informatice de analiză de regresie realizează implicit testul cu ipoteza nulă
𝐻0 : 𝑏1 = 0 în raport cu ipoteza alternativă 𝐻1 : 𝑏1 ≠ 0 la pragul de semnificație α = 0,05. Dacă, în
urma rezultatelor, nu se respinge ipoteza nulă 𝐻0 : 𝑏1 = 0, înseamnă că Y nu depinde de fapt de X, iar
modelul de regresie devine
𝑦𝑖 = 𝑏̂0 + 𝑢𝑖 .
Dacă însă se respinge 𝐻0 : 𝑏1 = 0 și se prefera 𝐻1 : 𝑏1 ≠ 0, adică
𝑏̂1
|𝑡𝑐 | ≠
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (84)

(𝑛 − 2) ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2

relația dintre Y și X este semnificativă la pragul de semnificație α.


̂𝟏.
Să observăm, în plus, că semnul statisticii 𝒕𝒄 va avea semnul parametrului estimat 𝒃

69
6.5.2 Intervalul de încredere pentru 𝑏1
Un interval de încredere, cu coeficientul de încredere (1 – α) pentru parametrul 𝑏1 este dat de
legea Student 𝑇𝑛−2 și are următoarea expresie:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2


(𝑏̂1 − 𝑡(𝛼⁄ ∙ √ ; ̂
𝑏 + 𝑡 𝛼 ∙ √ )
2;𝑛−2) (𝑛 − 2) ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 1 ( ⁄2;𝑛−2)
(𝑛 − 2) ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2

sau, pe scurt: 𝑏̂1 ± 𝑡(𝛼;𝑛−2) ∙ 𝑠𝑒(𝑏̂1 ) . Valoarea statisticii 𝑡(𝛼;𝑛−2) se poate calcula cu ajutorul unei
funcții din aplicația informatică sau se poate citi dintr-un tabel de valori ale statisticii t la pragul de
semnificație α și n − 2 grade de libertate.
Observație: Acest interval poate fi utilizat și pentru testarea perechii de ipoteze 𝐻0 : 𝑏1 = 0 în
raport cu ipoteza alternativă 𝐻1 : 𝑏1 ≠ 0. Dacă intervalul de încredere conține valoarea 0
(zero), atunci parametrul 𝑏1 nu este semnificativ diferit, din punct de vedere statistic, de 0,
fapt ce trebuie să fie concordant cu concluzia în raport cu ipoteza nulă, pe care nu o putem
respinge.

6.5.3 Teste privind tăietura 𝑏0 în origine


Vom folosi faptul deja demonstrat, anume că estimatorul 𝑏̂0 are o repartiție normală, cu
variabilele:
𝐸(𝑏̂0 ) = 𝑏0
{ ∑ 𝑥𝑖2
𝑉𝑎𝑟(𝑏̂0 ) = ∙ 𝜎̂ 2
𝑛 ∙ ∑(𝑥𝑖 − 𝑥̅ )2
Așadar, variabila aleatoare
𝑏̂0 − 𝑏0
𝑍=
√𝐷2 (𝑏̂0 )

are o repartiție normală normată.


Cum varianța parametrului 𝑏0 este necunoscută, se estimează folosind estimatorul

∑𝑛 (𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √ 𝑖=1
𝑛−2
și atunci variabila aleatoare
𝑏̂0 − 𝑏0
𝑡𝑐 =
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 ∙ ∑ 𝑥𝑖2

(𝑛 − 2) ∙ 𝑛 ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2

care are o repartiție Student, cu (n-p-1) grade de libertate, unde p este numărul de regresori ai
modelului nostru, adică p=1.
În continuare, se aplică aceleași proceduri ca și în cazul parametrului estimat 𝑏̂1 , pentru
testarea ipotezelor și calculul intervalului de încredere.

70
6.5.4 Interval de încredere pentru 𝜇𝑌 (𝑥)
În secțiunea 6.5.2 a fost prezentat modul de calcul al intervalului de încredere pentru
estimatorul b̂1 al pantei dreptei de regresie, iar pentru estimatorul b̂0 în secțiunea 6.5.3 se indică
utilizarea unei proceduri similare. Să investigăm acum modul de calcul al intervalului de încredere
pentru adevărata medie a valorilor variabilei Y, pe care o notăm cu 𝝁𝒀 (𝐱𝐝 ), dată de modelul
𝝁𝒀 (𝐱 𝐝 ) = b0 + b1 ∙ 𝑥𝑑 . Această relație ne spune că, pentru o anumită valoare x, determinată, a
variabilei X, eșantionul conține mai multe valori y ale variabilei Y, însă, prin modelul nostru de
regresie, vom obține o singură valoare așteptată.
S-a stabilit că estimatorul lui 𝝁𝒀 (𝐱𝐝 ) este dat de dreapta celor mai mici pătrate, adică:
𝑦̂(𝑥𝑑 ) = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑑 .
Estimatorul 𝑦̂(𝑥𝑑 ) este normal distribuit, deoarece este o combinație liniară de doi estimatori
cu repartiție normală, adică de 𝑏̂0 și 𝑏̂1
Știm că acest estimator este nedeplasat și că are varianța (conform relației Error! Reference
source not found.)
1 (𝑥𝑑 − 𝑥̅ )2
𝑉𝑎𝑟(𝑦̂(𝑥𝑑 )) = 𝜎 2 ( + ) (85)
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
Se observă că dacă valoarea lui xd este relativ îndepărtată de valoarea 𝑥̅ , valoarea varianței
estimatorului este relativ mare și deci estimatorul devine neprecis: atunci, pentru astfel de valori,
estimarea lui 𝝁𝒀 (𝐱𝐝 ) este bine să nu se facă cu modelul dreptei de regresie, ci cu alt model.
În continuare, vom folosi faptul că expresia
𝑦̂(𝑥𝑑 ) − 𝜇𝑌 (𝑥𝑑 )
𝑍=
√𝑉𝑎𝑟(𝑦̂𝑖 )
are o repartiție normală normată.
Cum varianța reziduurilor este necunoscută, nu putem utiliza statistica Z, și va
∑𝑛 ̂ 𝑖 )2
𝑖=1(𝑦𝑖 −𝑦
trebui să estimăm σ prin estimatorul 𝜎̂ = √ . Atunci folosim statistica
𝑛−2

𝑦̂(𝑥𝑑 ) − 𝜇𝑌 (𝑥𝑑 )
𝑡=
1 (𝑥 − 𝑥̅ )2
𝜎̂ ∙ √(𝑛 + 𝑑 )
∑(𝑥𝑖 − 𝑥̅ )2

care are o repartiție Student cu (n-p-1) grade de libertate.


Intervalul de încredere de nivel (1 – α) pentru μY (𝑥) este

1 (𝑥𝑑 − 𝑥̅ )2
𝑦̂(𝑥𝑑 ) ± 𝑡(𝛼⁄ ∙ 𝜎
̂ ∙ √( + )
2;𝑛−2) 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2

unde

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √
𝑛−2
Pornind de la aceste estimații, unele programe de calculator construiesc în graficul de ajustare
a datelor cu dreapta de regresie și un interval de încredere a valorilor estimate ale variabilei de
răspuns.

71
7. UN EXEMPLU NUMERIC
Fie datele:
i 1 2 3 4 5
𝑥𝑖 1 3 7 11 14
𝑦𝑖 4 9 15 26 32
Datele de mai sus ne arată că avem 5 observații ale variabilei X și 5 observații ale variabilei
Y, deci n=5, iar i ne arată indexul valorii variabilei în cauză. Y este variabila dependentă și X este
variabila independentă.
Să determinăm dreapta celor mai mici pătrate și să efectuam testele corespunzătoare.
Avem următoarele valori estimate pentru medie:
1
𝑥= ⋅ (1 + 3 + 7 + 11 + 14) = 7,2
5
1
𝑦 = ⋅ (4 + 9 + 15 + 26 + 32) = 17,2
5
deci obținem tabelul:
𝑥𝑖 − 𝑥̅ -6,2 -4,2 -0,2 3,8 6,8
𝑦𝑖 − 𝑦̅ -13,2 -8,2 -2,2 8,8 14,8
Evaluăm numeric o serie de expresii utile în calculele de estimații care urmează.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) ∙ (𝑦𝑖 − 𝑦̅) = 250,80
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 116,8
∑𝑛𝑖=1(𝑥𝑖 )2 = 376,0

7.1 CALCULUL PARAMETRILOR ESTIMAȚI


Utilizând relația (49), spre exemplu, și valorile calculate mai sus, obținem valorile
estimatorilor 𝑏̂0 și 𝑏̂1 .
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) ∙ (𝑦𝑖 − 𝑦̅) 250,8
𝑏̂1 = = = 2,147
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 116,8
𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅ = 17,2 − 2,147 ∙ 7,2 = 1,740
Reziduurile estimate se determina cu relația 𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , unde valorile calculate 𝑦̂𝑖 ale
variabilei Y se determină prin înlocuirea valorilor observate 𝑥𝑖 în ecuația dreptei, deci
𝑦̂𝑖 = 1,740 + 2,147 ∙ 𝑥𝑖
obținem tabelul:
𝑥𝑖 1 3 7 11 14
𝑦𝑖 4 9 15 26 32
𝑦̂𝑖 3, 9 8,18 16,77 25,36 31,8
𝑢̂𝑖 0,1 0,82 - 1,77 0,64 0,2

72
7.2 COEFICIENTUL DE DETERMINARE
Folosind relația (60), forma generală a coeficientului de determinare este:
∑𝑛𝑖=1 𝑦̂12 − 𝑛 ∙ 𝑦̅ 2
2
𝑅 = 𝑛
∑𝑖=1 𝑦12 − 𝑛 ∙ 𝑦̅ 2
Prin înlocuirea expresiilor, acesta devine:
2017,725 − 5 ⋅ (17,2)2
𝑅2 = = 0,992
2022 − 5 ⋅ (17,2)2
Deci variația lui Y este determinată în proporție de 99,2% de către variația lui X.

7.3 ̂ 𝟎 ȘI 𝒃
EROAREA MEDIE PĂTRATICĂ A ESTIMATORILOR 𝒃 ̂𝟏
Să trecem la estimarea repartiției estimatorilor 𝑏̂0 și 𝑏̂1. Pentru aceasta trebuie estimată întâi
abaterea medie pătratică a reziduurilor, așa cum am văzut în secțiunea 6.4 prin relația (79).
Avem:

∑𝑛 (𝑦𝑖 − 𝑦̂𝑖 )2 4,27


𝜎̂ = √ 𝑖=1 =√ = 1,193
𝑛−2 3

Aceasta valoare constituie o estimare nedeplasată a lui 𝝈.


̂
𝜎 2
Atunci valoarea estimată pentru 𝐷2 (𝑏̂1 ) = ∑(𝑥 −𝑥̅ )2 va fi dată de :
𝑖
2
1,193
𝑉𝑎𝑟(𝑏̂1 ) = = 0,012 ⇒ 𝑠𝑒(𝑏̂1 ) = √0,012 = 0,1103
116,8
Deci abaterea standard estimată a variabilei aleatoare 𝑏̂1 este: 𝑠𝑒(𝑏̂ ) = 0,1103.
1

∑ 𝑥𝑖2
Valoarea estimată pentru 𝑉𝑎𝑟(𝑏̂0 ) = ∙ 𝜎̂ 2 va fi deci
𝑛∙∑(𝑥𝑖 −𝑥̅ )2
376
𝑉𝑎𝑟(𝑏̂0 ) = (1,193)2 ⋅ 5⋅116,8 = 0,9158 ⇒ 𝑠𝑒(𝑏̂0 ) = √0,9158 = 0,9570.

Deci abaterea standard a variabilei aleatoare 𝑏̂0 este: 𝑠𝑒(𝑏̂0 ) = 0,9570

7.4 TESTE PRIVIND PARAMETRII ESTIMAȚI


Acum se poate trece la efectuarea de teste privind valorile 𝑏0 ș𝑖 𝑏1. Pașii sunt următorii:

7.4.1 Alegerea pragului de semnificație 𝛼


Alegem pragul 𝛼 = 0,10, considerând că acceptăm un risc de 10% să respingem ipoteza nulă
atunci când ea ar fi adevărată. Alegerea pragului de semnificație depinde de experimentul realizat.

7.4.2 Definirea ipotezei nule și a ipotezei alternative


În secțiunea 7.1 am calculat estimația parametrului pantei 𝑏1 . Această estimație ne spune că
dacă X crește cu o unitate, Y va crește cu valoarea parametrului 𝑏1 , adică 2,147 unități. Să
presupunem că, dintr-un alt studiu, am aflat că o bună estimație a parametrului 𝑏1 este valoarea 3 și
dorim să aflăm dacă estimația noastră este semnificativ diferită de această valoare. Ca urmare, setul
nostru de ipoteze va fi:

73
𝐻0 : 𝑏1 = 3
{
𝐻1 : 𝑏1 ≠ 3
Să presupunem că, din același studiu, am aflat că o bună estimație a parametrului 𝑏0 este
valoarea 1 și dorim să aflăm dacă estimația noastră este semnificativ diferită de această valoare. Ca
urmare, setul nostru de ipoteze va fi:
𝐻0 : 𝑏0 = 1
{
𝐻1 : 𝑏0 ≠ 1
Ca urmare a celor prezentate în secțiunea 3.2.6, vom efectua două teste statistice bilaterale.

7.4.3 Verificarea ipotezei asupra parametrului 𝑏1


Calculăm statistica 𝑡𝑐 pentru parametrul b1 , care reprezintă cuantila t a distribuției Student cu
3 grade de libertate (df=n-p-1=5-1-1=3) aferentă acestui test:
𝑏̂1 − 3 2,147 − 3
𝑡𝑐 = = = −7,73
𝑠𝑒(𝑏̂1 ) 0,1103
Pentru a decide dacă respingem sau nu ipoteza nulă, avem două posibilități:
a) Fie să comparăm statistica t c cu valoarea teoretică a statisticii t pentru un prag de
semnificație de 5% (jumătatea pragului de semnificație α ales) și 3 grade de libertate;
b) Fie să comparăm probabilitatea asociată statisticii t c cu pragul de semnificație α = 0,10.
Iată cum procedăm în fiecare din cele două cazuri:
a) În tabela Student din Anexa 1 identificăm valoarea statisticii t pentru un prag de 10% și 3
grade de libertate și găsim t (0,05;3) = 2,3534.
Cu ajutorul funcției TINV din Excel cu sintaxa =TINV(0.1,3) vom obține aceeași valoare
a statisticii t.
Cum avem |𝑡𝑐 | > 𝑡(0,05;3) , deducem că, la pragul α=0,10, se respinge H0 și se preferă H1.
Cu alte cuvinte, testul este semnificativ sau valoarea parametrului 𝑏1 este semnificativ
diferită de valoarea testată 3.
b) Pentru a calcula valoarea probabilității asociate statisticii t c = −7,73, o putem estima prin
compararea valorii absolute a statisticii |t c | = 7,73 cu valorile tabelate ale statisticii t
corespunzătoare diverselor praguri de semnificație la numărul de grade corespunzătoare
experimentului nostru și să evaluăm probabilitatea asociată.
Dacă probabilitatea asociată este mai mică decât pragul de semnificație α = 0,10, atunci
putem respinge ipoteza nulă, iar în caz contrar nu o putem respinge.
În tabela Student din Anexa 1, la 3 grade de libertate, valoarea |𝑡𝑐 | = 7,73 se află între
valorile statisticii t de 5,8409 pentru o probabilitate de 0,01 sau 1% și 10,2145 pentru o
probabilitate de 0,002 sau 0,2%.
Așadar, probabilitatea asociată statisticii calculate mai sus |𝑡𝑐 | = 7,73 are o valoare
cuprinsă între 0,2% și 1%, care este mult mai mică de pragul α = 10%. Ca urmare,
eșantionul nostru pentru testul ales ne oferă suficiente probe să respingem ipoteza nulă și
să concluzionăm că valoarea parametrului 𝑏1 este semnificativ diferită de valoarea testată
3.

7.4.4 Intervalul de încredere pentru 𝑏1


Pentru α = 0,10 avem intervalul: (2,147 ± 2,353 ⋅ 0,1103) = (1,888; 2,407).

74
Așadar, pentru valoarea estimată a lui 𝑏𝟏 se poate alege orice valoare din acest interval:
evident că valoarea cea mai tentantă este 𝑏1∗ = 2.

7.4.5 Verificarea ipotezei asupra parametrului 𝑏0


Calculăm statistica 𝑡𝑐 pentru parametrul 𝑏0 , care reprezintă cuantila t a distribuției Student cu
3 grade de libertate (df=n-p-1=5-1-1=3) aferentă acestui test:
𝑏̂0 − 1 1,740 − 1
𝑡𝑐 = = = 0,773
𝑠𝑒(𝑏̂0 ) 0,9570
Urmând aceleași raționamente ca în secțiunea 7.4.3, observăm că |𝑡𝑐 | < 𝑡(0,05;3) . În concluzie,
nu putem respinge ipoteza nulă. Așadar, parametrul 𝑏0 nu diferă semnificativ, din punct de vedere
statistic, de 1.

7.4.6 Intervalul de încredere pentru 𝑏0


Un interval de încredere de nivel (1- α) pentru parametrul 𝑏0 este definit de relația
(𝑏̂0 − 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂0 ) ; 𝑏̂0 + 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂0 ) )
2;𝑛−1) 2;𝑛−1)

sau:
𝑏̂0 ± 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂0 ).
2;𝑛−1)

Așadar, se respinge ipoteza 𝐻0 : 𝑏0 = 𝑏0∗ , în raport cu ipoteza alternativa 𝐻1 : 𝑏0 ≠ 𝑏0∗ la pragul


de semnificație α dacă valoarea 𝑏0∗ folosită de noi în test nu aparține intervalului
𝑏̂0 ± 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂0 ).
2;𝑛−1)

Din datele noastre, avem


(1,740 ± 2,353 ⋅ 0,9570) = (−0,512; 3,992).
Așadar, având regula de mai sus, observăm că valoarea parametrului 𝑏0 , adică 1, aparține
intervalului calculat, de unde concluzionăm că nu putem respinge ipoteza nulă. În alte cuvinte, putem
spune că în maxim 10% din cazuri putem găsi o valoare a parametrului 𝑏0 diferită de 1.
Observație: dacă Y reprezintă, spre exemplu, beneficiul realizat în urma producerii unei
cantități X de produs atunci este important să avem: X = 0 → Y=0 ( dacă nu produc nimic, beneficiul
este zero). Cum valoarea 𝑏0 = 0 aparține intervalului (−0,512; 3,992), datele problemei ar putea
confirma un model de evaluare a nivelului beneficiului în funcție de nivelul producției.
Într-o interpretare echivalentă, observând că intervalul de încredere al parametrului 𝑏0 conține
valoarea 0 la pragul de semnificație de 10%, putem concluziona că, de fapt, parametrul 𝑏0 nu diferă
semnificativ, din punct de vedere statistic, de 0. Astfel, testul nostru de egalitate a parametrului 𝑏0 =
1 nu este concludent, pentru că la fel de probabil este ca el să fie zero, motiv pentru care am putea
reface testul pentru praguri de semnificație mai mari, dar fără o utilitate practică.
Acest exemplu este un argument foarte bun pentru necesitatea de a completa testul statistic cu
calculul intervalului de încredere, pentru a dispune de o imagine mai cuprinzătoare asupra valorilor
posibile ale parametrilor estimați și a puterii lor explicative în modelul ales.

75
8. REGRESIA MULTIPLĂ
Modelul regresiei liniare simple este punctul de plecare în construirea și înțelegerea acestor
modele. Totuși, în practică, modelul regresiei liniare simple este foarte rar aplicat, el are mai mult un
scop didactic. De regulă, modelele de regresie liniară conțin doi sau mai mulți regresori. În cele ce
urmează vom extinde considerațiile descrise în capitolul dedicat regresiei liniare simple, vom
prezenta teste prin care sunt verificate supozițiile modelului și vom discuta despre consecințele
nerespectării acestor supoziții.

8.1 SCOPUL REGRESIEI LINIARE MULTIPLE


În modelul regresiei liniare, termenul de eroare însumează efectul factorilor pe care nu am
reușit să îi observăm. De aceea, o mai bună predicție a valorilor variabilei explicate se obține atunci
când în model introducem mai mult de o variabilă explicativă.
Spre exemplu, dacă salariul unui angajat este influențat de nivelul de educație și nu avem
posibilitatea să observăm alte variabile, atunci un model de regresie liniară simplă pare a fi suficient.
Însă este de așteptat ca un angajator să condiționeze salariul angajatului de experiența sa anterioară
și de performanța sa la locul de muncă. Astfel, el consideră că experiența anterioară este un factor
care contribuie la creșterea salariului, în timp ce numărul de piese defecte este un factor care trebuie
să îl diminueze. Modelul poate fi formulat astfel:
𝑌𝑖 = 𝑏0 + 𝑏1 ∙ 𝑋1𝑖 + 𝑏2 ∙ 𝑋2𝑖 (86)
unde 𝑌𝑖 este salariul angajatului i, 𝑋1𝑖 este experiența anterioară exprimată în ani a aceluiași angajat,
iar 𝑋2𝑖 este numărul de piese defecte ale angajatului i într-un an.
Ecuația (86) specifică faptul că valoarea așteptată a salariului unui angajat este dependentă de
numărul de ani de experiență anterioară și de numărul de piese defecte fabricate de acesta, pe baza
unui set de date suficient de mare, de regulă 100 de observații. Ecuația ne spune că dacă experiența
anterioară crește cu un an, salariul crește cu 𝑏1 unități, iar dacă numărul de piese defecte crește cu 1,
salariul scade cu 𝑏2 unități. Salariul crește cu 𝑏1 unități deoarece 𝒃𝟏 > 𝟎, de vreme ce între salariu
și experiența anterioară corelația este pozitivă, și scade cu 𝑏2 unități deoarece 𝒃𝟐 < 𝟎, de vreme ce
între salariu și numărul de piese defecte corelația este negativă. În acest fel, angajatorul poate obține
o predicție mai bună a salariului prin intermediul unei dependențe cu experiența anterioară și numărul
de piese defecte decât în cazul unei regresii liniare simple, în care salariul este dependent numai de
experiența anterioară.
Interpretarea parametrilor unei regresii liniare presupune utilizarea principiului ”Ceteris
paribus”, adică fiecare parametru estimat este analizat în condițiile în care toți ceilalți factori sunt
constanți. În exemplul de mai sus, parametrul 𝒃𝟏 este interpretat în condițiile în care factorul număr
de piese defecte este considerat constant, iar parametrul 𝒃𝟐 este interpretat în condițiile în care factorul
experiență anterioară este considerat constant.

8.2 SPECIFICAREA MODELULUI REGRESIEI LINIARE MULTIPLE


Să considerăm cazul unei variabile explicate, Y, cu un număr de p variabile explicative, anume
X1, X2, …, Xp25 la nivelul observațiilor realizate pentru o populație statistică.
Vom studia cazul existenței unui model liniar stochastic de tipul
𝑌 = 𝑏0 + 𝑏1 ∙ 𝑋1 + 𝑏2 ∙ 𝑋2 + ⋯ + 𝑏𝑝 ∙ 𝑋𝑝 (87)
în care postulăm că variabila Y este dependentă de un număr de p variabile independente 𝑋𝑗 , j = ̅̅̅̅̅
1, 𝑝.

25
Indicele ”p” semnifică numărul de variabile explicative sau de predictori.
76
Folosind un eșantion de ”n” observații, obținem datele care au aspectul:
(𝑥11 , 𝑥12 , … , 𝑥1𝑝 ; 𝑦1 ); (𝑥21 , 𝑥22 , … , 𝑥2𝑝 ; 𝑦2 ); … ; (𝑥𝑛1 , 𝑥𝑛2 , … , 𝑥𝑛𝑝 ; 𝑦𝑛 )
Modelul liniar stohastic din relația (87), pentru fiecare i = ̅̅̅̅̅
1, 𝑛, devine
𝑦𝑖 = 𝑏0 + 𝑏1 ∙ 𝑥𝑖1 + 𝑏2 ∙ 𝑥𝑖2 + ⋯ + 𝑏𝑝 ∙ 𝑥𝑖𝑝 + 𝑢𝑖 (88)
unde 𝑢𝑖 este termenul de eroare (rezidual). Ca și în cazul regresiei liniare simple, se presupune că
valoarea așteptată a valorilor 𝑢𝑖 este zero, că valorile 𝑢𝑖 au o distribuție normală și că abaterea
standard a valorilor 𝑢𝑖 este aceeași, indiferent de valorile variabilelor explicative 𝑋𝑝 . Spre deosebire
de regresia liniară simplă, media condiționată a valorilor 𝑦𝑖 este o funcție liniară a tuturor variabilelor
explicative 𝑋𝑝 . Concret, media condiționată este egală cu 𝑏0 + 𝑏1 ∙ 𝑥𝑖1 + 𝑏2 ∙ 𝑥𝑖2 + ⋯ + 𝑏𝑝 ∙ 𝑥𝑖𝑝 .
Și în acest model se considera că valorile {𝑥𝑖𝑗 } au caracter determinist, pe când {𝑦𝑖 } sunt
considerate variabile aleatoare.

8.3 MODELUL DE REGRESIE CU DOUĂ VARIABILE EXPLICATIVE


Vom studia pentru început cazul a două variabile explicative, caz în care modelul devine:
𝑦𝑖 = 𝑏0 + 𝑏1 ∙ 𝑥𝑖1 + 𝑏2 ∙ 𝑥𝑖2 + 𝑢𝑖 (89)
Urmează determinarea estimatorilor {𝑏̂𝑖 }𝑖=0,2
̅̅̅̅
ai parametrilor {𝑏𝑖 }𝑖=0,2
̅̅̅̅ .

Valorile estimate ale variabilei explicate Y vor fi atunci


𝑦̂𝑖 = 𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖1 + 𝑏̂2 ∙ 𝑥𝑖2 (90)
iar reziduurile {𝑢̂𝑖 }𝑖=0,2
̅̅̅̅ ar urma să fie date prin

𝑢̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = 𝑦𝑖 − (𝑏̂0 + 𝑏̂1 ∙ 𝑥𝑖1 + 𝑏̂2 ∙ 𝑥𝑖2 ) (91)


Pentru construirea estimatorilor, se utilizează tot metoda celor mai mici pătrate, adică se
urmărește minimizarea sumei pătratelor reziduurilor:
𝑛
2
𝑓(𝑏0 , 𝑏1 , 𝑏2 ) = ∑(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖1 − 𝑏̂2 ∙ 𝑥𝑖2 ) → 𝑚𝑖𝑛 (92)
𝑖=1

Condițiile necesare de extrem sunt determinate prin derivarea relației (92) în funcție de cei
trei estimatori:
𝑛
𝜕𝑓
= −2 ∙ ∑(𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖1 − 𝑏̂2 ∙ 𝑥𝑖2 ) = 0
𝜕𝑏̂0 𝑖=1
𝑛
𝜕𝑓
= −2 ∙ ∑ 𝑥𝑖1 ∙ (𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖1 − 𝑏̂2 ∙ 𝑥𝑖2 ) = 0
𝜕𝑏̂1 𝑖=1
𝑛
𝜕𝑓
= −2 ∙ ∑ 𝑥𝑖2 ∙ (𝑦𝑖 − 𝑏̂0 − 𝑏̂1 ∙ 𝑥𝑖1 − 𝑏̂2 ∙ 𝑥𝑖2 ) = 0
𝜕𝑏̂2
{ 𝑖=1

Se obține sistemul ecuațiilor normale:

77
𝑛 𝑛 𝑛

∑ 𝑦𝑖 = 𝑛 ∙ 𝑏̂0 + 𝑏̂1 ∙ ∑ 𝑥𝑖1 + 𝑏̂2 ∙ ∑ 𝑥𝑖2


𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛

∑ 𝑥𝑖1 ∙ 𝑦𝑖 = 𝑏̂0 ∙ ∑ 𝑥𝑖1 + 𝑏̂1 ∙ ∑ 𝑥𝑖1


2
+ 𝑏̂2 ∙ ∑ 𝑥𝑖1 ∙ 𝑥𝑖2 (93)
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛

∑ 𝑥𝑖2 ∙ 𝑦𝑖 = 𝑏̂0 ∙ ∑ 𝑥𝑖2 + 𝑏̂1 ∙ ∑ 𝑥𝑖1 ∙ 𝑥𝑖2 + 𝑏̂2 ∙ ∑ 𝑥𝑖2


2

{ 𝑖=1 𝑖=1 𝑖=1 𝑖=1

Rezolvând acest sistem de ecuații pentru 𝑏̂0, 𝑏̂1 și 𝑏̂2 , obținem următoarele rezultate:
∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )2 ∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑦𝑖 − 𝑦̅) − ∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 ) ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )(𝑦𝑖 − 𝑦̅)
𝑏̂2 =
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )2 ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )2 − [∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 )]2
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )2 ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )(𝑦𝑖 − 𝑦̅) − ∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 ) ∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑦𝑖 − 𝑦̅) (94)
𝑏̂1 =
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )2 ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )2 − [∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 )]2
𝑏̂0 = 𝑦̅ − 𝑏̂1 ∙ 𝑥̅1 − 𝑏̂2 ∙ 𝑥̅2
Putem simplifica aceste calcule folosind următoarele relații:
𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖1 )2
∑(𝑥𝑖1 − 𝑥̅1 )2 = ∑ 𝑥𝑖1 2

𝑛
𝑖=1 𝑖=1
𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖2 )2
∑(𝑥𝑖2 − 𝑥̅2 )2 = ∑ 𝑥𝑖2 2

𝑛
𝑖=1 𝑖=1
𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖1 )(∑𝑛𝑖=1 𝑦𝑖 )
∑(𝑥𝑖1 − 𝑥̅1 )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖1 𝑦𝑖 −
𝑛
𝑖=1 𝑖=1
𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖2 )(∑𝑛𝑖=1 𝑦𝑖 )
∑(𝑥𝑖2 − 𝑥̅2 )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖2 𝑦𝑖 −
𝑛
𝑖=1 𝑖=1
𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖1 )(∑𝑛𝑖=1 𝑥𝑖2 )
∑(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 ) = ∑ 𝑥𝑖1 𝑥𝑖2 −
𝑛
𝑖=1 𝑖=1

8.4 CALCULUL ȘI INTERPRETAREA ESTIMAȚIEI PARAMETRILOR MODELULUI


Exemplul următor descrie modul de calcul al estimațiilor parametrilor funcției de regresie prin
metoda CMMP. Calculele sunt mai complexe și sunt realizate de aplicații de calculator specializate.
Totuși, este util să realizăm calculele de mână pentru un exemplu simplu de date, deoarece acest
exercițiu ajută la formarea unei gândiri ordonate și la înțelegerea algoritmului de calcul.

78
Exemplul 6: Calculul estimației parametrilor funcției de regresie multiplă cu două variabile
independente26
Administratorul universității intenționează să afle în ce măsură scorul testului de performanță al secretarelor
este influențat de scorul testului de aptitudini și numărul de erori de dactilografiere, pe un eșantion de 9
secretare. Datele sunt prezentate în tabelul următor.
Considerând că ecuația (90) este un model potrivit, calculați estimațiile CMMP pentru estimatorii b̂0 , b̂1 și b̂2 .
Tabelul 13: Scorul la testul de performanță, scorul la testul de aptitudini și numărul de erori de
dactilografiere (eșantion de nouă secretare)
Numărul de erori la testul de
Scorul performanței Scorul testului de aptitudini
dactilografiere
(Y) (X1)
(X2)
8 8 2
5 5 3
3 2 0
2 1 1
6 6 4
4 4 5
7 8 8
6 7 6
8 9 7

Pe baza datelor din Tabelul 13, rezultatele sunt următoarele:


9 9
∑𝑖=1 𝑥𝑖1 2 = 340 ∑𝑛𝑖=1 𝑥𝑖1 = 50 ∑𝑖=1 𝑦 2 = 303
9
∑𝑖=1 𝑥𝑖2 2 = 204 ∑𝑛𝑖=1 𝑥21 = 36 ∑𝑛𝑖=1 𝑦 = 49
∑𝑛𝑖=1 𝑥𝑖1 𝑥𝑖2 = 245 ∑𝑛𝑖=1 𝑥𝑖1 𝑦𝑖 = 319 ∑𝑛𝑖=1 𝑥𝑖2 𝑦𝑖 = 225

Înlocuind aceste rezultate în relațiile de mai sus, obținem:


(50)2
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )2 = 340 − = 340 − 277,78 = 62,22
9
(36)2
∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )2 = 204 − = 204 − 144 = 60
9
(50)(49)
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑦𝑖 − 𝑦̅) = 319 − = 319 − 272,22 = 46,78
9
(36)(49)
∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )(𝑦𝑖 − 𝑦̅) = 225 − = 225 − 196 = 29
9
(50)(36)
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 ) = 245 − = 245 − 200 = 45
9

Acum, înlocuind aceste rezultate în ecuațiile (94), obținem:


60 ∙ 46,78 − 45 ∙ 29
𝑏̂1 = = 0,88
62,22 ∙ 60 − [45]2
62,22 ∙ 29 − 45 ∙ 46,78
𝑏̂2 = = −0,18
62,22 ∙ 60 − [45]2
49 50 36
𝑏̂0 = − 0,88 ∙ − (−0,18) ∙ = 1,28
9 9 9

26
Exemplul este preluat din (Mansfield, 1986, p. 510)
79
Rezultatele modelului de regresie obținute până în acest punct ne conduc spre următoarea concluzie:
• Valoarea estimată a parametrului 𝒃𝟏 estimată prin 𝒃 ̂𝟏 de 0,88 arată că o creștere cu un punct
la testul de aptitudini este asociată cu o creștere de 0,88 puncte a scorului de performanță în
condiții constante ale numărului de erori de dactilografiere;
• Valoarea estimată a parametrului 𝒃𝟐 estimată prin 𝒃 ̂𝟐 de -0,18 arată că o creștere a numărului
de erori la dactilografiere cu 1 este asociată cu o scădere de 0,18 puncte a scorului de
performanță în condiții constante ale scorului la testul de aptitudini.

După ce am procedat la interpretarea estimațiilor parametrilor modelului de regresie, în cele


ce urmează ne vom concentra pe evaluarea calității modelului de regresie prin intermediul
coeficientului de determinare și pe inferența statistică, mai precis pe testarea ipotezelor asupra
parametrilor estimați și calculul intervalelor de încredere ale acestora.

8.5 COEFICIENTUL DE DETERMINARE


Pentru calculul coeficientului de determinare vom porni de la relația variației explicate de
model (SSE), care poate fi rescrisă simplificat astfel:

∑(𝑦̂𝑖 − 𝑦̅)2 = ∑ 𝑦̂𝑖2 − 2 ⋅ 𝑦̅ ⋅ ∑ 𝑦̂𝑖 + 𝑛 ⋅ 𝑦̅ 2 = ∑ 𝑦̂𝑖2 − 2 ⋅ 𝑦̅ ⋅ ∑ 𝑦𝑖 + 𝑛 ⋅ 𝑦̅ 2 =

= ∑ 𝑦̂𝑖2 − 2 ⋅ 𝑛 ⋅ 𝑦̅ 2 + 𝑛 ⋅ 𝑦̅ 2 ⇒

∑(𝑦̂𝑖 − 𝑦̅)2 = ∑ 𝑦̂𝑖2 − 𝑛 ⋅ 𝑦̅ 2 (95)

Această simplificare este extrem de utilă pentru realizarea calculelor și, mai ales, pentru
demonstrarea unor relații esențiale ale modelelor de analiză a datelor.
Folosind relația (95) și în rescrierea variației ne-explicate de model (SSR), obținem:

∑(𝑦̂𝑖 − 𝑦̅)2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2 == [∑ 𝑦̂𝑖2 − 𝑛 ⋅ 𝑦̅ 2 ] + [∑ 𝑦𝑖2 − ∑ 𝑦̂𝑖2 ] =

= ∑ 𝑦𝑖2 − 𝑛 ⋅ 𝑦̅ 2 = ∑(𝑦𝑖 − 𝑦)2

Am obținut ecuația care leagă cele trei variații, anume:

∑(𝑦𝑖 − 𝑦)2 = ∑(𝑦̂𝑖 − 𝑦̅)2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2 (96)

adică 𝑆𝑆𝑇 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅.


Coeficientul de determinare este definit prin:
𝑆𝑆𝐸
𝑅2 = (97)
𝑆𝑆𝑇

Înlocuind în relația (97) rezultatele din exemplul Tabelul 13, obținem:


49 2
𝑆𝑆𝐸 = ∑ 𝑦̂𝑖2 2
− 𝑛 ⋅ 𝑦̅ += 302,79 − 9 ∙ ( ) = 36,02
9
𝑆𝑆𝑅 = ∑ 𝑦𝑖2 − ∑ 𝑦̂𝑖2 = 303 − 302,79 = 0,21
49 2
𝑆𝑆𝑇 = ∑ 𝑦𝑖2 2
− 𝑛 ⋅ 𝑦̅ = 303 − 9 ∙ ( ) = 36,22
9

80
𝑆𝑆𝐸 36,02
𝑅2 = = = 0,9945 (98)
𝑆𝑆𝑇 36,22
Modul de interpretare a coeficientului de determinare este similar cu cel prezentat în secțiunea
5.5.
Componentele de calcul al coeficientului de determinare sunt prezentate în tabelul ANOVA
al rezultatului regresiei cu MS EXCEL.
Tabelul 14: Tabelul ANOVA al regresiei realizate cu funcția Regression din MS EXCEL
ANOVA
df SS MS F Significance F
Regression 2 36.01669377 18.00834688 525.7183544 1.8268E-07
Residual 6 0.205528455 0.034254743
Total 8 36.22222222

Similar cu cele prezentate în Tabelul 11, coloana df reprezintă numărul gradelor de libertate
(degrees of freedom) asociate variației explicate (Regression), variației ne-explicate (Residual) și
variației totale (Total), iar coloana SS semnifică valoarea acestor variații (Sum of Squares).
Statistica F, calculată conform relației (71), are valoarea 525,72, cu o probabilitate mult mai
mică de pragul de semnificație 𝛼 = 0,05, motiv pentru care respingem ipoteza nulă că toți parametrii
funcției de regresie sunt zero.
În concluzie, coeficientul de determinare 𝑹𝟐 este 0,9945, ceea ce semnifică faptul că
99,45% din variația scorului performanței este explicată de modelul de regresie liniară în care
au fost incluse ca variabile independente scorul la testul de aptitudini și numărul de erori de
dactilografiere.
În aplicațiile curente, rareori se obține un coeficient de determinare atât de mare. De regulă,
o valoare bună a coeficientului de determinare este de minim 0,60.
Utilizând regresia liniară multiplă pe datele din Tabelul 13 cu ajutorul instrumentului de
analiză Regression din meniul Data Analysis din MS Excel, tabelul Summary Output are următorul
conținut:
Tabelul 15: Rezultatele produse de instrumentul de analiză Regression din MS Excel în secțiunea
Summary Output
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.997159
R Square 0.994326
Adjusted R Square 0.992435
Standard Error 0.18508
Observations 9

Coeficientul de determinare 𝑅 2 apare cu eticheta R Square și are valoarea 0,994326. Valoarea


de 0,9945 din relația (98) este cauzată de rotunjirile operate pentru simplificarea prezentării.

8.6 IPOTEZELE MODELULUI


Similar cu ipotezele formulate pentru modelul de regresie liniară simplă, în cele ce urmează
vom prezenta ipotezele modelului de regresie liniară multiplă ale parametrilor 𝑏1 și 𝑏2 .
Aceste ipoteze, ca de altfel întreaga abordare a modelării liniare, are loc în condițiile în care
supozițiile prezentate în secțiunea 6.1 sunt verificate și sunt confirmate.
81
În Exemplul 6 din secțiunea 8.4 am calculat ”de mână” valorile estimate 𝑏̂1 și 𝑏̂2 ale
parametrilor 𝑏1 și 𝑏2 . Cum modelele de regresie pot fi analizate cu ajutorul programelor de calculator
specializate, rezultatele sunt prezentate în raportul realizat de aceste programe, așa cum, spre
exemplu, le vedem în tabelul parametrilor estimați de instrumentul de analiză Regression din MS
Excel:
Tabelul 16: Rezultatele produse de instrumentul de analiză Regression din MS Excel în secțiunea
parametrilor estimați ai modelului de regresie
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 1.264715447 0.14421484 8.769662305 0.00012181 0.911834446 1.617596449
X Variable 1 0.87902439 0.034685637 25.34260497 2.48653E-07 0.794151695 0.963897086
X Variable 2 -0.175934959 0.035322124 -4.980871525 0.002499556 -0.262365082 -0.089504837

În Tabelul 16, denumirile parametrilor estimați apar în prima coloană, unde X Variable 1
desemnează variabila Scorul testului de aptitudini și X Variable 2 desemnează variabila Numărul
de erori la testul de dactilografiere. Valorile parametrilor estimați apar în coloana Coefficients,
unde valoarea 𝑏̂1 este pe linia a doua, iar valoarea 𝑏̂2 este pe linia a treia. Valoarea 𝑏̂0 , pe care nu am
mai calculat-o ”de mână”, apare pe prima linie cu denumirea Intercept, având valoarea 𝑏̂0 =
1,264715447. În calcule de foarte mare precizie, zecimalele pot fi foarte utile, însă, în exemplul de
față, sunt suficiente 2 zecimale.
În coloana a treia (Standard Error) apar valorile erorile standard ale celor trei parametri
estimați 𝑏̂0 , 𝑏̂1 și 𝑏̂2 , calculați cu ajutorul relațiilor (73) sau (74), notate cu 𝑠𝑒(𝑏̂0 ) , 𝑠𝑒(𝑏̂1 ) și 𝑠𝑒(𝑏̂2 ) .
Aceste erori standard sunt utilizate, pe de o parte, pentru testarea ipotezelor-standard și, pe de altă
parte, pentru calculul intervalelor de încredere ale parametrilor 𝑏0 , 𝑏1 și 𝑏2 .
Ipotezele-standard testate pentru cei trei parametri privesc egalitatea lor cu zero și sunt
formulate astfel, pentru fiecare parametru în parte:
a) pentru parametrul 𝒃𝟎
𝐻0 : 𝑏0 = 0
{
𝐻1 : 𝑏0 ≠ 0
Acest set de ipoteze intenționează să testeze dacă parametrul de intersecție al modelului de
regresie este sau nu zero.
Dacă ipoteza nulă aferentă acestui parametru este adevărată, înseamnă că dreapta de regresie
trece prin originea hiperplanului de regresie și arată că valoarea estimată a parametrului 𝑏0 este zero
dacă variabilele independente au valoarea zero.
În exemplul nostru, dacă ipoteza nulă este respinsă, valoarea estimată a parametrului 𝑏0 arată
care este Scorul performanței dacă Scorul testului de aptitudini și Numărul de erori la testul de
dactilografiere au valoarea zero, adică 𝑏0 = 1,26, dacă ceilalți doi parametri au valori diferite de
zero.
De cele mai multe ori, parametrul 𝑏0 nu are valențe practice de interpretare.
b) pentru parametrul 𝒃𝟏
𝐻0 : 𝑏1 = 0
{
𝐻1 : 𝑏1 ≠ 0
Acest set de ipoteze intenționează să testeze dacă parametrul variabilei X1 a modelului de
regresie este sau nu zero.
Dacă ipoteza nulă aferentă acestui parametru este adevărată, înseamnă că variabila X1 nu are
nicio influență asupra variabilei dependente Y.

82
În exemplul nostru, dacă 𝑏1 = 0, atunci Scorul testului de aptitudini nu are nicio influență
asupra Scorului performanței.
c) pentru parametrul 𝒃𝟐
𝐻0 : 𝑏2 = 0
{
𝐻1 : 𝑏2 ≠ 0
Acest set de ipoteze intenționează să testeze dacă parametrul variabilei X2 a modelului de
regresie este sau nu zero.
Dacă ipoteza nulă aferentă acestui parametru este adevărată, înseamnă că variabila X2 nu are
nicio influență asupra variabilei dependente Y.
În exemplul nostru, dacă 𝑏2 = 0, atunci Numărul de erori la testul de dactilografiere nu
are nicio influență asupra Scorului performanței.
Rezultatele testelor acestor ipoteze sunt analizate și interpretate prin intermediul statisticii t
din coloana a patra din Tabelul 16, denumită t Stat, calculată conform relației (84).
Dacă parametrul 𝒃𝟏 este zero, adică ipoteza nulă este adevărată, statistica t este calculată ca
raport dintre valoarea estimată 𝑏̂1 a parametrului 𝑏1 și eroarea standard a acesteia (𝑠𝑒(𝑏̂1 ) ):

𝑏̂1
𝑡𝑏̂1 = (99)
𝑠𝑒(𝑏̂1 )
Această statistică urmează o distribuție Student cu (n-p-1) grade de libertate. După cum se
poate vedea din formularea ipotezelor, ipoteza alternativă este un test bilateral la pragul α de
semnificație. În concluzie, pe baza valorii statisticii t, regula de decizie este următoarea:
Testul dacă 𝒃𝟏 = 𝟎
Se respinge ipoteza nulă că 𝒃𝟏 = 𝟎 dacă statistica t calculată pentru
parametrul estimat 𝒃 ̂ 𝟏 este mai mare ca statistica teoretică a distribuției
Student 𝒕𝜶/𝟐 sau este mai mică de −𝒕𝜶/𝟐. În caz contrar, se acceptă ipoteza nulă.
sau
Se respinge ipoteza nulă că 𝒃𝟏 = 𝟎 dacă probabilitatea asociată statisticii t,
calculată pentru parametrul estimat 𝒃 ̂ 𝟏 , este mai mică de pragul de
semnificație α. În caz contrar, se acceptă ipoteza nulă.

În exemplul nostru, 𝑏̂1 = 0,879 și 𝑠𝑒(𝑏̂1 ) = 0,0347, deci valoarea calculată a statisticii 𝑡𝑏̂1
𝑏̂1 0,879
este 𝑡𝑏̂1 = 𝑠𝑒 = 0,0347 = 25,3426. Din tabela statisticii t din Anexa 1 observăm că valoarea
̂ 1)
(𝑏
statisticii teoretice t pentru 9-2-1=6 grade de libertate pentru o probabilitate de 5% este 𝑡𝛼/2 =
Error! Reference source not found.. Această valoare o găsim în tabelă la intersecția rândului
corespunzător celor 6 grade de libertate și coloanei corespunzătoare probabilității unui test bilateral
de 0,050.
Deoarece 𝑡𝑏̂1 = 25,3426, care este mai mare de 𝑡𝛼/2 =
Error! Reference source not found., probabilitatea de a observa (sau de a obține) o valoare a
statisticii 𝑡𝛼/2 de 2,4469 sau mai mare de aceasta este mai mică de 0,05. Astfel, putem respinge
ipoteza nulă că parametrul 𝑏1 este zero.
Pentru formularea deciziei pe baza probabilității asociate statisticii t calculată pentru
parametrul estimat 𝑏̂1 , valoarea acesteia este indicată în coloana P-value. Deoarece valoarea calculată

83
a probabilității de respingere a ipotezei nule când aceasta este adevărată este de 2,48653*10-07, deci
mult mai mică de 0,05, putem respinge ipoteza nulă că parametrul 𝑏1 este zero.
Pentru parametrul 𝒃𝟐 procedăm la fel. Dacă 𝒃𝟐 este zero, adică ipoteza nulă este
adevărată, statistica t este calculată ca raport dintre valoarea estimată 𝑏̂2 a parametrului 𝑏2 și eroarea
standard a acesteia (𝑠𝑒(𝑏̂2 ) ):

𝑏̂2
𝑡𝑏̂2 = (100)
𝑠𝑒(𝑏̂2)
Această statistică urmează o distribuție Student cu (n-p-1) grade de libertate. După cum se
poate vedea din formularea ipotezelor, ipoteza alternativă este un test bilateral la pragul α de
semnificație. În concluzie, pe baza valorii statisticii t, regula de decizie este următoarea:
Testul dacă 𝒃𝟐 = 𝟎
Se respinge ipoteza nulă că 𝒃𝟐 = 𝟎 dacă statistica t calculată pentru
parametrul estimat 𝒃 ̂ 𝟐 este mai mare decât statistica teoretică a distribuției
Student 𝒕𝜶/𝟐 sau este mai mică decât −𝒕𝜶/𝟐. În caz contrar, se acceptă ipoteza
nulă.
sau
Se respinge ipoteza nulă că 𝒃𝟐 = 𝟎 dacă probabilitatea asociată statisticii t,
calculată pentru parametrul estimat 𝒃 ̂ 𝟐 , este mai mică de pragul de
semnificație α. În caz contrar, se acceptă ipoteza nulă.

În exemplul nostru, 𝑏̂2 = −0,1759 și 𝑠𝑒(𝑏̂2 ) = 0,0353, deci valoarea calculată a statisticii 𝑡𝑏̂2
𝑏̂2 0,1759
este 𝑡𝑏̂2 = 𝑠𝑒 = − 0,0353 = −4,9809. Din tabela statisticii t din Anexa 1 observăm că valoarea
̂ 2)
(𝑏
statisticii teoretice t pentru 9-2-1=6 grade de libertate pentru o probabilitate de 5% este 𝑡𝛼/2 =
Error! Reference source not found.. Această valoare o găsim în tabelă la intersecția rândului
corespunzător celor 6 grade de libertate și coloanei corespunzătoare probabilității unui test bilateral
cu o probabilitate de 0,050.
Deoarece 𝑡𝑏̂2 = −4,9809, care este mai mică de −𝑡𝛼/2 =
−Error! Reference source not found., probabilitatea de a observa (sau de a obține) o valoare a
statisticii 𝑡𝛼/2 de – 2,4469 sau mai mică de aceasta este mai mică de 0,05. Astfel, putem respinge
ipoteza nulă că parametrul 𝑏2 este zero.
Pentru formularea deciziei pe baza probabilității asociate statisticii t calculată pentru
parametrul estimat 𝑏̂2 , valoarea acesteia este indicată în coloana P-value pe rândul al treilea. Deoarece
valoarea calculată a probabilității de respingere a ipotezei nule când aceasta este adevărată este de
0,0025, deci mai mică de 0,05, putem respinge ipoteza nulă că parametrul 𝑏2 este zero.

8.7 CALCULUL INTERVALELOR DE ÎNCREDERE ALE PARAMETRILOR 𝒃𝟏 ȘI 𝒃𝟐


Dacă supozițiile din secțiunea 6.1 sunt adevărate, este firesc să considerăm că estimațiile
parametrilor 𝑏0 , 𝑏1 și 𝑏2 sunt statistici dintr-un eșantion, ceea ce implică faptul că sunt afectate de
erori de sondaj. Aceste erori de sondaj sunt prezentate în coloana Standard Error din Tabelul 16.
Dacă pragul de încredere este stabilit la (1-α), intervalul de încredere pentru parametrul 𝑏1
este:

84
(𝑏̂1 − 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂1 ) ; 𝑏̂1 + 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂1) ) (101)
2;𝑛−𝑝−1) 2;𝑛−𝑝−1)

unde 𝑠𝑒(𝑏̂1 ) este abaterea standard a parametrului 𝑏1 și 𝑡(𝛼⁄ ;𝑛−𝑝−1) este statistica t pentru n-p-1 grade
2
de libertate la pragul de semnificație 𝛼⁄2, iar p este numărul variabilelor explicative introduse în
model (două în exemplul nostru).
Dacă pragul de încredere este stabilit la (1-α), intervalul de încredere pentru parametrul 𝑏2
este:
(𝑏̂2 − 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂2 ) ; 𝑏̂2 + 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂2 ) ) (102)
2;𝑛−𝑝−1) 2;𝑛−𝑝−1)

unde 𝑠𝑒(𝑏̂2 ) este abaterea standard a parametrului 𝑏2 și 𝑡(𝛼⁄ ;𝑛−𝑝−1) este statistica t pentru n-p-1 grade
2
de libertate la pragul de semnificație 𝛼⁄2, iar p este numărul variabilelor explicative introduse în
model (două în exemplul nostru).
Revenind la Exemplul 6, intervalul de încredere pentru parametrul 𝑏1 este:
(0,879 − 2,4469 ∙ 0,0347; 0,879 + 2,4469 ∙ 0,0347)
În concluzie, intervalul de încredere al parametrului 𝑏1 este 0,879 ± 0,0849 sau, cu o
formulare adecvată unui raport de analiză, ea poate arăta astfel:
”Cu o probabilitate de 95%, intervalul de încredere al creșterii Scorului
performanței la creșterea cu 1 punct a Scorului la testul de aptitudini este cuprins
între 0,794 și 0,964.”
Intervalul de încredere pentru parametrul 𝑏2 este:
(−0,176 − 2,4469 ∙ 0,0353; −0,176 + 2,4469 ∙ 0,0353)
În concluzie, intervalul de încredere al parametrului 𝑏2 este −0,176 ± 0,0864 sau, cu o
formulare adecvată unui raport de analiză, ea poate arăta astfel:
”Cu o probabilitate de 95%, intervalul de încredere al scăderii Scorului
performanței la creșterea cu 1 punct a Numărului de erori de dactilografiere este
cuprins între -0,264 și -0,0895.”
Valorile limitelor intervalelor de încredere ale parametrilor funcției de regresie sunt prezentate
în coloanele Lower 96% și Upper 95% din Tabelul 16.
Exemplul 7 prezintă rezultatul integral al regresiei liniare multiple realizate cu funcția
Regression din MS EXCEL.

85
Exemplul 7: Interpretarea rezultatelor regresiei multiple realizate cu MS EXCEL
Rezultatul regresiei multiple cu funcția Regression din MS EXCEL a scorului la testul de performanță al
secretarelor în asociere cu scorul la testul de aptitudini și cu numărul de erori de dactilografiere, pe eșantionul
de 9 secretare, este prezentat în tabelul următor.
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.997158915
R Square 0.994325902
Adjusted R Square 0.992434535
Standard Error 0.185080368
Observations 9

ANOVA
df SS MS F Significance F
Regression 2 36.01669377 18.00834688 525.7183544 1.8268E-07
Residual 6 0.205528455 0.034254743
Total 8 36.22222222

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 1.264715447 0.14421484 8.769662305 0.00012181 0.911834446 1.617596449
X Variable 1 0.87902439 0.034685637 25.34260497 2.48653E-07 0.794151695 0.963897086
X Variable 2 -0.175934959 0.035322124 -4.980871525 0.002499556 -0.262365082 -0.089504837

Primul tabel Regression Statistics include valoarea coeficientului de determinare 𝑅 2 (R Square) și


numărul de observații din eșantion (Observations). În plus față de cele prezentate anterior, să menționăm că
acest tabel include și valoarea estimată a varianței erorilor (Standard Error), calculată conform relației (79)
din secțiunea 6.4, cu o valoare de 0,1851. Celelalte valori vor fi prezentate cu o altă ocazie.
Al doilea tabel ANOVA prezintă varianțele componentelor modelului de regresie care stau la baza
calculului coeficientului de determinare și statistica F necesară testului ”omnibus” al egalității tuturor
parametrilor modelului de regresie cu zero.
Al treilea tabel prezintă valorile estimate ale parametrilor funcției de regresie liniară multiplă, erorile
lor standard, statisticile distribuției Student pentru testarea ipotezelor pentru fiecare parametru de egalitate cu
zero, probabilitățile asociate testelor și valorile intervalelor de încredere ale parametrilor modelului.
Să considerăm și un exercițiu. Dacă în tabelul de mai sus ar lipsi coloanele P-value, Lower 95% și
Upper 96%, am putea formula următorul subiect:
a) Utilizați rezultatele din tabel pentru a calcula un interval de încredere de 95% pentru parametrul
𝑏1 ;
b) Utilizați rezultatele din tabel pentru a testa ipoteza că parametrul 𝑏2 este zero cu un test bilateral
la pragul de semnificație de 0,05.
SOLUȚIE:
a) Pragul de încredere este stabilit la (1-0,05), iar intervalul de încredere pentru parametrul 𝑏1 este:
𝑏̂1 − 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂1 ) ; 𝑏̂1 + 𝑡(𝛼⁄ ∙ 𝑠𝑒(𝑏̂1 )
2;𝑛−𝑝−1) 2;𝑛−𝑝−1)

Întrucât 𝑠𝑒(𝑏̂1 ) = 0,0347 și 𝑡(𝛼⁄ = 2,447, intervalul de încredere al parametrului 𝑏1 este


2;𝑛−𝑝−1)
0,879 ± 0,0849.
Cu o probabilitate de 95%, intervalul de încredere al creșterii Scorului performanței la creșterea cu 1
punct a Scorului la testul de aptitudini este cuprins între 0,794 și 0,964.

86
b) Valoarea estimată a parametrului 𝑏2 este 𝑏̂2 = −0,1759 și 𝑠𝑒(𝑏̂2 ) = 0,0353, deci valoarea
𝑏̂2 0,1759
calculată a statisticii 𝑡𝑏̂2 este 𝑡𝑏̂2 = 𝑠𝑒 = − 0,0353 = −4,9809. Din tabela statisticii t din Anexa
̂ 2)
(𝑏
1 observăm că valoarea statisticii teoretice t pentru 9-2-1=6 grade de libertate pentru o
probabilitate de 5% este 𝑡𝛼/2 = Error! Reference source not found. 7. Deoarece 𝑡𝑏̂2 =
−4,9809 este mai mică de −𝑡𝛼/2 = −Error! Reference source not found. 7, putem respinge
ipoteza nulă că parametrul 𝑏2 este zero.

87
9. BAZELE ANALIZEI DATELOR CATEGORIALE: ANALIZA VARIANȚEI
(ANOVA) CU UN FACTOR
În capitolele precedente am trecut în revistă metode de analiză a relației dintre variabile
numerice continue, mai precis dinte o variabilă dependentă și una sau mai multe variabile
independente. De multe ori, însă, suntem interesați să analizăm modul în care un fenomen măsurat
cu ajutorul unei variabile numerice continue este influențat de modul de manifestare a unor condiții
ale fenomenului respectiv, mod de manifestare măsurat prin intermediul unei variabile calitative
nominale sau categoriale. Astfel de analize pot fi realizate cu ajutorul analizei varianței cu unul sau
mai mulți factori.
Analiza varianței cu un factor27 - sau ANOVA cu un factor – este utilizată în experimentele
statistice în care un eșantion de persoane sau alte unități experimentale este împărțit în grupuri expuse
fiecare unui tratament diferit, alocând aleatoriu tratamentele fiecărui grup. Același model poate fi
utilizat și în studiile observaționale în care analistul nu are posibilitatea realizării unui experiment,
fiind pus în situația de a utiliza datele dintr-un studiu pe un eșantion de entități asupra cărora nu poate
interveni în administrarea unor tratamente. În acest din urmă caz, analistul trebuie să își proiecteze
studiul cu atenție pe un eșantion reprezentativ, pentru a identifica acele variabile care pot desemna
grupe diferite de comportament, după care să colecteze valorile variabilei de răspuns corespunzătoare
grupelor identificate.
În oricare din situațiile de mai sus, obiectivul ANOVA cu un factor este de a identifica
diferențe între mediile valorile variabilei de răspuns pentru a evidenția efectul tratamentelor sau al
criteriilor de separare în grupele de comportament. În ANOVA cu un factor, variabila de răspuns
este numerică continuă, în timp ce variabila independentă (sau tratament) este calitativă
nominală sau ordinală – deși ordinea nu este relevantă – cu două sau mai multe valori (sau niveluri).
Variabila independentă poate fi și numerică, însă ea trebuie să aibă un număr discret de valori pentru
ca analiza să fie pertinentă.
ANOVA cu un factor presupune că pentru o variabilă tratament cu două sau mai multe niveluri
observăm repetat mai multe valori ale variabilei dependente (de răspuns). Observarea repetată poate
fi imaginată, spre exemplu, ca răspunsul unor pacienți la administrarea a două sau mai multe
combinații chimice ale unui medicament (tratament). Fiecare ”tratament” este administrat unui
eșantion aleatoriu de pacienți, alocarea tratamentului fiecărui pacient fiind, de asemenea aleatorie,
după care se înregistrează ”răspunsul” la ”tratament”. Răspunsurile la un anumit tratament sunt
observări repetate ale respectivului tratament. Numărul de răspunsuri la fiecare tratament poate fi
diferit de la un tratament la altul, însă în cele ce urmează vom descrie cazul – mai simplu – al unui
număr egal de răspunsuri pentru fiecare tratament.
Modelul matematic care descrie relația dintre variabila de răspuns și tratament în ANOVA cu
un factor este dat de:
𝑦𝑖𝑗 = 𝜇𝑗 + 𝑢𝑖𝑗 (103)
unde
• 𝑦𝑖𝑗 este valoarea variabilei pentru observația i corespunzătoare tratamentului j;
• 𝜇𝑗 este media adevărată a răspunsurilor la tratamentul j, pe care nu o cunoaștem exact;
• 𝑢𝑖𝑗 este eroarea aleatorie prezentă în observația i la tratamentul j.
Supozițiile modelului sunt că erorile 𝑢𝑖𝑗 sunt normal distribuite și independente, cu medie
zero și varianță egală cu o mărime 𝜎 2 .

27
Denumirea echivalentă din engleză este One-way ANOVA. ANOVA este prescurtarea de la ANalysis Of VAriance.
88
Spre exemplu, ne propunem să investigăm diferențele de productivitate între trei
echipamente28, încercând să răspundem la întrebarea dacă aceste diferențe sunt aleatorii sau sunt
influențate de un factor sistematic. Diferențele inerente sunt determinate de o serie de factori, dintre
care unul dintre cele mai importante este acela că fiecare echipament este operat de un lucrător. Dacă
fluctuațiile sunt aleatoare, acestea tind să se compenseze, însă dacă lucrătorii operează echipamentele
diferit, acestea nu se mai compensează.
Pentru a analiza diferențele, producția fiecărui echipament este înregistrată în cinci intervale
de câte o oră, perioadele fiind repartizate în decursul unei zile, dar producția fiecărui echipament este
înregistrată în același interval orar stabilit aleatoriu. Astfel, pentru fiecare din cele trei echipamente
vom înregistra câte un eșantion de cinci intervale orare, în fiecare interval consemnând producția
obținută.
Datele sunt prezentate în Tabelul 17, în care valorile producției din fiecare oră i sunt
înregistrate pentru fiecare echipament j. Diferențele din ultimele două rânduri vor fi abordate în
secțiunile care urmează.
Tabelul 17: Eșantioanele producției a trei echipamente
Echipament 1 Echipament 2 Echipament 3 Total
i/j j=1 j=2 j=3
i=1 47 55 54
i=2 53 54 50
i=3 49 58 51
i=4 50 61 51
i=5 46 52 49
∑𝑛𝑖=1 𝑦𝑖𝑗 = 𝑦.𝑗 245 280 255 780
∑𝑛𝑖=1 𝑦𝑖𝑗
2
12035 15730 13019 40784
2
(𝑦.𝑗 ) /𝑛 12005 15680 13005 40690
2
∑𝑛𝑖=1(𝑦𝑖𝑗 − 𝑦̅𝑗 ) 30 50 14 94
𝑦̅𝑗 − 𝑦̅ -3 4 -1
2
(𝑦̅𝑗 − 𝑦̅) 9 16 1
𝑦̅𝑗 𝑦̅1 = 49 𝑦̅2 = 56 𝑦̅3 = 51 𝑦̅ = 52
Observați că numărul de observații pentru fiecare echipament este același: 𝑛𝑗 = 𝑛 = 5, iar
numărul tratamentelor, notate cu t, este t=3.
Pentru a evidenția un posibil efect al echipamentului asupra producției orare, cel mai la
îndemână este să aplicăm metoda adunării dispersiilor prezentată în secțiunea 4.4, cu o serie de mici
ajustări pentru simplificarea calculelor și înțelegerea metodei ANOVA cu un factor.
Astfel, vom calcula variația totală a producției orare (răspunsul), variația producției orare între
echipamente (variația INTER) și variația producției orare a fiecărui echipament (variația INTRA).
Mediile producțiilor orare ale fiecărui echipament și variațiile vor fi utilizate pentru calcularea
coeficientului de determinare, dar și pentru calcularea statisticilor de test necesare verificării ipotezei
egalității mediilor producțiilor orare ale celor trei echipamente.

28
Exemplul este preluat din (Wonnacott T. H, Wonnacot R. J., 1991, p. 370)
89
Procedăm la calculul variațiilor și nu a varianțelor29 deoarece variațiile sau, cu alte cuvinte,
suma pătratelor totală, inter și intra-grup, sunt calculate și raportate de toate programele de calculator
care realizează ANOVA cu un factor.

9.1 VARIAȚIA TOTALĂ


Variația totală înseamnă să calculăm pătratul diferențelor dintre fiecare producție orară și
media generală a producției orare. Pentru aceasta, în Tabelul 17 vom include calculul mărimilor
necesare obținerii variațiilor.
Variația totală este dată de relația
𝑛 𝑡 2
𝑆𝑆𝑇 = ∑ ∑ (𝑦𝑖𝑗 − 𝑦̅) (104)
𝑖=1 𝑗=1

unde 𝑦̅ este media generală a producției orare.


Media generală este calculată pornind de la media producției fiecărui echipament, pe care o
notăm cu 𝑦̅𝑗 , care este dată de relația
∑𝑛𝑖=1 𝑦𝑖𝑗
𝑦̅𝑗 = (105)
𝑛
iar media generală este dată de relația
∑𝑛𝑖=1 𝑦𝑖𝑗
∑𝑡𝑗=1 𝑦̅𝑗 ∑𝑡𝑗=1
∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 (106)
𝑦̅ = = 𝑛 =
𝑡 𝑡 𝑛∙𝑡
Revenind la relația (104), să o dezvoltăm algebric și să o simplificăm pentru facilitarea
calculelor de exemplificare.
𝑛 𝑡 2 𝑛 𝑡
2
∑ ∑ (𝑦𝑖𝑗 − 𝑦̅) = ∑ ∑ (𝑦𝑖𝑗 − 2 ∙ 𝑦𝑖𝑗 ∙ 𝑦̅ + 𝑦̅ 2 )
𝑖=1 𝑗=1 𝑖=1 𝑗=1
2
𝑛 𝑡
2
∑𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗
𝑛
∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗
=∑ ∑ [𝑦𝑖𝑗 − 2 ∙ 𝑦𝑖𝑗 ∙ +( ) ]
𝑖=1 𝑗=1 𝑛∙𝑡 𝑛∙𝑡
𝑛 𝑡
2
𝑛 𝑡 ∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗
=∑ ∑ 𝑦𝑖𝑗 −2∙∑ ∑ 𝑦𝑖𝑗 ∙
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑛∙𝑡
2
𝑛 𝑡 ∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗
+∑ ∑ ) ( (107)
𝑖=1 𝑛∙𝑡 𝑗=1
2
𝑛 𝑡
2
∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 𝑛 𝑡 ∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗
= ∑ ∑ 𝑦𝑖𝑗 − 2 ∙ ∙ ∑ ∑ 𝑦𝑖𝑗 + 𝑛 ∙ 𝑡 ∙ ( )
𝑖=1 𝑗=1 𝑛∙𝑡 𝑖=1 𝑗=1 𝑛∙𝑡
2 2
𝑛 𝑡
2
(∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 ) ∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗
=∑ ∑ 𝑦𝑖𝑗 −2∙ +𝑛∙𝑡∙( )
𝑖=1 𝑗=1 𝑛∙𝑡 𝑛∙𝑡
2
𝑛 𝑡
2
(∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 )
=∑ ∑ 𝑦𝑖𝑗 −
𝑖=1 𝑗=1 𝑛∙𝑡
Așadar, variația totală este egală cu suma pătratelor valorilor observate din care scădem
pătratul sumei valorilor împărțită la numărul total de observații.
Pe baza datelor din Tabelul 17, variația totală este

29
Varianța este calculată ca raport între variație și numărul gradelor de libertate.
90
2
2
(∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 )
𝑛 𝑡 (780)2
𝑆𝑆𝑇 = ∑ ∑ 𝑦𝑖𝑗 − = 40784 − = 224 (108)
𝑖=1 𝑗=1 𝑛∙𝑡 5∙3

9.2 VARIAȚIA INTER-GRUPE


Din Tabelul 17 observăm că există diferențe între mediile orare ale producției, dar ”cât” de
mari sunt ele? Dacă am proceda la realizarea unui studiu în care observăm producția din cinci
intervale orare în trei zile diferite pentru același echipament, am dispune de trei eșantioane a câte 5
producții orare. Este de așteptat ca mediile orare zilnice să fie destul de apropiate, fiind prelevate
pentru același echipament. Această presupunere derivă, în cele din urmă, din teorema limită centrală,
care ne spune că, dacă am repeta observațiile de un număr foarte mare de ori, media mediilor orare
zilnice va fi egală cu adevărata medie orară. Astfel, revenim la întrebarea ”Cât de diferite sunt mediile
orare ale producției celor trei echipamente?”.
Pentru a răspunde la această întrebare, să calculăm variația inter-grupe pe baza următoarei
relații (observați că pătratul diferențelor este calculat pentru toate observațiile eșantioanelor):
𝑛 𝑡 2 𝑛 𝑡
∑ ∑ (𝑦̅𝑗 − 𝑦̅ ) = ∑ ∑ (𝑦̅𝑗2 − 2 ∙ 𝑦̅𝑗 ∙ 𝑦̅ + 𝑦̅ 2 )
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑡 2
𝑛 𝑡 ∑𝑗=1 𝑦̅𝑗 ∑𝑡𝑗=1 𝑦̅𝑗
=∑ ∑ [𝑦̅𝑗2 − 2 ∙ 𝑦̅𝑗 ∙ +( ) ]
𝑖=1 𝑗=1 𝑡 𝑡
2
𝑛 𝑡 𝑛 𝑡 ∑𝑡𝑗=1 𝑦̅𝑗 𝑛 𝑡 ∑𝑡𝑗=1 𝑦̅𝑗
=∑ ∑ 𝑦̅𝑗2 −2∙∑ ∑ 𝑦̅𝑗 ∙ +∑ ∑ ( )
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑡 𝑖=1 𝑗=1 𝑡
2
𝑛 𝑡 ∑𝑡𝑗=1 𝑦̅𝑗 𝑛 𝑡 ∑𝑡𝑗=1 𝑦̅𝑗
=∑ ∑ 𝑦̅𝑗2 −2∙ ∙∑ ∑ 𝑦̅𝑗 + 𝑛 ∙ 𝑡 ∙ ( ) (109)
𝑖=1 𝑗=1 𝑡 𝑖=1 𝑗=1 𝑡
2
𝑛 𝑡 ∑𝑡𝑗=1 𝑦̅𝑗 𝑡 ∑𝑡𝑗=1 𝑦̅𝑗
=∑ ∑ 𝑦̅𝑗2 −2∙ ∙𝑛∙∑ 𝑦̅𝑗 + 𝑛 ∙ 𝑡 ∙ ( )
𝑖=1 𝑗=1 𝑡 𝑗=1 𝑡
2 2
𝑛
2
𝑛 𝑡 𝑡 𝑡 𝑦.𝑗 2 (∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 )
= ∑ ∑ 𝑦̅𝑗 − ∙ (∑ 𝑦̅𝑗 ) = 𝑛 ∙ ∑ ( ) −
𝑖=1 𝑗=1 𝑡 𝑗=1 𝑗=1 𝑛 𝑛∙𝑡
2 2
∑𝑡𝑗=1(𝑦.𝑗 ) (∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 )
= −
𝑛 𝑛∙𝑡
Pe baza datelor din Tabelul 17, variația inter-grupe este
2 2
∑𝑡𝑗=1(𝑦.𝑗 ) (∑𝑛𝑖=1 ∑𝑡𝑗=1 𝑦𝑖𝑗 ) (780)2
𝑆𝑆𝐸 = − = 40690 − = 130 (110)
𝑛 𝑛∙𝑡 5∙3

91
9.3 VARIAȚIA INTRA-GRUP
Pentru calculul variației intra-grup, plecăm de la evaluarea sumelor pătratelor ecarturilor din
fiecare grup, adică pentru fiecare echipament, cu datele din Tabelul 17.
𝑛 𝑡 2 𝑛 𝑡
2
∑ ∑ (𝑦𝑖𝑗 − 𝑦̅𝑗 ) = ∑ ∑ (𝑦𝑖𝑗 − 2 ∙ 𝑦𝑖𝑗 ∙ 𝑦̅𝑗 + 𝑦̅ 2 )
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑛 𝑡
2
=∑ ∑ [𝑦𝑖𝑗 − 2 ∙ 𝑦𝑖𝑗 ∙ 𝑦̅𝑗 + 𝑦̅𝑗2 ]
𝑖=1 𝑗=1
𝑛 𝑡 𝑛 𝑡 𝑛 𝑡
2
=∑ ∑ 𝑦𝑖𝑗 −2∙∑ ∑ 𝑦𝑖𝑗 ∙ 𝑦̅𝑗 + ∑ ∑ 𝑦̅𝑗2
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑡 𝑛 𝑡 𝑛 𝑡 𝑛
2
=∑ ∑ 𝑦𝑖𝑗 −2∙∑ 𝑦̅𝑗 ∙ ∑ 𝑦𝑖𝑗 + ∑ ∑ 𝑦̅𝑗2
𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1
𝑡 𝑛 𝑡 𝑡 (111)
2
=∑ ∑ 𝑦𝑖𝑗 −2∙𝑛∙∑ 𝑦̅𝑗 ∙ 𝑦̅𝑗 + 𝑛 ∙ ∑ 𝑦̅𝑗2
𝑗=1 𝑖=1 𝑗=1 𝑗=1
𝑡 𝑛 𝑡 𝑡
2
=∑ ∑ 𝑦𝑖𝑗 −2∙𝑛∙∑ 𝑦̅𝑗2 + 𝑛 ∙ ∑ 𝑦̅𝑗2
𝑗=1 𝑖=1 𝑗=1 𝑗=1
𝑡 𝑛
2
𝑡 𝑡 𝑛 𝑡 𝑦.𝑗 2
=∑ ∑ 𝑦𝑖𝑗 −𝑛∙∑ 𝑦̅𝑗2 = ∑ ∑ 2
𝑦𝑖𝑗 −𝑛∙∑ ( )
𝑗=1 𝑖=1 𝑗=1 𝑗=1 𝑖=1 𝑗=1 𝑛
2
𝑡 𝑛 (𝑦.𝑗 )
2
=∑ (∑ 𝑦𝑖𝑗 − )
𝑗=1 𝑖=1 𝑛
Pe baza datelor din Tabelul 17, variația intra-grup este
2
(𝑦.𝑗 ) 𝑡 𝑛
2
𝑆𝑆𝑅 = ∑ (∑ − ) 𝑦𝑖𝑗
𝑗=1 𝑖=1 𝑛
(112)
(245)2 (280)2 (255)2
= (12035 − ) + (15730 − ) + (13019 − ) = 94
5 5 5
Pe baza relațiilor (115), (110) și (112), constatăm că regula adunării variațiilor este verificată:
𝑆𝑆𝑇 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅 = 130 + 94 = 224 (113)
Varianțele sau mediile pătratice (Mean Square) INTER și INTRA sunt obținute prin
împărțirea variațiilor INTER și INTRA la numărul corespunzător de grade de libertate: t-1 pentru
media pătratică INTER și t*(n-1) pentru media pătratică INTRA.
Varianța estimată a mediilor de grupă față de media generală (varianța INTER) este:
𝑆𝑆𝐸 130
= 𝜎̂𝑋2̅ =
= 65 (114)
𝑡−1 2
Observăm, din nou, că numitorul nu este de ordinul numărului de eșantioane analizate (3 în
exemplul nostru), ci este corectat cu 1. Numitorul reflectă numărul de grade de libertate ale variației
de la numărător, care este restricționat de media generală. El ne arată că, dintre cele trei medii de
grupă, două dintre ele pot lua teoretic orice valoare, dar valoarea celei de a treia medii va fi
întotdeauna restricționată de media generală, motiv pentru numărul de grade de libertate este
diminuată (corectată) cu 1.
Varianța estimată din interiorul grupelor (varianța INTRA) este:
𝑆𝑆𝑅 94 94
𝜎̂𝑅2 = = = = 7,83 (115)
𝑡 ∙ (𝑛 − 1) 3 ∙ (5 − 1) 12

92
9.4 FORMULAREA IPOTEZELOR, CALCULUL STATISTICII F ȘI DECIZIA ASUPRA
IPOTEZEI NULE
Să ne reamintim că întrebarea noastră este ”Cât de diferite sunt mediile orare ale producției
celor trei echipamente?” Pentru a răspunde la această întrebare, începem prin formularea ipotezei
nule a lipsei diferenței între cele trei medii adevărate, pe care le vom nota cu 𝝁𝟏 , 𝝁𝟐 și 𝝁𝟑 30. Astfel,
setul nostru de ipoteze este:
𝐻 : 𝜇 = 𝜇2 = 𝜇3
{ 0 1 (116)
𝐻1 : 𝜇1 ≠ 𝜇2 𝑠𝑎𝑢 𝜇1 ≠ 𝜇3 𝑠𝑎𝑢 𝜇2 ≠ 𝜇3
Testarea acestei ipoteze presupune, din nou, calcularea unei statistici de test care implică
folosirea varianței inter-grupe și a varianței intra-grup.
Ca și în exemplul regulii adunării dispersiilor din secțiunea 4.4, ne punem problema raportului
dintre varianța inter-grup și varianța intra-grup, adică între 𝜎̂𝑋2̅ și 𝜎̂𝑅2 . Acest raport este numit statistica
F și este dat de relația:
𝜎̂𝑋2̅
𝐹𝑐 = (117)
𝜎̂𝑅2
Cum varianța intra-grup nu poate fi niciodată zero, dacă ipoteza nulă este adevărată și
numărătorul este egal cu numitorul, atunci statistica F ia valoarea 1.
Dacă valoarea statisticii F este mai mică de 1, înseamnă că varianța inter-grupe este inferioară
varianței intra-grup, ceea ce echivalează cu dovada unei slabe diferențieri între grupe, în timp ce
valori depărtate de 1 indică o diferențiere mai mare dată de tratament. Cu alte cuvinte, cu cât statistica
F este mai mare de 1, cu atât avem motive să respingem ipoteza nulă.
Statistica F urmează o distribuție F cu un anumit număr de grade de libertate aferente
numărătorului și numitorului acesteia, iar această distribuție de apropie de forma distribuției normale
pe măsură ce numărul de grade de libertate crește.
Introducem în relația (117) rezultatele calculate până acum și obținem:
65
𝐹𝑐 = = 8,3
7,83
Numărul gradelor de libertate pentru numărător este 𝑡 − 1 = 3 − 1 = 2, iar numărul gradelor
de libertate pentru numitor este 𝑡 ∙ (𝑛 − 1) = 3 ∙ (5 − 1) = 12.
Această statistică F calculată este comparată cu statistica teoretică F corespunzător numărului
de grade de libertate ale numărătorului, egal cu t-1 și numărului de grade de libertate ale numitorului,
egal cu t*(n-1). Statistica F teoretică este citită din tabele ale distribuției F, cum este cea din Anexa
2, într-un mod similar cu cel practicat în cazul distribuției Student.
În Anexa 2 căutăm valoarea critică a statisticii F în coloana a 2-a corespunzătoare numărului
de 2 grade de libertate de la numărător și pe rândurile corespunzătoare celor 12 grade de libertate de
la numitor. Parcurgând seria de valori critice de sus în jos, reperăm cea mai mare valoare care este
mai mică de valoarea statisticii F de 8,3, adică statistica F0,01=6,93, ceea ce ne conduce la concluzia
că probabilitatea critică de a observa o valoare a statisticii F mai mare de cea calculată sub ipoteza
nulă H0 (sau dacă ipoteza nulă H0 este adevărată) este mai mică de 0,01 sau de 1%.

30
Și în acest model formulăm o serie de supoziții fundamentale, precum distribuția normală a valorilor din cele trei
eșantioane, cu o varianță identică 𝜎 2 . Rezultatele modelului ANOVA cu un singur factor sunt aproximativ valabile și
atunci când aceste două supoziții nu sunt confirmate (populație non-normală, varianțe diferite), în condițiile în care
mărimea eșantioanelor este aceeași, motiv pentru care se spune că modelul ANOVA este robust. (Wonnacott T. H,
Wonnacot R. J., 1991, p. 371)
93
Conform regulilor de decizie enunțate și în secțiunile anterioare, deoarece probabilitatea
critică de 1% este inferioară pragului de semnificație de 5%, respingem ipoteza nulă H0 și
concluzionăm că producțiile celor trei echipamente din Tabelul 17 sunt diferite (v. Figura 13).
La aceeași concluzie ajungem dacă comparăm valoarea calculată a statisticii F cu cea teoretică
(sau critică). Întrucât 𝐹𝑐 > 𝐹0,01 , respingem ipoteza nulă a egalității mediilor producției celor trei
echipamente.
În Figura 13 este prezentată funcția de probabilitate F pentru 2 și 12 grade de libertate. Pe axa
orizontală au fost marcate valorile statisticii 𝐹0,01 = 6,93, care delimitează aria de respingere de 1%,
și a statisticii 𝐹𝑐 = 8,3.

Figura 13: Probabilitatea critică identificată cu ajutorul statisticii F din Anexa 2

9.5 REALIZAREA UNEI ANALIZE ANOVA CU UN FACTOR ÎN SAS®


Analiza în SAS® a datelor din Tabelul 17 cu un model ANOVA cu un factor poate fi realizată
cu procedura PROC ANOVA, a cărei sintaxă generală în varianta sa cea mai simplă este
PROC ANOVA DATA=set-date-SAS;
CLASS variabile-clasificare;
MODEL variabile-dependente=variabile-independente;
RUN;

unde
set-date-SAS: Specifică denumirea setului de date SAS utilizat de procedura ANOVA.
Implicit, PROC ANOVA utilizează setul de date SAS cel mai recent creat.
variabile-clasificare: Specifică denumirea variabilelor de clasificare utilizate în model, pe care
se realizează analize separate. Variabilele de clasificare pot fi numerice sau
de tip text, fiind variabile calitative nominale. Dacă se utilizează
instrucțiunea CLASS, ea trebuie să apară înaintea instrucțiunii MODEL.
Implicit, nivelurile de clasificare sunt create din întregul set de valori
formatate ale variabilelor din instrucțiunea CLASS.
variabile-dependente: Specifică în instrucțiunea MODEL denumirea variabilelor dependente (de
răspuns). Variabilele dependente sunt variabile numerice continue.
variabile-independente: Specifică în instrucțiunea MODEL denumirea variabilelor independente
(de tratament sau de efect). Interacțiunea dintre variabilele de efect este
descrisă în documentația SAS în secțiunea Specification of Effects. Toate

94
variabilele independente din instrucțiunea MODEL trebuie să apară și în
instrucțiunea CLASS.
Procedura PROC ANOVA cere ca datele furnizate pentru analiză să fie structurate ca un set-
de-date larg, în sensul că fiecare observație a producției orare pentru fiecare echipament să fie
introdusă în fișierul de date pe câte un rând. Astfel, producția va fi inclusă ca o variabilă (coloană).
Pentru ca fiecare valoare a producției să fie atribuibilă unui echipament, echipamentele de la care a
fost observată fiecare valoare a producției vor fi incluse într-o a doua variabilă. În acest fel, setul de
date va conține 15 observații și 2 variabile. Variabila dependentă este denumită ”Productie” 31, iar
variabila de independentă ”Echipament”, ale cărei valori vor fi 1, 2 și 3. Structura setului de date este
prezentată în tabelul următor32:
Tabelul 18: Structura setului de date pentru PROC ANOVA
Productie Echipament
47 1
53 1
49 1
50 1
46 1
55 2
54 2
58 2
61 2
52 2
54 3
50 3
51 3
51 3
49 3
Setul de date SAS creat pentru analiză se numește tabel_17_ANOVA_un_factor.sas7bdat și
este încărcat pe platforma SAS OnDemand for Academics a cursului.
Codul programului care realizează analiza cu modelul ANOVA cu un factor este următorul:
ods graphics on;
PROC ANOVA DATA=TABEL_17_ANOVA_UN_FACTOR;
CLASS Echipament;
MODEL productie=echipament;
run;
ods graphics off;

Opțiunea ODS GRAPHICS ON; utilizează componenta SAS ODS Graphics pentru a produce
grafice ca parte a rezultatelor procedurilor utilizate. În cazul PROC ANOVA, când ODS Graphics
este activat și se solicită un model de analiză a varianței cu un factor cu o singură variabilă
independentă de clasificare, este produs un grafic box-and-whiskers (”cutie cu mustăți”) al variabilei
dependente pentru fiecare nivel al variabilei de clasificare.
Rezultatele PROC ANOVA sunt prezentate cu adnotări în continuare.

31
Versiunile curente de SAS nu acceptă diacriticele din limba română.
32
În MS Excel datele trebuie structurate pe trei coloane distincte, pentru fiecare echipament.
95
Class Level Information
Class Levels Values
Echipament 3 123

Number of Observations Read 15


Number of Observations Used 15
Tabelul Class Level Information
a. Class – Listează variabilele categoriale (factori), care au fost indicate în instrucțiunea CLASS.
Dacă variabilele categoriale nu sunt indicate în instrucțiunea CLASS și sunt introduse numai în
instrucțiunea MODEL, procedura le tratează ca variabile continue, ceea ce nu este indicat.
b. Levels – Listează numărul nivelurilor variabilelor categoriale definite în instrucțiunea CLASS.
c. Values – Listează valorile nivelurilor variabilelor categoriale definite în instrucțiunea CLASS.
d. Number of Observations Read și Number of Observations Used – Indică numărul
observațiilor citite și utilizate în analiză. Numărul observațiilor utilizate poate fi mai mic decât
cel al observațiilor citite dacă există valori lipsă ale oricăror variabile incluse în analiză.
Observațiile cu valori lipsă nu sunt incluse în analiză.
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 2 130.0000000 65.0000000 8.30 0.0055
Error 12 94.0000000 7.8333333
Corrected Total 14 224.0000000

R-Square Coeff Var Root MSE Productie Mean


0.580357 5.382326 2.798809 52.00000

Source DF Anova SS Mean Square F Value Pr > F


Echipament 2 130.0000000 65.0000000 8.30 0.0055
e. Source – În coloana Source sunt listate sursele de variație ale variabilei dependente, formată din
variația determinată de Model (notată în relația (110) cu SSE), variația reziduală (notată în relația
(112) cu SSR) și totală (Corrected Total, notată în relația (108) cu SST). Componentele SSE și
SSR, însumate, sunt egale cu SST.
Termenul “Corrected Total” (total corectat) are această denumire în comparație cu “Total” sau,
mai corect, “Uncorrected Total” (total necorectat) deoarece “Corrected Total” suma pătratelor
este ajustată pentru a încorpora informație despre media variabilei de răspuns. Corrected Total
este suma pătratelor dintre valorile variabilei de răspuns și media acestora, în timp ce Uncorrected
Total este suma pătratelor valorilor variabilei de răspuns, conținând în acest fel și termenul de
eroare.
f. DF – Indică numărul de grade de libertate asociate cu fiecare din sursele de variație (degrees of
freedom). Așa cum sumele pătratelor au proprietate aditivă, gradele de libertate sunt și ele aditive,
adică DFModel + DFError = DFCorrected Total. DFCorrected Total are n-1 grade de libertate, unde n este
numărul total de observații pentru toate tratamentele, DFModel are t-1 grade de libertate, unde t este
numărul nivelurilor de tratament, iar DFError are t*(nt-1) de libertate, unde nt este numărul de

96
observații ale unui nivel al tratamentului (rețineți că suntem în situația în care aplicăm un singur
tratament cu trei niveluri, iar numărul de observații al nivelurilor este egal). În exemplul nostru,
DFModel = 3-1 = 2, DFError = 3*(5-1) = 3*4 = 12, iar DFCorrected Total = t*nt-1 = n – 1 = 15 – 1 = 14.
DFModel și DFError definesc numărătorul și numitorul valorii statisticii F din distribuția F utilizată
în testarea ipotezelor modelului.
g. Sum of Squares – Sunt sumele pătratelor care corespund celor trei surse de variație, al căror mod
de calcul și valori sunt prezentate în relațiile (110), (112) și (108).
h. Mean Square – Sunt pătratele medii (Mean Squares (MS)) care corespund componentelor de
varianță ale modelului. Ele rezultă din împărțirea sumelor pătratelor la numărul corespunzător de
grade de libertate, corespunzător relațiilor (114) și (115).
i. F Value și Pr > F – Sunt valorile statisticii F, calculată conform relației (117), și ale probabilității
asociate statisticii F, cu ajutorul cărora testăm ipoteza nulă că modelul (nivelurile tratamentelor)
nu explică varianța variabilei de răspuns (mediile în nivelurile de tratament sunt egale). Valoarea
statisticii F este calculată ca raport între MSModel și MSError și, în condițiile ipotezei nule, valoarea
F urmează o distribuție F cu DFModel grade de libertate la numărător și DFError grade de libertate
la numărător. Probabilitatea de a observa o valoare F la fel de mare sau mai mare ca 8,3 este
< 0.0055. Dacă fixăm nivelul de semnificație α al testului nostru, adică nivelul la care acceptăm
Eroarea de Tip I, respingem ipoteza nulă și concluzionăm că modelul nostru explică o parte
semnificativă a varianței variabilei de răspuns, adică există o diferență semnificativă între mediile
producției celor trei echipamente, deși nu putem spune care dintre ele este mai importantă.
j. R-Square – Este coeficientul de determinare R2 al modelului. R2 indică proporția varianței totale
explicate de model și este calculat ca R2 = SSModel/SSCorrected Total = 130/224=0.580357.
k. Coeff Var – Este coeficientul de variație (CV), definit ca raport procentual între Root MSE și
Productie Mean (media variabilei de răspuns denumite Productie (v. Tabelul 18).
CV = 100*2,798809/52,000000 = 5,382326. CV, care este o măsură statistică adimensională,
are o valoare redusă și indică o variație redusă a variabilei de răspuns. De asemenea, CV permite
comparații cu variația din alte eșantioane ale aceleiași populații statistice.
l. Root MSE – Este eroarea medie pătratică, adică abaterea standard a erorilor, calculată ca rădăcină
pătrată a varianței erorilor (MSError) și arată deviația valorilor observate ale variabilei de răspuns
de la valorile estimate ale acesteia prin modelul de analiză.
m. Productie Mean – Este media generală a variabilei de răspuns pe care am denumit-o Productie.
n. Source – Indică variabilele explicative ale modelului, în exemplul nostru fiind una singură pe
care am denumit-o Echipament. Dacă am fi introdus și alte variabile, ele ar fi apărut în acest
tabel, alături de interacțiunile dintre ele.
o. DF – Reprezintă numărul gradelor de libertate asociate acestei variabile explicative, valoarea fiind
aceeași cu DFModel, deoarece avem o singură variabilă explicativă. DF al variabilei explicative
împreună cu DFError definesc numărătorul și numitorul valorii statisticii F din distribuția F
utilizată în testarea ipotezelor modelului (v. litera r).
p. Anova SS – Este suma pătratelor modelului, egală cu SSModel deoarece avem o singură variabilă
explicativă.
q. Mean Square – Este media pătratelor pentru variabila explicativă a modelului, calculată ca
Anova SS/DF. Împreună cu MSError sunt utilizate pentru calcularea statisticii F (v. litera r).
r. F Value și Pr > F – Sunt valorile statisticii F, calculată conform relației (117), și ale probabilității
asociate statisticii F, cu ajutorul cărora testăm ipoteza nulă că modelul (nivelurile tratamentelor)
nu explică o parte semnificativă a varianței variabilei de răspuns (mediile în nivelurile de
tratament sunt egale). Valoarea statisticii F este calculată ca raport între MSSource Echipament și
MSError și, în condițiile ipotezei nule, valoarea F urmează o distribuție F cu DFSource Echipament grade

97
de libertate la numărător și DFError grade de libertate la numărător, unde Source Echipament este
variabila explicativă de interes. Probabilitatea de a observa o valoare F la fel de mare sau mai
mare ca 8,3 este < 0.0055. Dacă fixăm nivelul de semnificație α al testului nostru, adică nivelul
la care acceptăm Eroarea de Tip I, respingem ipoteza nulă și concluzionăm că variația variabilei
explicative explică o parte semnificativă a varianței variabilei de răspuns, adică există o diferență
semnificativă între mediile producției celor trei echipamente, deși nu putem spune care dintre ele
este mai importantă.

Distribution of Productie
F 8.30
60 Prob > F 0.0055

55
Productie

50

45

1 2 3
Echipament

Graficul de mai sus este un grafic ”box and whiskers” produs de procedura PROC ANOVA
cu opțiunea ODS Graphics activată. Pentru fiecare nivel al variabilei explicative Echipament (1, 2,
3), este afișată o ”cutie” în care latura inferioară indică valoarea primei cuartile (pe care o citim pe
axa verticală), iar latura superioară arată valoarea celei de a treia cuartile a producției fiecărui
echipament.
Dreapta din interiorul cutiei localizează valoarea medianei, iar simbolul de romb indică
valoarea medie a producției fiecărui echipament. În acest fel putem avea o imagine a variației
valorilor, cât de împrăștiate sunt în jurul mediei și medianei. Observăm, astfel, că echipamentul 2 are
o variație mai mare a producție, comparativ cu celelalte, iar echipamentul 3 cea mai mică.
Echipamentul 1, deși are cea mai mică producție medie, are o variație aproximativ simetrică în jurul
mediei și medianei, care coincid.
Segmentele de dreaptă din partea inferioară și superioară a cutiei sunt ”mustățile” care arată
valorile producției care se află la o distanța de 1,5 intervale intercuartilice față de mediană. Și ele sunt
un reper al variației valorilor observate.
Simbolul de cerc indică valorile care se află la o distanță mai mare de 1,5 intervale
intercuartilice față de mediană, care sunt potențiale valori ”atipice” sau ”aberante” și care necesită o
atenție mai mare asupra validității lor (necesită o verificare suplimentară pentru a identifica posibile
surse de eroare la înregistrarea lor).

98
Variance
Mean of Std. Dev. of of
Echipament Productie Productie Productie
. 52 4 16.0
1 49 2.7386127875 7.5
2 56 3.5355339059 12.5
3 51 1.8708286934 3.5
Tabelul de mai sus a fost produs cu ajutorul procedurii PROC UNIVARIATE și indică
valorile medii, abaterea standard și varianței ale variabilei de răspuns (Productie) pentru fiecare nivel
al variabilei explicative (Echipament). Sunt statistici descriptive utile pentru evaluarea distribuției
variabilei de răspuns, împreună cu graficele produse de procedura ANOVA.
Means Plot of Productie by Echipament

Graficul de mai sus, produs de PROC GPLOT, descrie amplitudinea valorilor variabilei de
răspuns la fiecare nivel al variabilei explicative, iar valorile medii sunt unite prin drepte care ajută la
evidențierea diferențelor între mediile variabilei de răspuns, diferențe care se pot dovedi semnificative
cu ajutorul statisticilor de test ale ipotezei nule.

99
ANEXA 1:VALORILE STATISTICII T ALE DISTRIBUȚIEI STUDENT
Valorile cuantilei t ale distribuției Student
test-
0,400 0,250 0,100 0,050 0,025 0,010 0,005 0,001
unilateral
test
0,800 0,500 0,200 0,100 0,050 0,020 0,010 0,002
bilateral
Grade
de
libertate
1 0,3249 1,0000 3,0777 6,3138 12,7062 31,8205 63,6567 318,3088
2 0,2887 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248 22,3271
3 0,2767 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409 10,2145
4 0,2707 0,7407 1,5332 2,1318 2,7764 3,7469 4,6041 7,1732

5 0,2672 0,7267 1,4759 2,0150 2,5706 3,3649 4,0321 5,8934


6 0,2648 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074 5,2076
7 0,2632 0,7111 1,4149 1,8946 2,3646 2,9980 3,4995 4,7853
8 0,2619 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008
9 0,2610 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498 4,2968

10 0,2602 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437


11 0,2596 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058 4,0247
12 0,2590 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296
13 0,2586 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520
14 0,2582 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874

15 0,2579 0,6912 1,3406 1,7531 2,1314 2,6025 2,9467 3,7328


16 0,2576 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208 3,6862
17 0,2573 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458
18 0,2571 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105
19 0,2569 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609 3,5794

20 0,2567 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518


21 0,2566 0,6864 1,3232 1,7207 2,0796 2,5176 2,8314 3,5272
22 0,2564 0,6858 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050
23 0,2563 0,6853 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850
24 0,2562 0,6848 1,3178 1,7109 2,0639 2,4922 2,7969 3,4668

25 0,2561 0,6844 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502


26 0,2560 0,6840 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350
27 0,2559 0,6837 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210
28 0,2558 0,6834 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082
29 0,2557 0,6830 1,3114 1,6991 2,0452 2,4620 2,7564 3,3962

30 0,2556 0,6828 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852


40 0,2550 0,6807 1,3031 1,6839 2,0211 2,4233 2,7045 3,3069
60 0,2545 0,6786 1,2958 1,6706 2,0003 2,3901 2,6603 3,2317
120 0,2539 0,6765 1,2886 1,6577 1,9799 2,3578 2,6174 3,1595
inf 0,2533 0,6745 1,2816 1,6449 1,9600 2,3263 2,5758 3,0902

100
ANEXA 2: VALORILE CRITICE ALE STATISTICII F
Valorile critice ale statisticii F
Grade de libertate ale numărătorului
1 2 3 4 5 6 8 10 20 40 ∞
1 F0,25 5.83 7.50 8.20 8.58 8.82 8.98 9.19 9.32 9.58 9.71 9.85
F0,10 39.9 49.5 53.6 55.8 57.2 58.2 59.4 60.2 61.7 62.5 63.3
F0,05 161 200 216 225 230 234 239 242 248 251 254
2 F0,25 2.57 3.00 3.15 3.23 3.28 3.31 3.35 3.38 3.43 3.45 3.48
F0,10 8.53 9.00 9.16 9.24 9.29 9.33 9.37 9.39 9.44 9.47 9.49
F0,05 18.51 19.00 19.16 19.25 19.30 19.33 19.37 19.40 19.45 19.47 19.50
F0,01 98.50 99.00 99.17 99.25 99.30 99.33 99.37 99.40 99.45 99.47 99.5
F0,001 999 999 999 999 999 999 999 999 999 999 999
3 F0,25 2.02 2.28 2.36 2.39 2.41 2.42 2.44 2.44 2.46 2.47 2.47
F0,10 5.54 5.46 5.39 5.34 5.31 5.28 5.25 5.23 5.18 5.16 5.13
F0,05 10.13 9.55 9.28 9.12 9.01 8.94 8.85 8.79 8.66 8.59 8.53
F0,01 34.12 30.82 29.46 28.71 28.24 27.91 27.49 27.23 26.69 26.41 26.13
F0,001 167 149 141 137 135 133 131 129 126 125 123.47
4 F0,25 1.81 2.00 2.05 2.06 2.07 2.08 2.08 2.08 2.08 2.08 2.08
F0,10 4.54 4.32 4.19 4.11 4.05 4.01 3.95 3.92 3.84 3.80 3.76
F0,05 7.71 6.94 6.59 6.39 6.26 6.16 6.04 5.96 5.80 5.72 5.63
F0,01 21.20 18.00 16.69 15.98 15.52 15.21 14.80 14.55 14.02 13.75 13.46
F0,001 74 61 56 53 52 51 49 48 46 45 44.05
5 F0,25 1.69 1.85 1.88 1.89 1.89 1.89 1.89 1.89 1.88 1.88 1.87
F0,10 4.06 3.78 3.62 3.52 3.45 3.40 3.34 3.30 3.21 3.16 3.10
F0,05 6.61 5.79 5.41 5.19 5.05 4.95 4.82 4.74 4.56 4.46 4.36
F0,01 16.26 13.27 12.06 11.39 10.97 10.67 10.29 10.05 9.55 9.29 9.02
F0,001 47 37 33 31 30 29 28 27 25 25 23.79
Grade de libertate ale numitorului

6 F0,25 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.77 1.76 1.75 1.74
F0,10 3.78 3.46 3.29 3.18 3.11 3.05 2.98 2.94 2.84 2.78 2.72
F0,05 5.99 5.14 4.76 4.53 4.39 4.28 4.15 4.06 3.87 3.77 3.67
F0,01 13.75 10.92 9.78 9.15 8.75 8.47 8.10 7.87 7.40 7.14 6.88
F0,001 36 27 24 22 21 20 19 18 17 16 15.75
7 F0,25 1.57 1.70 1.72 1.72 1.71 1.71 1.70 1.69 1.67 1.66 1.65
F0,10 3.59 3.26 3.07 2.96 2.88 2.83 2.75 2.70 2.59 2.54 2.47
F0,05 5.59 4.74 4.35 4.12 3.97 3.87 3.73 3.64 3.44 3.34 3.23
F0,01 12.25 9.55 8.45 7.85 7.46 7.19 6.84 6.62 6.16 5.91 5.65
F0,001 29 22 19 17 16 16 15 14 13 12 11.70
8 F0,25 1.54 1.66 1.67 1.66 1.66 1.65 1.64 1.63 1.61 1.59 1.58
F0,10 3.46 3.11 2.92 2.81 2.73 2.67 2.59 2.54 2.42 2.36 2.29
F0,05 5.32 4.46 4.07 3.84 3.69 3.58 3.44 3.35 3.15 3.04 2.93
F0,01 11.26 8.65 7.59 7.01 6.63 6.37 6.03 5.81 5.36 5.12 4.86
F0,001 25 18 16 14 13 13 12 12 10 10 9.33
9 F0,25 1.51 1.62 1.63 1.63 1.62 1.61 1.60 1.59 1.56 1.54 1.53
F0,10 3.36 3.01 2.81 2.69 2.61 2.55 2.47 2.42 2.30 2.23 2.16
F0,05 5.12 4.26 3.86 3.63 3.48 3.37 3.23 3.14 2.94 2.83 2.71
F0,01 10.56 8.02 6.99 6.42 6.06 5.80 5.47 5.26 4.81 4.57 4.31
F0,001 23 16 14 13 12 11 10 10 9 8 7.81
10 F0,25 1.49 1.60 1.60 1.59 1.59 1.58 1.56 1.55 1.52 1.51 1.48
F0,10 3.29 2.92 2.73 2.61 2.52 2.46 2.38 2.32 2.20 2.13 2.06
F0,05 4.96 4.10 3.71 3.48 3.33 3.22 3.07 2.98 2.77 2.66 2.54
F0,01 10.04 7.56 6.55 5.99 5.64 5.39 5.06 4.85 4.41 4.17 3.91
F0,001 21 15 13 11 10 10 9 9 8 7 6.76
12 F0,25 1.46 1.56 1.56 1.55 1.54 1.53 1.51 1.50 1.47 1.45 1.42
F0,10 3.18 2.81 2.61 2.48 2.39 2.33 2.24 2.19 2.06 1.99 1.90
F0,05 4.75 3.89 3.49 3.26 3.11 3.00 2.85 2.75 2.54 2.43 2.30
F0,01 9.33 6.93 5.95 5.41 5.06 4.82 4.50 4.30 3.86 3.62 3.36
F0,001 19 13 11 10 9 8 8 7 6 6 5.42
14 F0,25 1.44 1.53 1.53 1.52 1.51 1.50 1.48 1.46 1.43 1.41 1.38
F0,10 3.10 2.73 2.52 2.39 2.31 2.24 2.15 2.10 1.96 1.89 1.80
F0,05 4.60 3.74 3.34 3.11 2.96 2.85 2.70 2.60 2.39 2.27 2.13
F0,01 8.86 6.51 5.56 5.04 4.69 4.46 4.14 3.94 3.51 3.27 3.00
F0,001 17 12 10 9 8 7 7 6 6 5 4.60

101
Valorile critice ale statisticii F
Grade de libertate ale numărătorului
1 2 3 4 5 6 8 10 20 40 ∞
16 F0,25 1.42 1.51 1.51 1.50 1.48 1.47 1.45 1.44 1.40 1.37 1.34
F0,10 3.05 2.67 2.46 2.33 2.24 2.18 2.09 2.03 1.89 1.81 1.72
F0,05 4.49 3.63 3.24 3.01 2.85 2.74 2.59 2.49 2.28 2.15 2.01
F0,01 8.53 6.23 5.29 4.77 4.44 4.20 3.89 3.69 3.26 3.02 2.75
F0,001 16.1 11.0 9.01 7.94 7.27 6.80 6.19 5.81 4.99 4.54 4.06
18 F0,25 1.41 1.50 1.49 1.48 1.46 1.45 1.43 1.42 1.38 1.35 1.32
F0,10 3.01 2.62 2.42 2.29 2.20 2.13 2.04 1.98 1.84 1.75 1.66
F0,05 4.41 3.55 3.16 2.93 2.77 2.66 2.51 2.41 2.19 2.06 1.92
F0,01 8.29 6.01 5.09 4.58 4.25 4.01 3.71 3.51 3.08 2.84 2.57
F0,001 15 10 8 7 7 6 6 5 5 4 3.67
20 F0,25 1.40 1.49 1.48 1.47 1.45 1.44 1.42 1.40 1.36 1.33 1.29
F0,10 2.97 2.59 2.38 2.25 2.16 2.09 2.00 1.94 1.79 1.71 1.61
F0,05 4.35 3.49 3.10 2.87 2.71 2.60 2.45 2.35 2.12 1.99 1.84
F0,01 8.10 5.85 4.94 4.43 4.10 3.87 3.56 3.37 2.94 2.69 2.42
F0,001 15 10 8 7 6 6 5 5 4 4 3.38
30 F0,25 1.38 1.45 1.44 1.42 1.41 1.39 1.37 1.35 1.30 1.27 1.23
Grade de libertate ale numitorului

F0,10 2.88 2.49 2.28 2.14 2.05 1.98 1.88 1.82 1.67 1.57 1.46
F0,05 4.17 3.32 2.92 2.69 2.53 2.42 2.27 2.16 1.93 1.79 1.62
F0,01 7.56 5.39 4.51 4.02 3.70 3.47 3.17 2.98 2.55 2.30 2.01
F0,001 13 9 7 6 6 5 5 4 3 3 2.59
40 F0,25 1.36 1.44 1.42 1.40 1.39 1.37 1.35 1.33 1.28 1.24 1.19
F0,10 2.84 2.44 2.23 2.09 2.00 1.93 1.83 1.76 1.61 1.51 1.38
F0,05 4.08 3.23 2.84 2.61 2.45 2.34 2.18 2.08 1.84 1.69 1.51
F0,01 7.31 5.18 4.31 3.83 3.51 3.29 2.99 2.80 2.37 2.11 1.80
F0,001 13 8 7 6 5 5 4 4 3 3 2.23
50 F0,25 1.35 1.43 1.41 1.39 1.37 1.36 1.33 1.31 1.26 1.22 1.16
F0,10 2.81 2.41 2.20 2.06 1.97 1.90 1.80 1.73 1.57 1.46 1.33
F0,05 4.03 3.18 2.79 2.56 2.40 2.29 2.13 2.03 1.78 1.63 1.44
F0,01 7.17 5.06 4.20 3.72 3.41 3.19 2.89 2.70 2.27 2.01 1.68
F0,001 12 8 6 5 5 5 4 4 3 3 2.03
60 F0,25 1.35 1.42 1.41 1.38 1.37 1.35 1.32 1.30 1.25 1.21 1.15
F0,10 2.79 2.39 2.18 2.04 1.95 1.87 1.77 1.71 1.54 1.44 1.29
F0,05 4.00 3.15 2.76 2.53 2.37 2.25 2.10 1.99 1.75 1.59 1.39
F0,01 7.08 4.98 4.13 3.65 3.34 3.12 2.82 2.63 2.20 1.94 1.60
F0,001 12 8 6 5 5 4 4 4 3 2 1.89
120 F0,25 1.34 1.40 1.39 1.37 1.35 1.33 1.30 1.28 1.22 1.18 1.10
F0,10 2.75 2.35 2.13 1.99 1.90 1.82 1.72 1.65 1.48 1.37 1.19
F0,05 3.92 3.07 2.68 2.45 2.29 2.18 2.02 1.91 1.66 1.50 1.25
F0,01 6.85 4.79 3.95 3.48 3.17 2.96 2.66 2.47 2.03 1.76 1.38
F0,001 11 7 6 5 4 4 4 3 3 2 1.54
∞ F0,25 1.32 1.39 1.37 1.35 1.33 1.31 1.28 1.25 1.19 1.14 1.00
F0,10 2.71 2.30 2.08 1.94 1.85 1.77 1.67 1.60 1.42 1.30 1.00
F0,05 3.84 3.00 2.60 2.37 2.21 2.10 1.94 1.83 1.57 1.39 1.00
F0,01 6.63 4.61 3.78 3.32 3.02 2.80 2.51 2.32 1.88 1.59 1.00
F0,001 10.83 6.91 5.42 4.62 4.10 3.74 3.27 2.96 2.27 1.84 1.00

102
10.BIBLIOGRAFIE:
Damodar N. Gujarati, Dawn C. Porter, Basic Econometrics, Fifth Edition, Mc. Graw-Hill/Irwin,
2009
D.P.Vasiliu: Bazele matematice ale econometriei, Editura Univ. Titu Maiorescu, 2007
D.P.Vasiliu, A.M.D. Vasiliu: Metode Cantitative în probleme economice, Edit. Tribuna Economica,
București, 2000
Mansfield, E.: Basic Statistics with Applications, W.W. Norton&Company Inc., 1986
Ov. Tănăsescu, A.I. Iacob: Modele Econometrice, vol. 1, Ed.2, ASE - București
Wonnacott, T.H., Wonnacott, R. J.: Statistique – Economie, Gestion, Science, Medecine (avec
exercices d’application), Economica, Paris, 1991

103
11. GLOSAR DE TERMENI Parametru: O valoare necunoscută care
descrie o mărime statistică a populației (media,
Ceteris Paribus: Toți ceilalți factori sunt mediana, total, proporție etc.).
menținuți constanți.
p-Value: Cel mai mic nivel de semnificație
Deplasare (Bias): Diferența dintre valoarea (probabilitate) la care ipoteza nulă poate fi
așteptată a unui estimator și valoarea din respinsă. Echivalent, este cel mai mare nivel de
populație pe care acel estimator o estimează semnificație la care ipoteza nulă nu poate fi
Eroarea medie pătratică (Mean Squared respinsă.
Error (MSE)): Distanța pătratică așteptată la Suma pătratelor explicată (SSE): Variația
care se află un estimator de valoarea din totală a valorilor estimate (ajustate) din
populație; ea este egală cu varianța plus eșantion într-un model de regresie multiplă.
pătratul oricărei deplasări (bias)
Suma pătratelor reziduală (SSR): Suma
Estimator deplasat: Un estimator a cărui pătratică a valorilor reziduale obținute prin
valoare așteptată sau medie de sondaj este metoda CMMP din eșantion.
diferită de valoarea din populație pe care se
presupune că o estimează. Suma pătratelor totală (SST): Variația totală
din eșantion a variabilei dependente în jurul
Estimator: O regulă (formulă) de combinare a mediei de sondaj.
datelor pentru a produce o valoare numerică a
parametrului unei populații; forma regulii nu Termen de eroare: Variabila dintr-un model
depinde de un eșantion sau altul de date. de regresie simplă sau multiplă care conține
factorii neobservați ce pot influența variabila
Estimație: Valoarea numerică luată de un dependentă. Termenul de eroare poate include
estimator din datele unui eșantion. și erorile de măsurare din variabilele
Experiment: În teoria probabilităților, un dependentă sau independente.
termen general care descrie un eveniment al Valoare așteptată: O măsură de tendință
cărei rezultat este incert. În analiza centrală a distribuției unei variabile aleatoare,
econometrică, denotă o situație în care datele inclusiv estimatorul aferent acesteia.
sunt colectate prin atribuirea aleatorie a
indivizilor în grupul de control și în cel de Variabila dependentă: Variabila desemnată
tratament. ca variabilă ce este explicată într-un model de
regresie, ca și într-o multitudine de alte
Grade de libertate (Degrees of Freedom (df)): modele.
În analiza regresiei multiple este numărul de
observații minus numărul parametrilor Variabila explicată: Vezi variabilă
estimați. dependentă.
Model econometric: O ecuație care descrie Variabilă explicativă: În modelele de
relația dintre variabila dependentă și un set de regresie, o variabilă care este utilizată pentru a
variabile explicative și perturbații neobservate, explica variația variabilei dependente.
în care parametrii necunoscuți ai populației Varianța erorii: Varianța termenului de
determină efectul ceteris paribus al fiecărei eroare dintr-un model de regresie.
variabile explicative.
Model economic: O relație derivată din teoria
economică sau dintr-un raționament economic
formulat mai puțin precis.
Numărul de grade de libertate de la
numitor: Într-un test F, este numărul de grade
de libertate dintr-un model cu toate variabilele
explicative (model nerestricționat).

104

S-ar putea să vă placă și