Sunteți pe pagina 1din 51

1

1. Modelul de regresie

1.1. Cteva considerente de ordin general
La fel ca i n multe alte domenii, n domeniul economic i n particular n cel al
afacerilor se ntlnesc deseori situaii care presupun luarea unor decizii, care necesit
prognoze sau care pun n eviden nevoia de a cunoate modul n care depind unele de altele
anumite mrimi importante la nivel de firm. Iat exemplul foarte simplu al unui
ntreprinztor care dorete s tie urmtoarele:
Este potrivit s investeasc pentru reclama unui produs?
Care form de reclam este cea mai potrivit?
Care este legtura ntre suma investit n reclam i volumul vnzrilor pentru
produsul respectiv?
Dac s-au investit n reclam x u.m., care este prognoza pentru volumul vnzrilor?
Cineva ar putea sugera faptul c ntreprinztorul, ca agent economic raional, nu va face
cheltuieli dect n msura n care va ti sigur care sunt rezultatele pe care conteaz. Prin
urmare, se poate insinua c nu este nevoie de un aparat matematic, statistic, econometric,
pentru a intui c ntreprinztorul va obine ceea ce i-a propus n momentul n care a decis s
fac reclam produsului. Exist ns un revers al medaliei, pentru c intuiia este totui
intuiie i s-ar putea s nu fie foarte exact. Desigur c logica lucrurilor ne face s afirmm c
promovarea produsului are ca rezultat creterea vnzrilor, dar practica ne nva c se poate
s nu se fi optat pentru cea mai bun variant de promovare, c din motive greu de neles
vnzrile nu au crescut sau, n orice caz, nu att de mult pe ct s-a dorit sau ct s acopere
mcar cheltuielile efectuate n scopul reclamei. Din acest motiv ar fi ideal dac
ntreprinztorul ar putea s cunoasc din vreme o serie de detalii, ca de exemplu modul n
care se va realiza promovarea produsului, msura n care vnzrile preconizate sunt
realizabile, natura relaiei care se stabilete ntre cheltuielile pentru reclam i volumul
vnzrilor i prin urmare s poat rspunde la ntrebarea: Exist posibilitatea ca efortul
financiar fcut n scopul publicitii s fie acoperit ntr-un interval de timp convenabil?.
Cu siguran c astfel de lucruri nu vor putea fi cunoscute pur i simplu, pentru c este
nevoie de date, date statistice pentru care prelucrarea i analiza prin metode specifice vor
putea oferi informaiile necesare. Maniera n care sunt colectate datele i aranjarea lor n
forma cea mai potrivit nu reprezint domeniul nostru de interes. Amnunte despre aceste

2
etape, despre maniera n care sunt duse la ndeplinire, se pot gsi n orice manual de
statistic
1
. Econometria poate intra n scen doar dup ce au fost oferite date suficiente,
imediat ce a fost stabilit problema care trebuie rezolvat i n msura n care metodele
specifice acestei discipline sunt utilizabile.
Vom face mpreun primii pai n econometrie, prin studiul unei metode care poate fi
utilizat n scopul determinrii unei relaii de dependen ntre dou mrimi de interes pe care
le vom numi variabile. Este vorba despre Analiza regresiei. Deocamdat ne vom ocupa de
cazul cel mai simplu, acela care implic intenia de a descrie o variabil y, pe care o vom
numi variabil dependent, sau endogen, n funcie de o singur variabil x, care va purta
numele de variabil independent, sau exogen. Cel mai simplu tip de analiz de regresie
presupune c relaia dintre cele dou variabile se apropie de o relaie liniar care, ntr-o
reprezentare grafic, are foma unei drepte. Cazul care implic o astfel de relaie de
dependen este cunoscut n literatura de specialitate sub numele de Analiza regresiei liniare
simple. Dac variabilele independente sunt dou, sau mai multe, ne situm n cazul regresiei
multiple.
Rezumnd, ne vom ocupa de determinarea relaiei dintre:
y: variabil dependent, sau endogen
x: variabil independent, sau exogen
Vom considera c relaia este suficient de apropiat de una liniar i din cauza acestei
aproximri este natural s ne punem problema dac liniaritatea este o supoziie corect.
Prin studiul corelaiei dintre x i y se determin gradul n care variabilele sunt, ntr-adevr, n
relaie liniar i nu de alt natur. Analiza de corelaie, de care nu ne vom ocupa n aceast
lucrare, este o procedur de stabilire a msurii n care relaia dintre x i y este liniar i, dac
acest lucru se confirm, tot analiza de corelaie ne ajut s determinm intensitatea relaiei.
nainte de a trece efectiv la studiul modelului de regresie mai trebuie precizat faptul c
nici analiza regresiei i nici cea a corelaiei nu pun n eviden o relaie de tipul cauz efect
ntre variabilele implicate n model, ci arat doar n ce msur sunt ele n legtur una cu alta.
Dac analiza este just, dac se dovedete c exist argumente solide n acest sens, atunci
cauzalitatea este un aspect care poate fi discutat ulterior.
n ncheierea acestei prime seciuni ne vom ntoarce pentru o clip la exemplul
ntreprinztorului doritor s tie dac reclama fcut produsului are efectul scontat i vom
observa c variabila dependent y este volumul vnzrilor, iar variabila independent x este

1
Se poate vedea de exemplu Cornelia Nistor, Elemente de statistic, Ed. Cartea Universitar, Bucureti, 2005.

3
reprezentat de suma cheltuit pentru publicitate. Pe viitor, dac nu se fac specificaii cu
privire la alegerea variabilelor, va trebui s avei abilitatea s stabilii singuri cine este
exogena i cine este endogena, pentru a putea construi un model viabil.

1.2. Model determinist i model probabilist
Este esenial ca nc de la nceput s clarificm distincia ntre aceste dou concepte.
Atunci cnd ne referim la un model determinist, trebuie s tim imediat c a cunoate
valoarea variabilei independente x atrage dup sine cunoaterea exact a variabilei
dependente y, aa cum se poate vedea din exemplul urmtor.
Exemplul 1.2.1. Preul unui kilogram de cartofi este de 3 RON. Dac un client
cumpr x kilograme, atunci el va plti o sum pe care o notm cu y i care se calculeaz,
evident, dup regula:
x 3 y = .
Acest model de calcul arat cum cunoaterea faptului c se achiziioneaz 4 x = kg. cartofi
atrage dup sine cunoaterea sumei exacte care trebuie pltit, adic
12 4 3 y = = RON.
n concluzie, nu exist dubii cu privire la valoarea y a sumei pltite, odat ce se cunoate
cantitatea x achiziionat.
Vom pune n eviden, prin intermediul exemplului urmtor, o situaie care relev o
component incert.
Exemplul 1.2.2. O firm de telefonie mobil are dealeri pe tot cuprinsul rii. Unele
dintre magazinele prin intermediul crora se asigur contactul cu clienii sunt situate n
vecintatea unor supermarketuri din incinta unor centre comerciale, , iar altele sunt de sine
stttoare. Directorul firmei dorete nfiinarea unor alte puncte de vnzare i intuiete, pe
baza rezultatelor anterioare, c profiturile cele mai mari s-au nregistrat de la acei dealeri
situai n apropierea supermarketurilor din centrele comerciale i c exist o legtur ntre
nivelul vnzrilor i numrul clienilor care viziteaz zilnic supermarketul vecin. nainte s
decid locaia n care va nfiina noile magazine, directorul dorete s evalueze relaia dintre
numrul zilnic al clienilor din supermarketuri (x) i vnzrile anuale ale dealerilor nvecinai
(y). Datele pe care le vom utiliza n studiul nostru sunt nregistrate n Tabelul 1.2.1. si provin
dintr-un eantion format din zece dealeri situai n centre comerciale.

Dealer Nr. Clieni (x) Vnzri anuale

4
(sute) (y) (sute RON)
1 1 19,36
2 4 50
3 7 68
4 7 90
5 10 100
6 12 125
7 14 150
8 14 200
9 15 162
10 16 190

Tabelul 1.2.1. Date cu privire la numrul zilnic de clieni ai supermarketurilor i vnzrile
anuale ale dealerilor firmei de telefonie mobil situai n vecintate

O scurt privire asupra datelor din Tabelul 1.2.1. ne va convinge c ipoteza unei relaii
deterministe ntre numrul zilnic al vizitatorilor supermarketurilor i vnzrile anuale ale
dealerilor nu poate fi luat n calcul. Dealerii 3 i 4 sunt situai n vecintatea unor
supermarketuri cu acelai numr zilnic de vizitatori, 700, dar vnzrile anuale sunt diferite.
Observm c:
68 y 7 x = = (Dealer 3)
90 y 7 x = = (Dealer 4)
Aceeai observaie este valabil i pentru dealerii 7 i 8, pentru care:
150 y 14 x = = (Dealer 7)
200 y 14 x = = (Dealer 8)
ntr-o astfel de situaie nu mai putem pune problema determinrii exacte a lui y pe baza
cunoaterii valorii lui x, motiv pentru care spunem c modelul care arat relaia dintre x i y
este de natur nedeterminist i prin urmare probabilistic.

1. 3. Prezentarea modelului de regresie
Pentru o mai bun imagine asupra datelor din Tabelul 1.2.1. vom proceda la
reprezentarea lor grafic ntr-un sistem de coordonate bidimensional, n care numrul
clienilor este nscris pe orizontal ca variabil independent i volumul vnzrilor pe
vertical, ca variabil dependent. Rezultatul acestei reprezentri, din Figura 1.3.1., este

5
cunoscut sub numele de diagram scatter i ne ofer o viziune de ansamblu care este de
ajutor n intuirea relaiei dintre cele dou variabile.

_________________________________________
Figura 1.3.1. Diagrama scatter pentru datele
din Tabelul 1.2.1.

Din Figura 1.3.1. putem desprinde cteva concluzii preliminare. n primul rnd apare
ideea c un numr mic de clieni ai supermarketului este asociat cu un volum mic de vnzri
anuale, iar un numr mare de clieni este, dimpotriv, corespunztor unui volum anual mare
al vnzrilor. De asemenea, se observ o tendin de dependen liniar (n form de dreapt)
ntre cele dou variabile i n Figura 1.3.1. am trasat linia dreapt care pare s aproximeze
aceast dependen. Totui, este important s inem cont de faptul c relaia liniar care s-a
conturat nu este una perfect, pentru c nu toate punctele de pe diagrama scatter aparin
dreptei pe care am desenat-o.
Am vzut deja, n Tabelul 1.2.1., c unei aceeai valori a lui x nu i se garanteaz
aceeai valoare a lui y i din acest motiv va trebui s acceptm c dependena dintre x i y nu
are o natur determinist, ci una probabilist. Pe baza faptului c relaia care se contureaz
ntre numrul clienilor din supermarmarketuri vecine i volumul anual al vnzrilor obinute
de dealerii firmei de telefonie mobil este una liniar, aproximat de linia dreapt din Figura
1.3.1., afirmm acum c urmtorul model probabilist este o reprezentare apropiat de realitate
a relaiei dintre cele dou variabile:
c + | + | = x y
1 0
(1.3.1.)
Reamintindu-ne acum semnificaia coeficienilor care apar ntr-o funcie liniar, vom ti c:

0
| reprezint intersecia dreptei de ecuaie x y
1 0
| + | = cu axa vertical a sistemului
de coordonate;

1
| reprezint panta dreptei de ecuaie x y
1 0
| + | = .
Avnd n vedere c n Figura 1.3.1. doar un numr mic de puncte ale diagramei scatter
aparin efectiv dreptei, apare ca fireasc nevoia de a lua n calcul nc un termen, pe care n
relaia (1.3.1.) l-am notat cu c i care reprezint eroarea pe care o facem atunci cnd
aproximm relaia dintre variabile cu relaia liniar x y
1 0
| + | = . Deci, c reprezint devierea
valorii efective (sau observate n practic i comunicate, n exemplul nostru, prin Talelul

6
1.2.1.) a lui y fa de acea valoare a lui y pe care o obinem prin nlocuirea lui x n
x y
1 0
| + | = .
Pentru c exist mai multe valori ale lui x, n cazul exemplului nostru zece, este
natural s lum n calcul eroarea posibil pentru fiecare situaie n parte. Practic, ne ateptm
ca pentru fiecare valoare a lui x s obinem o eroare, mai mare sau mai mic (sau poate nul)
notat ( ) x c .
Folosirea relaiei (1.3.1.) ca model pentru legtura dintre y i x ne d posibilitatea s
afirmm c x i y sunt n aceeai relaie ca aceea descris de x y
1 0
| + | = , dar aceast relaie
este doar aproximativ dac nu inem cont de termenul eroare c .
Modelul (1.3.1.), despre care credem c reflect relaia dintre variabila independent
x i variabila dependent y este numit modelul de regresie. n continuare, ne vom referi la
coeficienii
0
| i
1
| ca la parametrii modelului.

1.4. Erorile modelului de regresie
Experiena didactic mi-a dovedit c n foarte multe cazuri persoanele care iau contact
cu modelul de regresie ntmpin dificulti n a nelege condiiile oarecum abstracte care se
impun asupra erorilor c . De ce sunt ele considerate variabile aleatoare? De unde provin i ce
anume trebuie luat n calcul atunci cnd ne referim la erori?
Logica lucrurilor ne spune c volumul vnzrilor firmei de telefonie mobil nu este
influenat doar de numrul de clieni din supermarket. Exist, intuim, i ali factori care i pot
pune amprenta, dar pe care nu i considerm att de importani pentru a fi introdui n model.
De exemplu, exist clieni care viziteaz centrul comercial fr intenia de a ptrunde n
supermarket i care manifest totui interes fa de oferta firmei. Chiar dac acetia nu
influeneaz decisiv volumul vnzrilor, ei trebuie luai n seam pentru c n ansamblu pot
produce perturbri asupra rezultatelor ateptate. De asemenea, se ntlnesc i o serie de
elemente de natur calitativ, greu sau imposibil de cuantificat, care pot influena clienii
supermarketurilor astfel nct s i determine s nu fie niciodat adeptii firmei de telefonie
mobil sau n orice caz nu ai dealerului din vecintate: gusturile, nclinaia ctre un anumit
dealer, percepia asupra personalului din magazin, fidelitatea fa de o alt firm sunt la
rndul lor elemente care fac ca o simpl relaie matematic s fie insuficient pentru
descrierea unor rezultate exacte. i, nu n ultimul rnd, pot s apar erori n nregistrarea
datelor statistice cu ajutorul crora se construiete modelul. Pot fi erori n comunicarea
valorilor observate ale variabilei observate y, caz n care modelul de regresie se va bucura o

7
dat n plus de prezena lui c , sau erori n nregistrarea variabilei independente x. Pentru
linitea noastr, nu vom lua n calcul deocamdat aceast ultim de posibilitate deosebit de
neplcut din punct de vedere al consecinelor.
n concluzie, variabila eroare este necesar i, din pcate, ea nu poate fi observat
efectiv ci doar luat n calcul ca fiind prezent i dotat cu anumite proprieti puse n
eviden de specialiti n scopul ncercrii de a convieui cu ea. Condiiile
2
impuse asupra
variabile eroare sunt prezentate n cele ce urmeaz, mpreun cu implicaiile lor.
Condiia 1: Eroarea c este o variabil aleatoare normal distribuit, lund valori
pozitive sau negative care reflect devierea dintre valoarea observat a lui y i valoarea
rezultat prin nlocuirea lui x n x
1 0
| + | .
Implicaii: Deoarece
0
| i
1
| sunt constante, deducem c pentru o valoare dat a lui x
mrimea definit n (1.3.1.), c + | + | = x y
1 0
, este de asemenea o variabil aleatoare normal
distribuit.
Condiia 2: Media variabilei aleatoare eroare este zero, adic ( ) 0 M = c .
Implicaii: S ne remintim c valoarea medie a unei constante este constanta nsi i faptul
c:
( ) ( ) ( ) Y M X M Y X M + = + .
Deducem astfel valoarea medie a variabilei dependente Y, din calculul urmtor:
( ) ( ) ( ) ( ) ( ) c + | + | = c + | + | = M x M M x M y M
1 0 1 0

Pentru c x,
0
| i
1
| sunt constante i media variabilei aleatoare eroare este zero, obinem:
( ) x y M
1 0
| + | = (1.4.1.).
Condiia 3: Dispersia variabilei aleatoare c , pe care o vom nota
2
o , este aceeai
pentru toate valorile lui x.
Implicaii: Pornind de la proprietile dispersiei, vom demonstra c i variabila aleatoare
dependent y are aceeai dispersie pentru toate valorile lui x.
( ) ( ) ( ) ( ) ( ) c + | + | = c + | + | =
2
1
2
0
2
1 0
2 2
D x D D x D y D
Pentru c dispersia unei constante este zero i ( )
2 2
D o = c obinem, indiferent de valoarea lui
x:
( )
2 2
y D o = (1.4.2.)

2
Pentru o tratare detaliat, se poate vedea Dorin Jula, Introducere n econometrie, Ed. PROFESSIONAL
CONSULTING, Bucureti, 2003

8
Vom reine aceast implicaie pentru c va fi de natur s explice foarte multe din
afirmaiile de mai trziu. Va trebui s reinem, de asemenea, relaia (1.4.1.) ca fiind deosebit
de important i o vom numi ecuaia de regresie. Aflm de aici modul n care se poate
calcula media variabilei dependente y, despre care am aflat c este o variabil aleatoare
normal, pentru valori fixate ale lui x.
Deocamdat lucrurile sunt destul de abstracte i de aceea ne vom ntoarce pentru o
clip la exemplul firmei de telefonie mobil. S ne referim la supermerketul n care exist
zilnic o mie de clieni (este cazul dealerului nr. 5). Deci, 10 x = . Semnificaia relaiei (1.4.1.)
pentru 10 x = este aceea a valorii medii a vnzrilor anuale negistrate de ctre toi dealerii
situai n vecintatea suprmerketurilor cu o mie de clieni pe zi. n cazul particular 10 x = ,
eroarea specific depinde de diferena dintre valoarea observat y relativ la acest x (n
exemplul nostru a fost observat un nivel al vnzrilor egal cu 100 sute RON) i valoarea
medie rezultat din ecuaia de regresie, ( ) y M . Pe msur ce vom avansa n prezentarea
modelului de regresie, toate aceste elemente care deocamdat au o conotaie destul de
teoretic vor cpta sens.
n finalul acestei seciuni m simt datoare s fac cteva comentarii. Pentru aceia
dintre cititori care i amintesc faptul c funcia de gradul I a fost predat de profesorul de
matematic nc de prin clasa a aptea, modelul de regresie liniar cu o singur variabil
independent poate fi considerat pueril i oarecum departe de realitatea nconjurtoare.
Complexitatea din viaa economic sugereaz fenomene care nu au nici un motiv s se
comporte att de simplist nct s ne permit s le modelm printr-o funcie de gradul nti.
Ajuns n prag de bacalaureat, orice elev cunoate deja o sumedenie de funcii cu o singur
variabil i atunci se nate, firesc, ntrebarea: ce for mai are regresia liniar simpl, dac se
dovedete c dependena lui y de x are, de exemplu, forma
2
1 0
x y | + | = ? Aceeai for, este
rspunsul la ntrebare. Pentru c nu v oprete nimic s facei o notaie,
2
x z = , cu ajutorul
creia dependena capt o natur liniar: z y
1 0
| + | = . Mai departe, vei proceda la fel ca i
n modelul discutat pn acum, avnd z pe poziia lui x i ncercnd s nu uitai ce se afl n
spatele notaiei pe care ai fcut-o. Dar trebuie spus i faptul c modelul de regresie liniar nu
este atotputernic, lucru despre care nu vom discuta pe larg deocamdat.

Exerciii propuse:


9
Exerciiul 1. Se dau urmtoarele modele de relaii ntre variabila dependent y i
variabila independent x:
Modelul 1: x 2 3 y + =
Modelul 2: c + + = x 2 3 y
Am notat cu c termenul eroare.
a) Calculai pentru fiecare model n parte valoarea lui y pentru 9 x = i 2 = c .
b) Calculai pentru fiecare model n parte valoarea lui y pentru 9 x = i 0 = c .
c) Care dintre cele dou modele este determinist i care este probabilist? Explicai.

Exerciiul 2. Utilizai ecuaia regresiei din (1.4.1.).
a) Scriei ecuaia regresiei pentru 1
0
= | i 4
1
= | .
b) Reprezentai grafic ecuaia acestei drepte, ntr-un sistem de coordonate care are
variabila x pe axa orizontal i variabila ( ) y M pe axa vertical.
c) Scriei ecuaia regresiei pentru 0
0
= | i 2
1
= | . Reprezentai grafic, ntr-un sistem de
coordonate similar celui de la punctul anterior.

Exerciiul 3. Urmtoarele date arat media de admitere i media de absolvire pentru opt
studeni ai Facultii de Administraie i Afaceri.

Media de admitere (x) Media de absolvire (y)
8,24 7,14
8,75 8,90
8,16 7,20
8,90 9,50
9,15 9,28
9,03 9,00
9,70 9,62
10 9,65

a) Construii diagrama scatter pentru aceste date, nscriind media de admitere pe axa
orizontal i media de absolvire pe axa vertical.
b) Pe baza diagramei scatter, observai vreo tendin care s sugereze un anumit tip de
relaie ntre cele dou variabile?
c) Construii dreapta care considerai c aproximeaz cel mai bine tendina relevat de
diagrama scatter.

Exerciiul 4
3
. Supermarketurile BRISTO exist pe tot cuprinsul rii. A fost selectat un
eantion format cu cinci dintre ele pentru a se vedea natura legturii care se stabilete ntre
cheltuielile efectuate n scopul reclamei i volumul vnzrilor, n decurs de o lun:

Cheltuieli pentru reclam
(mii RON) (x)
Volum vnzri (mii RON)
(y)
1 19
4 44
6 40

3
Anderson R. D., Sweeney J. D., Williams A. T., Statistics for Business and Economics, Second Edition, West
Publishing Company, 1984, p. 412

10
10 52
14 53

a) Construii diagrama scatter pentru aceste date, nregistrnd pe axa orizontal
cheltuielile penru reclam.
b) Reprezentai grafic dreapta ( ) x 5 , 2 24 y M + = pe diagrama scatter. Considerai c
aceasta ofer o bun aproximare a relaiei care se stabilete ntre cheltuielile pentru
recam i volumul vnzrilor?
c) Reprezentai grafic funcia ( )
x 2
x 60
y M
+
= , calculnd valorile ei pentru fiecare x din
tabelul de date. Considerai c aceast curb care rezult din reprezentare este o bun
aproximare a relaiei dintre x i z?
d) Fa de dreapta de la punctul b, considerai c funcia de la punctul c ofer o mai bun
potrivire pe diagrama scatter?
e) Calculai erorile care rezult din aproximarea vnzrilor prin intermediul funciilor de
la punctele b i c, fa de valorile efective ale lui y pe care le cunoatei din tabelul de
date.

Exerciiul 5. Datele urmtoare provin de la cinci asociaii de locatari i arat suma pe
care o pltesc proprietarii a cinci apartamente de suprafee diferite care beneficiaz de
central termic proprie, pentru factura de gaze n decursul unei luni calendaristice.

Suprafaa locuimei (mp)
(x)
Costul nclzirii (sute
RON) (y)
62 1,5
65 1,3
58 1
70 2,3
76 2,6

a) Construii diagrama scatter, avnd suprafaa pe axa orizontal.
b) ncercai s aproximai relaia dintre suprafaa apartamentelor i costul facturii,
punnd n eviden linia dreapt corespunztoare pe diagrama scatter.
c) Considerai c aproximarea liniar este potrivit?

Exerciiul 6. Considerai c relaiile pe care le-ai observat n exerciiile anterioare sunt
relaii de tip cauz efect, sau relaii de asociere? Explicai, pentru fiecare situaie n parte.


ntrebri recapitulative:

1. Ce este analiza de regresie?
2. Ce reprezint modelul de regresie i care este forma sa, n cazul regresiei liniare
simple?
3. Ce reprezint ecuaia de regresie, care este forma sa i cum se obine pornind de la
modelul de regresie?
4. Care este scopul analizei de corelaie? Prin ce anume se deosebete de analiza de
regresie?

11
5. Definii noiunile: variabil endogen, variabil exogen, relaie direct, liniar i
curbilinie.
6. La ce se refer relaia de cauzalitate i care este legtura dintre acest concept i relaia
de asociere? Prezentai punctele comune i diferenele.
7. Care sunt motivele pentru care se construiete diagrama scatter?
8. Cum credei este reprezentat o diagram scatter care nu indic nici un fel de relaie
tre variabilele x i y?
9. Care sunt motivele pentru care modelul de regresie include variabila eroare c ?
10. Care sunt condiiile care se impun asupra erorilor i care sunt implicaiile acestor
condiii?


2. Metoda celor mai mici ptrate. Estimarea parametrilor
0
i
1
.

2.1. Considerente generale despre erori
Vom reaminti faptul c n capitolul anterior am fixat pentru modelul de regresie
variabilele x i y care n exemplul firmei de telefonie mobil au urmtoarea semnificaie:
= x numrul zilnic al clienilor din supermarket
= y vnzrile anuale ale dealerului poziionat n centrul comercial care include supermarketul
Am stabilit c modelul de regresie are forma:
c + | + | = x y
1 0
.
Condiiile pe care le-am impus asupra variabilei aleatoare eroare ne-au ajutat s descriem
ecuaia de regresie, pentru care am gsit forma:
( ) x y M
1 0
| + | = .
Deocamdat
0
| i
1
| sunt constante cu valori necunoscute, numite parametrii modelului de
regresie i pe care am dori s le determinm pe baza datelor furnizate de tabelul 1.2.1. Dac
am reui s calculm
0
| i
1
| , atunci dreapta de regresie ar fi complet determinat i am
putea afla foarte multe lucruri despre relaia dintre variabilele de interes.
Am czut deja de acord asupra faptului c x y
1 0
| + | = este o funcie care indic o
relaie liniar ntre variabila dependent y i variabila independent x. S privim acum la
Figura 1.2.1. din seciunea 1.2. i s notm c intenia a fost s reprezentm dreapta care s se
apropie n cea mai mare msur de punctele diagramei scatter. De obicei se opteaz pentru
acea dreapt care, chiar dac nu trece prin toate punctele diagramei, las deasupra i dedesupt
aproximativ acelai numr de puncte. n cazul nostru desupra dreptei au rmas trei puncte i
sub ea au rmas dou, ceea ce este o variant rezonabil. Cu toate acestea, este limpede c
exist foarte multe posibiliti de construcie a unei drepte care s ndeplineasc impunerea

12
menionat anterior, chiar dac unele dintre aceste reprezentri ar fi foarte apropiate una de
alta. De asemenea, este lesne de neles faptul c orice dreapt ai alege, ea nu va trece prin
absolut toate punctele diagramei dect cel mult ntr-un caz destul de rar, acela n care toate
variabilele observate conduc la reprezentarea unor puncte coliniare. Din punct de vedere
practic o atare posibilitate este att de puin probabil s apar, nct trebuie s fim contieni
c n cea mai mare parte a cazurilor erorile sunt de neevitat. n Figura 2.1.1. am reprezentat o
diagram scatter oarecare i am pus n eviden erorile pentru dou alegeri diferite ale dreptei
pe care ne-am dori-o a fi de regresie.


Figura 2.1.1. Dou posibile drepte de regresie pentru aceeai diagram scatter pun n
eviden erori diferite

Iat, deci, cum o diagram scatter cu puncte puine a permis deja alegerea a dou
drepte de regresie care s o aproximeze. Este de ateptat ca problemele practice, bazate pe
mult mai multe date, s ofere multe alte variante i s ridice ntrebarea: Care alegere este cea
mai bun? i, Care este criteriul care ne spune c alegerea este corespunztoare?

2.2. Semnificaia parametrilor dreptei de regresie: o analiz exemplificat.
Aa cum spuneam mai devreme, o dreapt este complet determinat atunci cnd am
reuit s determinm valorile lui
0
| i
1
| . n capitolul precedent am stabilit i semnificaia
general a acestora. E timpul s discutm semnificaia practic i pentru asta ne vom referi
din nou la exemplul firmei de telefonie mobil. Am spus c
0
| reprezint intersecia dreptei
de ecuaie x y
1 0
| + | = cu axa vertical, aceast valoare obinndu-se pentru 0 x = . Din
punct de vedere al exemplului, asta nseamn c nu exist nici un client n supermarket.
Valoarea
0
| nseamn, prin urmare, c acesta este nivelul vnzrilor autonome, rezultate
de la clienii care vin n centrul comercial n alte scopuri dect vizitarea supermarketului.
Despre
1
| am spus c este panta, sau nclinaia dreptei. Pentru o funcie liniar aceast pant
este aceeai peste tot i are urmtoarea semnificaie: dac valoarea lui x crete cu o unitate,
atunci valoarea lui y se modific n sens de cretere sau descretere cu
1
| uniti, n funcie
de semnul (pozitiv sau negativ) al lui
1
| . Din modul n care au fost stabilite unitile n
Tabelul 1.2.1., putem spune c o cretere cu 100 de clieni zilnic a numrului clienilor din

13
supermarket genereaz o cretere cu
1
| sute RON a vnzrilor anuale ale dealerului (dac
1
|
se va dovedi a fi pozitiv) sau o scdere cu
1
| sute RON a acestor vnzri (dac
1
| se
dovedeste a fi negativ, ceea este foarte putin probabil dac tinem cont de evidena practic).
Diagrama scatter din Figura 1.2.1. arat n mod clar c
1
| este pozitiv, pentru c
reprezentarea punctelor indic faptul c pe msur ce x crete, y crete de asemenea n
majoritatea cazurilor.

2.3. Eroarea total. Metoda celor mai mici ptrate.
Ne-am convins de faptul c trebuie s determinm
0
| i
1
| , am explicat semnificaia
acestor parametri i nu ne rmne dect s discutm despre criteriul dup care putem alege
cea mai bun dreapt de regresie. Figura 2.1.1. ar putea fi cheia acestei probleme: am
reprezentat, pentru aceeai diagram scatter, dou drepte posibile i am pus n eviden
erorile care apar. Devine natural, n acest moment, s cutm determinarea acelei variante
care genereaz o cea mai mic eroare total, nu-i aa? Nu putem spera ntr-o eroare nul, dar
putem cuta acea dreapt care s corespund unui minim de eroare. Acesta va fi criteriul are
ne va ghida mai departe i care, din pcate, creaz o serie de probleme suplimentare.
Pentru a nelege procedeul care va urma, va trebui s facei permanent diferena ntre
dou aspecte: ce este i ce rezult a fi, sau altfel spus ce este i ce se estimeaz c ar fi. Ce
este se refer la datele pe care le avem i pe care le putei vedea reprezentate pe diagrama
scatter. Ce se estimeaz a fi se refer la ce aproximm, sau estimm prin calcul c
reprezint cea mai bun variant a dreptei de regresie. Ori de cte ori apare ideea de estimare,
ea va fi pus n eviden prin adugarea simbolului plrie deasupra valorilor estimate: y ,
0

| ,
1

| de exemplu.
n concluzie, n modelul nostru este o dreapt de regresie ( ) x y M
1 0
| + | = . Dei n
esen ea este, noi nu o cunoatem pentru c n general nu cunoatem toate informaiile i nu
ne rmne dect s o estimm pe baza datelor pe care le avem. De exemplu firma de telefonie
mobil ne pune la dispoziie un eantion format cu zece dealeri, dei se poate ca ea s aib
vreo dou sute. Nu avem toate datele, deci ncercm s ne descurcm cu ce avem. Ca
estimare, dreapta de regresie are forma:
x

y
1 0
| + | = (2.3.1.)
Observai c x nu are plriu, pentru c valorile lui sunt cunoscute i pe baza lor vom
efectua calculele. De asemenea, observai c ecuaia estimat a regresiei este similar

14
adevratei ecuaii de regresie, doar c ( ) y M a fost nlocuit cu estimatorul su y ,
0
| cu
0

| , i
1
| cu
1

| .
n exemplul firmei de telefonie mobil, Tabelul 1.2.1. ne furnizeaz datele de la zece
dealeri, pe baza crora vom construi calculele. n general, valorile lui x se noteaz cu
n 2 1
x , ... , x , x i valorile corespunztoare ale lui y cu
n 2 1
y , ... , y , y , unde n este dimensiunea
eantionului (adic numrul de date pe care le avem) pentru fiecare dintre variabilele x i y).
Pentru exemplul nostru 10 n = , 4 x
2
= , 100 y
5
= etc. n mod normal dac dreapta de
regresie ar trece prin toate punctele diagramei scatter, atunci ar trebui ca
i 1 0 i
x y | + | =
pentru toate valorile lui i. Lucrul acesta nu se ntmpl i ca atare pornind de la valorile
i
x
putem obine doar estimri ale lui
i
y , cu eventuale erori pe care le-am pus n eviden n
Figura 2.1.1. Valoarea estimat a variabilei dependente va urma, deci, forma (2.3.1.) i va fi:
i 1 0 i
x

y | + | = (2.3.2.)
Unde apar erorile? Evident, n diferena dintre valorile efectiv observate
i
y pe care le
regsim n tabelul de date i valorile pe care le-am estimat n (2.3.2.), adic
i
y . Reinem,
deci, c eroarea care se face pentru poziia i este:
Eroare
i i i
y y = (2.3.3.)
Aceste erori le putei vedea n Figura 2.1.1., puse n eviden pentru dou drepte care ar putea
aproxima punctele de pe diagrama scatter. Tot din aceast reprezentare grafic se poate
observa i un alt aspect, care va fi esenial mai departe: unele puncte ale diagramei sunt
situate deasupra dreptelor, iar altele sunt situate dedesupt. Asta nseamn c erorile care vor
rezulta din calcul vor putea avea semne diferite, uneori plus, alteori minus. Atunci cnd se
pune problema s evalum eroarea total nsumarea unor valori pozitive i a unora negative
poate conduce la anulare, astfel nct dei n realitate erorile pot fi considerabile suma lor ar
putea fi totui nul. Ori, eroare zero este un rezultat care ar putea determina pe oricine s
doarm linitit cu toate c n fapt lucrurile se poate s stea prost de tot. Pentru a evita o astfel
de situaie extrem de neplcut, statisticienii au cutat soluii care s ofere o variant de
calcul a erorii totale care s nu se mai confrunte cu astfel de probleme. S-a optat pentru luarea
n discuie a erorilor din (2.3.3.) ridicate la ptrat, ceea ce elimin definitiv posibilitatea
vreunei valori negative. Cineva ar putea argumenta c trecerea valorilor n valoare absolut,
adic n modul, elimin n egal msur valorile negative i n plus nu ne pune n situaia s
lucrm cu valorile mari, sau incomode din punct de vedere al numrului de zecimale, pe care

15
le poate atrage dup sine ridicarea la ptrat. De exemplu, dac o eroare este 05 , 0 valoarea
ei absolut este 05 , 0 , pe cnd ptratul ei este 0025 , 0 i mai devreme sau mai trziu tot vom
suspecta vreo greeal de calcul. Argumentul adus n sprijinul funciei modul este corect, dar
trebuie s v amintii i faptul c aceast funcie are o serie de obiceiuri proaste care se
manifest cu precdere atunci cnd urmeaz a fi derivat. Ori, interesul nostru este s
utilizm pentru minimizarea erorii totale tocmai acele instrumente pe care ni le pune la
dispoziie calculul diferenial i cu care funcia ptrat este n cele mai bune relaii.
Metoda utilizat n estimarea parametrilor ecuaiei de regresie este cunoscut sub
numele de Metoda celor mai mici ptrate i presupune determinarea lui
0

| i
1

| astfel nct
s fie minimizat expresia:
( )

=
=
n
1 i
2
i i
y y SPE (2.3.4.)
O privire simultan asupra relaiilor (2.3.3.) i (2.3.4.) ne spune c ultima dintre ele reprezint
suma ptratelor erorilor (SPE) care apar atunci cnd utilizm pentru dreapta de regresie
estimarea (2.3.1.). Nu vom prezenta aici ntreaga demonstraie a metodei, dar vom reine c
valorile lui
0

| i
1

| se calculeaz conform regulilor urmtoare:


( )( )
( )

=
=


= |
n
1 i
2
i
n
1 i
i i
1
x x
y y x x

sau
2
n
1 i
i
n
1 i
2
i
n
1 i
i
n
1 i
i
n
1 i
i i
1
x
n
1
x
y x
n
1
y x

|
.
|

\
|

= |


= =
= = =
(2.3.5.)
x

1 0
| = | (2.3.6.)
Semnnificaiile pentru
i
x i
i
y au fost deja discutate. Avem de precizat c x reprezint
valoarea medie pentru variabila independent, iar y este valoarea medie pentru variabila
independent, mrimi calculate din:
n
x
x
n
1 i
i
=
= ;
n
y
y
n
1 i
i
=
= (2.3.7.)
Ca de obicei, n reprezint numrul de observaii adic numrul datelor din tabel. Se observ
c n (2.3.5.) exist dou formule de calcul pentru
1

| . Ele conduc, evident, la acelai rezultat


dar de obicei se consider c forma a doua este mai simplu de aplicat.
Vom folosi aceste rezultate pentru exemplul firmei de telefonie mobil i vom calcula
toate valorile necesare pe baza datelor din Tabelul 1.2.1.:

16
100 x x
10
1 i
i
n
1 i
i
= =

= =

36 , 1154 y y
10
1 i
i
n
1 i
i
= =

= =

1232 x x
10
1 i
2
i
n
1 i
2
i
= =

= =

36 , 14195 y x y x
10
1 i
i i
n
1 i
i i
= =

= =

Aplicm a doua form (2.3.5.) i obinem prin nlocuire:
( )
43 , 11
100
10
1
1232
36 , 1154 100
10
1
36 , 14195

2
1
=


= |
Pentru aplicarea formulei (2.3.6.) i calculul lui
0

| , avem nevoie de x i y pe care le


obinem din (2.3.7.):
10
10
100
x = = i 436 , 115
10
36 , 1154
y = = .
Calculm acum
0

| din (2.3.6.):
136 , 1 10 43 , 11 436 , 115

0
= = |
Prin urmare, am obinut ecuaia estimat a regresiei:
x 43 , 11 136 , 1 y + = .
Este cazul s comentm rezultatul. Panta ecuaiei estimate a regresiei este 11,43 i ia o
valoare pozitiv, ceea ce nseamn c dac numrul clienilor supermarketului este mai mare,
de asemenea i vnzrile anuale ale dealerului situat n complexul comercial respectiv sunt
mai mari. Putem spune ceva mai concret chiar, avnd n vedere semnificaia pantei unei
drepte despre care am discutat puin mai devreme. n Tabelul 1.2.1. numrul clienilor este
exprimat n sute, iar volumul vnzrilor n sute RON. Deci, o cretere cu 100 a numrului
clienilor din supermarket nseamn c ne ateptm la vnzri anuale medii mai mari cu 11,43
sute RON. Asta nseamn c vnzrile anuale medii de care este responsabil fiecare client din
supermarket sunt de 11,43 RON.
De asemenea, dac privim valoarea 136 , 1

0
= | vom afla c dac supermarketul nu
este vizitat de clieni ( ) 0 x = exist totui anse ca dealerul s vnd cte ceva ctre acele
persoane care vin la magazin exact n acest scop sau care se nimeresc prin zon i intr i ele

17
ca s pun vreo ntrebare. n situaia inexistenei clienilor n supermarket, vnzrile medii
anuale ale dealerului ar fi de 1,136 sute RON, sau altfel spus 113,6 RON.
Dac ecuaia estimat a regresiei se va dovedi credibil (iar lucrul acesta l vom
lmuri n seciunea urmtoare), atunci vom putea utiliza aceast descriere a relaiei dintre x i
y pentru a realiza predicii ale lui y n condiiile n care ne sunt date valori ale lui x. De
exemplu, directorul firmei ar dori s tie care sunt vnzrile medii anuale la care se poate
atepta de la un dealer situat lng un supermarket vizitat zilnic de 1700 de clieni, adic
pentru . 17 x = Obinem o medie anual a vnzrilor egal cu:
446 , 195 17 43 , 11 136 , 1 y = + = sute RON,
adic 19544,6 RON. Seciunea urmtoare va prezenta metode prin intermediul crora putem
stabili dac estimarea s-a fcut cu acuratee i dac rezultatele obinute pot fi utilizate n
prognoz.

2.4. Verificarea ecuaiei estimate
Acum, c ne-am familiarizat cu calculul ecuaiei estimate a regresiei, vom trece la
pasul urmtor i vom nva cum putem s verificm corectitudinea rezultatului. Problema nu
este inutil, dac v uitai la formulele care au fost aplicate: cu ct dispunei de mai multe
date, sau valori observate, cu att este mai puternic ameninarea s se strecoare o eroare de
calcul. Prin urmare, se contureaz ca necesar o metod prin care s stabilii dac ecuaia pe
care ai obinut-o este corect.
Exist, ne spun specialitii, dou metode pe care le putei aplica n acest scop. Prima
este uor de intuit i presupune reprezentarea grafic a dreptei estimate a regresiei pe
diagrama scatter: vei urmri dac linia obinut descrie ct mai bine cu putin
comportamentul punctelor de care dispunei ca urmare a observaiilor. Aceast metod este la
ndemna oricui i nu necesit dect atenie la reprezentarea grafic, dar nu conduce la
rezultate foarte exacte pentru c este o evaluare bazat mai mult pe observaii i nu ofer
argumente bine susinute teoretic. V propun ca exerciiu s reprezentai grafic dreapta
estimat a regresiei obinut pentru exemplul firmei de telefonie mobil, pe diagrama scatter
din Figura 1.3.1.
Cea de-a doua metod pe care au pus-o n eviden specialitii presupune, e drept, mai
multe calcule, dar permite obinerea de concluzii argumentate. Metoda deriv direct din
proprietile pe care trebuie s le ndeplineasc dreapta determinat prin metoda celor mai
mici ptrate i presupune verificarea faptului c suma erorilor individuale pozitive i negative

18
rezultate din din aproximarea valorilor y cu cele de pe dreapta de regresie y trebuie s fie
egal cu zero. Vom exemplifica aceast metod pentru datele de care dispune firma de
telefonie mobil. Calculm prin urmare valorile y pentru toate cele zece valori ale lui x, pe
baza ecuaiei estimate a regresiei x 43 , 11 136 , 1 y + = .

x y y
y y
1 19,36 12,566 6,794
4 50 46,856 3,144
7 68 81,146 -13,146
7 90 81,146 8,854
10 100 115,436 -15,436
12 125 138,296 -13,296
14 150 161,156 -11,156
14 200 161,156 38,844
15 162 172,586 -10,586
16 190 184,016 5,984
Total erori individuale: 0
Tabelul 2.4.1. Calculul erorilor individuale pentru datele deinute de firma de telefonie
mobil

Din coloana a patra a Tabelului 2.4.1. se observ c suma tuturor erorilor individuale este
zero, prin urmare acum putei fi siguri c nu s-a strecurat nici o eroare de calcul atunci cnd
am fcut demersurile necesare obinerii ecuaiei estimate a regresiei. Dac, aa cum v-am
sugerat, ai reprezentat grafic dreapta estimat a regresiei pe diagrama scatter, putei s v
convingei c linia pe care ai trasat-o aproximeaz foarte bine tendina punctelor care au fost
reprezentate pe baza datelor din Tabelul 1.2.1.

2.5. Eroarea standard a estimrii
Pasul urmtor care trebuie parcurs n procesul analizei de regresie se refer la modul
n care putem msura ncrederea cu privire la ecuaia estimat pe care am construit-o anterior.
Este dreapta de regresie relevant n raport cu datele observate? Oricine poate intui c dreapta
va fi cu att mai relevant pentru studiu cu ct punctele diagramei scatter sunt mai apropiate
de ea, lucru care de data aceasta nu mai are legtur cu corectitudinea calculului. Aici este

19
vorba despre faptul c ecuaia estimat a regresiei este corect determinat (ai verificat deja c
suma erorilor individuale este nul), dar s-ar putea ca dincolo de toate eforturile noastre
punctele rmase n afara dreptei s fie att de multe i, mai ales, att de distanate de aceasta
nct utilizarea estimrilor s fie aproape inutil. Reprezentm n continuare dou situaii care
implic aceeai dreapt de regresie pentru dou diagrame scatter diferite. Este limpede c
Figura 2.5.1.a. se refer la un caz care inspir mai mult ncredere dect Figura 2.5.1.b.,
pentru c n prima situaie punctele diagramei scatter sunt mai adunate i indic o mai mic
mprtiere fa de dreapta de regresie.

Figura 2.5.1. a i b. Dou diagrame scatter care arat mprtieri diferite fa de dreapta de
regresie

Pentru msurarea ncrederii pe care o putem avea n ecuaia estimat a regresiei,
statisticienii ne-au pus la dispoziie mrimea numit eroarea standard a estimrii, notat
e
s
i avnd o natur similar abaterii standard de selecie pe care ai ntlnit-o la cursul de
statistic. Ambele mrimi reprezint, de fapt, o msur a dispersrii datelor fa de o
medie: abaterea standard de selecie msoar dispersarea fa de media de selecie, pe cnd
eroarea standard a estimrii msoar dispersarea fa de punctele dreptei de regresie care,
reamintii.v, au ordonata y pe care am asimilat-o estimatorului mediei ( ) y M . Formula de
calcul a lui
e
s este:
2 n
SPE
s
e

= (2.5.1.).
Dac ne amintim cine este SPE, din (2.3.4.), atunci eroarea standard a estimrii se poate scrie
ntr-o form desfurat:
( )
2 n
y y
s
n
1 i
2
i i
e

=

=
(2.5.2.)
Se poate observa acum asemnarea dintre formulele de calcul pentru abaterea standard de
selecie i eroarea standard a estimrii i vom reine c numrul gradelor de libertate pe care
le vom lua n calcul pentru
e
s este 2 n , adic tocmai numitorul fraciei de sub radical.
Vom calcula acum
e
s pentru exemplul firmei de telefonie mobil i pentru asta
utilizm ultima coloan din Tabelul 2.4.1. n scopul obinerii lui SPE:

20
( ) 49 , 2503 y y SPE
n
1 i
2
i i
= =

=
.
Pentru c 10 n = , deducem c 8 2 n = i din (2.5.1.) obinem eroarea standard a estimrii
ca fiind.
69 , 17
8
49 , 2503
2 n
SPE
s
e
= =

=
Unitatea de msur a lui
e
s este aceeai cu a mrimilor y, prin urmare 69 , 17 s
e
= sute RON,
sau 17690 RON.
Specialitii ne propun i o alt metod de calcul pentru
e
s , pe care unii dintre cititori
ar putea-o considera mai simplu de aplicat. Dac x

y
1 0
| + | = este ecuaia estimat a
regresiei, a doua metod ne nva c
e
s poate fi obinut din formula:
2 n
y x

y
s
n
1 i
i i 1
n
1 i
i 0
n
1 i
2
i
e

| |
=

= = =
(2.5.3.)
La o prim vedere, formula (2.5.3.) este cu mult mai complicat dect (2.5.1.) sau (2.5.2.) i
de aceea este nevoie s discutm puin asupra utilitii ei. Dac n ecuaia estimat e regresiei
ai calculat deja
1

| din a doua variant a formulei (2.3.5.), atunci singurul termen care v mai
lipsete din (2.5.3.) este

=
n
1 i
2
i
y , care poate fi calculat direct din tabelul de date. Evitai, astfel
operaiile de scdere y y i ridicrile la ptrat ale rezultatelor. Pe de alt parte, dac ai fost
nevoii s verificai corectitudinea calculului printr-un tabel ca 2.4.1., atunci nu prea mai
conteaz ce formul de calcul aplicai pentru
e
s , fiindc deja avei la dispoziie erorile
individuale. n orice caz, este un exerciiu bun s ncercai determinarea lui
e
s prin ambele
formule de calcul despre care am discutat aici.
Am convingerea c tocmai v trece prin cap un protest vehement relativ la rostul
mrimii
e
s , o mrime n plus n totalul i aa deranjant pe care vi l-a oferit pn acum aceast
prezentare. S aplicm i s interpretm pornind de la exemplul nostru: am afirmat ceva mai
devreme c pe baza ecuaiei estimate a regresiei se poate face o predicie cu privire la nivelul
anual al vnzrilor pentru un dealer situat n preajma unui supermarket cu 1700 de clieni
zilnic. Mai exact, am gsit acel nivel anual mediu ca fiind egal cu 195,446 sute RON, sau
19544,6 RON. Dac ai fi chiar proprietarul firmei de telefonie mobil, v-ar interesa foarte
tare n ce msur v putei baza pe aceast predicie. Uneori, astfel de proprietari nu in

21
neaprat s citeasc un curs de econometrie i, din pcate, nici nu ntreab vreun specialist n
domeniu. Cei care o fac, ns, pot afla o sumedenie de lucruri interesante pe care le vom
prezenta imediat.
Deocamdat tim c avem, pentru 17 x = , o predicie 446 , 195 y = . Fiecare dintre
mrimi se msoar conform cu unitile de msur care au fost stabilite n tabelul iniial al
datelor. Mai im c exist o abatere standard a estimrii 69 , 17 s
e
= . Bunul sim ne sugereaz
c n realitate nivelul mediu al vnzrilor anuale este cel prognozat, dar n rezultatul
446 , 195 y = exist o marj de eroare de 69 , 17 . Adic, media anual ar fi situat ntre
69 , 17 446 , 195 i 69 , 17 446 , 195 + , sau echivalent, n intervalul ( ) 136 , 213 ; 756 , 177 . ntr-un
anume fel i mai ales n anumite condiii, afirmaia este adevrat. Nu trebuie s uitm nici o
clip c valoarea 446 , 195 y = este doar o predicie, deci c include un anumit grad de
aproximare i atunci devine natural ntrebarea: Care sunt ansele ca acest interval s fie
corect? De asemenea, teoria probabilitilor ne nva c abaterile standard pot oferi
intervale simetrice fa de medie doar n cazul n care distribuia de probabilitate a variabilei
aleatoare despre care se discut este la rndul ei simetric fa de medie i bine ar fi s fie
vorba chiar despre o distribuie normal. Pn s vedem dac astfel de lucruri sunt valabile n
cazul nostru, s facem observaia intuitiv c o eroare standard de estimare mai mare
corespunde unei mprtieri mai pronunate a punctelor de pe diagrama scatter fa de dreapta
de regresie, aa cum se poate vedea n Figura 2.5.1.b., iar o eroare standard de estimare mai
mic evideniaz o mprtiere mai slab, ca de exemplu n Figura 2.5.1.a. De asemenea,
putei deduce imediat c dac 0 s
e
= nseamn c ai gsit o dreapt de regresie pe care sunt
dispuse toate punctele diagramei scatter, deci potrivirea este perfect i n acest caz predicia
se face cu exactitate.
Ca s ne putem referi la intervalul ( ) 136 , 213 ; 756 , 177 pe care l-am obinut mai
devreme ca la o informaie cu consisten tiinific, va trebui s impunem dou condiii a
cror ndeplinire ne va permite obinerea de rezultate corecte i de ncredere pentru directorul
firmei. Condiiile vor fi pe deplin deranjante pentru aceia dintre cititori care i doresc doar
utilizarea practic a unor formule de calcul, dar sunt absolut necesare. Citirorii familiarizai
cu elemente de teoria probabilitilor i statistic le vor considera foarte utile i la locul lor,
lucru care m motiveaz s merg mai departe.

22
Condiia 1 Valorile observate y sunt normal distribuite n jurul fiecrei valori
estimate, y . Aceast condiie este legat, evident, de posibilitatea utilizrii fiecrei estimri
y ca medie a unei variabile aleatoare normale.
Condiia 2. Dispersia distribuiilor n jurul fiecrei valori y este aceeai. Motivul
introducerii acestei condiii este legat de utilizarea valorii
e
s ca valoare unic pentru abaterile
standard ale distribuiilor de probabilitate menionate n prima condiie.
S vedem acum de ce aducerea n discuie a chinuitoarei repartiii normale ne poate
rezolva o serie de probleme. Ne vom reaminti c orice carte de teoria probabilitilor
precizeaz urmtoarele: pentru o variabil normal repartizat, cu media m i abaterea
standard o, sunt valabile afirmaiile:
68% dintre rezultate sunt cuprinse n intervalul ( ) o + o m , m
95,5% dintre rezultate sunt cuprinse n intervalul ( ) o + o 2 m , 2 m
99,7% dintre rezultate sunt cuprinse n intervalul ( ) o + o 3 m , 3 m
Pentru c putem stabili corespondena ntre o i
e
s i pentru c y din ecuaia estimat a
regresiei este estimatir al lui ( ) y M , deci al valorii medii, nseamn c dac cele ou condiii
sunt ndeplinite atunci punctele de pe diagrama scatter au proprietatea de a fi dispuse astfel:
68% dintre ele se afl la distan
e
s fa de dreapta de regresie;
95,5% dintre ele se afl la distan
e
s 2 fa de dreapta de regresie;
99,7% dintre ele se afl la distan
e
s 3 fa de dreapta de regresie.
nseamn c exist 68% anse ca nivelul mediu anual al vnzrilor dealerului situat n
preajma supermarketului vizitat zilnic de 1700 de clieni s fie cuprins ntre 177,756 sute
RON i 213,136 sute RON, pentru c aceste limite de interval au fost obinute din estimarea
lui ( ) y M pentru 17 x = , plus sau minus valoarea lui
e
s .
Spre disperarea celor care nu au fost intotdeauna prietenii calculelor, trebuie spus c
nu ne vom opri aici. O scurt rememorare a elementelor de statistic va trage un semnal de
alarm n dou direcii. Prima este legat de faptul c practica nu ne pune la dispoziie
ntotdeauna repartiii normale, iar a doua este legat de dimensiunea eantionului, adic de
numrul datelor pe care le avem la dispoziie.
Ceva mai devreme am subliniat natura similar a mrimilor pe care le cunoatem
acum sub numele de eroarea standard a estimrii,
e
s i abaterea standard de selecie, pe care
la cursul de statistic ai notat-o cu s. De asemenea, am avut o tentativ de construcie a unui

23
interval de predicie, similar intervalului de ncredere pe care l cunoatei de la acelai curs.
ntr-adevr,
e
s poate fi utilizat pentru construcia unui astfel de interval n jurul valorii
estimate y , unde s fie situate cu o anumit probabilitate valorile efectiv observate pe care le-
am tot notat cu y. Acesta este aspectul de care ne vom ecupa n continuare, mai exact
construcia intervalelor aproximative de predicie.

2.6. Intervale de predicie
Din cele amintite anterior despre repartiia normal i pe baza acelor condiii pe care
le-am impus asupra repartizrii valorilor y, putem afirma c: 68% dintre valorile y se afl la
distana
e
s fa de dreapta de regresie (deasupra sau sub aceasta, ceea ce face corect
descrierea prin intermediul mrimii
e
s ), c 95,5% dintre valorile lui y se afl la distan
e
s 2 fa de dreapta de regresie i c 99,7% dintre valori se afl la diatan
e
s 3 fa de
aceast dreapt.
Concret, pentru exemplul firmei de telefonie mobil aceasta nseamn c dac 17 x =
i 446 , 195 y = , atunci sunt:
68% anse ca nivelul mediu al ncasrilor pentru un dealer oarecare situat n
vecintatea unui supermarket oarecare cu un numr zilnic de clieni de 1700 s fie
situat n intervalul ( ) 69 , 17 446 , 195 ; 69 , 17 446 , 195 + , deci n intervalul
( ) 136 , 213 ; 756 , 177 ;
95,5% anse ca nivelul mediu al acestor vnzri s fie n
( ) 69 , 17 2 446 , 195 ; 69 , 17 2 446 , 195 + , deci ntre 160,066 i 230,826;
99,7% anse ca nivelul mediu al ncasrilor anuale s fie ntre 69 , 17 3 446 , 195 i
69 , 17 3 446 , 195 + , deci ntre 142,376 i 248,516.
Metoda prin care am construit aceste intervale, pentru grade de ncredere diferite, este corect
n msura n care utilizarea repartiiei normale este justificat. Dac eantionul folosit n
studiu are dimensiune mai mic dect 30 (aa cum este cazul n exemplul nostru) i dac nu
se ndeplinesc cele dou condiii impuse asupra lui y, ceea ce este foarte posibil n practic,
atunci distribuia normal nu mai are nici o putere. Din fericire, statisticienii ne nva c
atunci cnd dimensiunea n a eantionului este mai mic dect 30 i cnd dispersia ntregii
populaii este necunoscut, intr n cu succes Distribuia t, sau Distribuia Student, care n
cazul de fa se bucur de n-2 grade de libertate, acelai n-2 ca i numitrul din formula de
calcul pentru
e
s . Vom reine n acest context forma intervalului de predicie i anume:

24
Cu o probabilitate egal cu o 1 , valorile observate ale lui z se afl situate n
intervalul:
|
.
|

\
|
+
o o e
2
e
2
s t y ; s t y (2.6.1.)
S aplicm aceast form pentru exemplul firmei de telefonie mobil. Avem un eantion
format din 10 n = dealeri, deci 30 n < i, judecnd la rece, habar nu avem care este abaterea
standard a populaiei. Prin urmare, pentru predicie va trebui utilizat intervalul (2.6.1.), cu o
distribuie t cu 8 2 n = grade de libertate. Ne vom referi la valoarea estimat pentru 17 x = ,
pentru care am calculat 446 , 195 y = i vom avea n atenie c dac dorim pentru intervalul
care urmeaz a fi construit un grad de ncredere de 95% de exemplu, atunci:
025 , 0
2
05 , 0 95 , 0 1 =
o
= o = o .
Pentru cele 8 grade de libertate, tabelele distribuiei t ne pun la dispoziie valoarea
306 , 2 t t
025 , 0
2
= =
o
. nlocuim n (2.6.1.) i obinem:
( ) 69 , 17 306 , 2 3 , 195 ; 69 , 17 306 , 2 3 , 195 +
Dup efectuarea calculelor, directorul firmei poate fi sigur n proporie de 95% de faptul c
nivelul mediu anual al vnzrilor pentru un dealer oarecare situat n vecintatea unui
supermarket oarecare cu un numr zilnic de clieni de 1700 este situat ntre 15444 RON i
23616 RON.


Exerciii propuse

Exerciiul 7. Tabelul urmtor prezint ase observaii despre dou variabile, x i y.
Observaia
i
x
i
y
1 4 30
2 5 30
3 6 25
4 2 35
5 9 20
6 10 16
a) Construii o diagram scatter pentru aceste date.

25
b) Reprezentai grafic dreapta x 2 40 y = pe diagrama scatter. Considerai c aceast
dreapt este o bun aproximare a datelor?
c) Utilizai metoda celor mai mici ptrate i calculai ecuaia estimat a regresiei pe baza
datelor din tabel.
d) Calculai ( )

=
=
n
1 i
2
i i
y y SPE pentru dreptele de la b) i c). Care valoare a lui SPE este
mai mic i cum explicai?

Exerciiul 8. Datele din tabelul urmtor indic salariile de care beneficiaz angajaii unei
firme i vechimea acestora la locul de munc.
Vechime (ani) Salariu (RON)
1,5 651
2,5 800
3,2 920
3,6 870
4,3 1000
2,9 820
a) Construii ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Facei o predicie cu privire la salariul pe care l poate primi un angajat cu doi ani
vechime i unul cu cinci ani vechime.

Exerciiul 9. Construii ecuaia estimat a regresiei pentru datele din Exerciiul 3 propus
n seciunea precedent. Facei apoi o predicie cu privire la media general cu care poate fi
absolvit facultatea de ctre un student care a fost admis cu nota 9.

Exerciiul 10. [Andersen] O agenie imobiliar dispune de urmtoarele date cu privire la
suprafaa i preul de vnzare pentru cinci locuine:
Spaiu locuibil (mp) Pre de vnzare (mii euro)
250 124
240 108
180 92
300 146
230 110

26
a) Construii ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Facei o predicie cu privire la preul de vnzare pentru o locuin cu suprafaa de 270
mp.

Exerciiul 11. Se dau urmtoarele date:
x 54 46 40 56 38 37 48
y 43 36,5 32,5 44,2 31,2 30,1 38,6
a) Calculai ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Calculai erorile individuale de estimare i verificai corectitudinea calculului de la
punctul anterior, pe baza rezultatului obinut prin nsumarea acestor erori.
c) Calculai eroarea standard a estimrii.
d) Construii un interval de predicie pentru y n cazul unei valori 42 x = , cu un grad de
ncredere de 95%.

Exerciiul 12. O firm care asigur transport internaional efecturaz un studiu cu privire
la efectele pe care le are modificarea preului biletelor asupra numrului de pasageri. Au fost
obinute urmtoarele date:
Pre bilet (euro) Numr pasageri
30 700
35 670
40 670
45 550
50 530
55 500
60 510
65 430
a) Stabilii care este variabila independent x i care este variabila dependent y.
b) Construii diagrama scatter pentru datele din enun.
c) Construii ecuaia estimat a regresiei cu ajutorul metodei celor mai mici ptrate i
reprezentai grafic dreapta corespunttoare n sistemul de coordonate de la punctul
anterior.
d) Calculai erorile individuale i verificai corectitudinea calculului, studiind rezultatul
sumei acestora.

27
e) Calculai eroarea standard a estimrii.
f) Dezvoltai un interval de predicie 95% pentru numrul de pasageri pe care i poate
avea firma dac preul biletului este de 53 euro.

Exerciiul 13. [Levin, Rubin] O firm testeaz agenii proprii specializai n vnzri,
nainte de a-i trimite efectiv pe teren. Managerul firmei este interesat n determinarea relaiei
care se stabilete ntre punctajul obinut la test i vnzrile efective realizate de ctre ageni
dup un an de practic. Urmtoarele date au fost culese i se refer la zece persoane care au
lucrat timp de un an pe teren.
Persoana Punctajul testului Numr uniti
vndute
1 26 95
2 37 140
3 24 85
4 45 180
5 26 100
6 50 195
7 28 115
8 30 136
9 40 175
10 34 150
a) Determinai ecuaia estimat a regresiei, care poate fi utilizat n scopul prediciei
volumului vnzrilor pe baza rezultatelor obinute la test de ctre ageni.
b) Ct de mult este ateptat s creasc numrul unitilor vndute de ctre un agent, la o
cretere cu zece puncte a punctajului obinut la test?
c) Utilizai ecuaia estimat a regresiei pentru a efectua o predicie cu privire la numrul
unitilor pe care le poate vinde un agent care a obinut la testare 25 de puncte.
d) Calculai eroarea standard a estimrii.
e) Construii un interval de predicie 95% pentru mrimea pentru care ai fcut predicia
la punctul c).

ntrebri recapitulative
1. Care este semnificaia parametrilor
0
| i
1
| ?

28
2. Cum se aplic aceast semnificaie pentru exemplul firmei de telefonie mobil?
3. Cum trebuie aleas dreapta de regresie pentru ca analiza de regresie s fie credibil?
4. Ce sunt erorile individuale, care este formula de calcul i ce semn pot avea? Ce
sugereaz semnul erorilor individuale?
5. Ce este metoda celor mai mici ptrate i ce anume se urmrete prin aplicarea ei?
6. Care sunt formulele de calcul pentru parametrii ecuaiei estimate a regresiei?
7. Care este diferena dintre modelul de regresie i ecuaia estimat a regresiei?
8. Prin ce metode se poate verifica dac ecuaia estimat a regresiei a fost calculat
corect?
9. Ce este eroarea standard a estimrii i unde poate fi utilizat?
10. Ce sunt intervalele de predicie i cum se calculeaz? Comentai semnificaia fiecrei
mrimi care apare n formula general de calcul, n funcie de dimensiunea
eantionului i informaiile pe care le avei despre dispersia populaiei.

29


3. Coeficientul de determinare

Exist, pn n acest moment, cteva aspecte cu care putem fi de acord cu toii. n
primul rnd, faptul c ideea de estimare atrage dup sine suspiciuni cu privire la exactitatea
rezultatului i implicit sugereaz existena unor poteniale erori provenite din diferena ntre
valorile estimate i cele nregistrate efectiv. n al doilea rnd, atunci cnd teoria ne pune la
dispoziie dou sau mai multe metode de estimare se contureaz ideea c diferenele pot s
apar nu doar ntre valorile estimate i cele observate, ci i ntre estimrile obinute prin
metode diferite.
Ar fi ideal s putem conta pe modaliti de control cu ajutorul crora s stabilim
gradul n care o anumit estimare poate fi utilizat n prognoz i este de intuit c un element
de ghidare n obinerea rspunsului la ntrebarea n ce msur pot folosi informaiile pentru
prognoz? trebuie s fie legat de luarea n calcul a unei analize bazate pe cel puin dou
metode de estimare. n mod sigur vei acorda mai mlt credit unui rezultat dac ai obine
acelai lucru pe mai multe ci, nu-i aa?
Iat de ce atunci cnd vom discuta problema acestei msuri, sau gradului n care
ecusia estimat a regresiei poate fi utilizat n prognoze vom face referire la mrilime
observate
i
y , la cele estimate
i
y i la o mrime pe care ne-o ofer statistica. Este vorba
despre y , media valorilor observate, despre care teoria ne nva c poate fi utilizat ca
estimator pentru media ntregii populaii. Aadar, dispunem de:
Datele iniiale
i
y ;
Estimarea pe baza relaiei de regresie, din care obinem valorile
i
y ;
Estimarea bazat pe media y a datelor din eantion.
n cazul exemplului pe care l-am discutat pn acum, al firmei de telefonie mobil,
regsim aceste valori dup cum urmeaz: datele iniiale
i
y i estimrile lor
i
y se afl n
coloanele 2 i 3 ale Tabelului 1.2.1.. Media y a fost calculat pe baza relaiei (2.3.7.) i a
rezultat egal cu 115,436.
Conform cu ceea ce am precizat puin mai devreme, va trebui s lum n calcul
urmtoarele erori i diferene:

30
a) Erorile care apar atunci cnd estimm datele
i
y prin intermediul valorilor
i
y obinute
pe baza ecuaiei estimate a regresiei. Este vorba despre diferenele
i i
y y pe care le
ntlnii n crile de specialitate sub numele de reziduuri. Suma ptratelor erorilor
astfel rezultate este o cunotin mai veche, pe care am notat-o cu SPE i, pentru
exemplul firmei de telefonie mobil, a rezultat din calcul ca fiind egal cu 2503,49.
b) Erorile care apar atunci cnd estimm
i
y prin intermediul valorii medii y , a cror
sum a ptratelor o vom nota SPT i are forma:
( )

=
=
n
1 i
2
i
y y SPT (3.1.)
Expresia (3.1.) este binecunoscut pentru cei care i amintesc formula de calcul a
dispersiei de selecie i reprezint suma ptratelor abaterilor pe care le nregistreaz
datele din eantion fa de valoarea medie de selecie.
Haidei s calculm acum valoarea SPT pentru exemplul firmei de telefonie mobil i
vom utiliza Tabelul 3.1. pentru simplificarea calculului.
x y y
y y
( )
2
y y
1 19,36 115,436 -96, 076 9230,597
4 50 115,436 -65, 436 4281,87
7 68 115,436 -47, 436 2250,174
7 90 115,436 -25, 436 646,99
10 100 115,436 -15, 436 238,27
12 125 115,436 9, 564 91,47
14 150 115,436 34, 564 1194,67
14 200 115,436 84, 564 7151,07
15 162 115,436 46, 564 2168,2
16 190 115,436 74, 564 5559,79
SPT = 32813,1
Tabelul 3.1. Calculul valorii SPT prin nsumarea rezultatelor din ultima coloan a tabelului.
Am obinut, deci, 1 , 32813 SPT = pentru exemplul firmei de telefonie mobil. Asupra acestui
rezultat vom reveni cu cteva comentarii imediat ce vom prezenta i ultima categorie de
diferene care trebuie luate n calcul n studiul nostru.
c) Diferenele care apar ntre cele dou variante de estimare, cea n care a fost utilizat
ecuaia estimat a regresiei i cea n care am folosit media de selecie calculat pe

31
baza eantionului de date. Este vorba, deci, despre ( ) y y
i
, iar suma ptratelor
acestora o vom nota SPR.
( )

=
=
n
1 i
2
i
y y SPR (3.2.)
Pentru exemplul firmei de telefonie mobil utilizm Tabelul 3.2. i calculm SPR.
y y
y y
( )
2
y y
12,566 115,436 -102,87 10582,2369
46,856 115,436 -68,58 4703,2164
81,146 115,436 -34,29 1175,8041
81,146 115,436 -34,29 1175,8041
115,436 115,436 0 0
138,296 115,436 22,86 522,5796
161,156 115,436 45,72 2090,3184
161,156 115,436 45,72 2090,3184
172,586 115,436 57,15 3266,1225
184,016 115,436 68,58 4703,2164
SPR = 30309,61
Tabelul 3.2. Calculul valorii SPR prin nsumarea rezultatelor din ultima coloan a tabelului.
Am calculat, aadar, cele trei sume implicate de diferenele care apar ntre valorile
observate i cele estimate, respectiv ntre mrimile rezultate din cele dou estimri pe care le-
am folosit. O nlocuire simpl v va convinge c are loc urmtoarea egalitate:
SPR SPE SPT + = (3.3.)
Aceast relaie se verific ntotdeauna, nu doar pentru exemplul firmei de telefonie mobil,
dar demonstraia afirmaiei nu este tocmai plcut i de aceea voi opta pentru omiterea ei din
aceast lucrare. Aceia dintre cititori care agreaz calculele laborioase i doresc s se conving
de adevrul egalitii (3.3.) n cadru general pot gsi amanunte i indicaii suplimentare n
lucrri de econometrie care dezvolt mai profund aspectele teoretice
4
. n ceea ce ne privete,
vom lucra n continuare considernd c (3.3.) este adevrat i vom discuta implicaiile
acestei egaliti.
Vom privi din nou la SPE i SPT i ne vom aminti faptul c SPE este suma ptratelor
erorilor care apar ntre punctele diagramei scatter (care corespund valorilor observate, dau

4
Se poate vedea Jula Dorin, Op. Cit.

32
date,
i
y ) i punctele corespunztoare de pe dreapta estimat a regresiei. Gndind ntr-o
manier similar, SPT va trebui s provin din nsumarea ptratelor erorilor care apar ntre
punctele aceleiai diagrame i cele corespunztoare de pe dreapta de ecuaie y y = . Figura
3.1. arat aproximarea punctelor
i
y prin cele dou drepte.


Figura 3.1. Diagrama scatter pentru datele din Tabelul 1.2.1. i aproximarea acesteia prin
ecuaia estimat a regresiei, respectiv prin dreapta y y =

n Figura 3.1. am pus n eviden eroarea aproximrii pentru valoarea lui y corespunztoate
lui 16 x = . Am notat cu
1
E eroarea fa de dreapta de regresie i cu
2
E eroarea fa de
dreapta orizontal y y = . Similar, se ot evidenia toate erorile pentru toate punctele diagramei
scatter. Este momentul s ne amintim c n capitolul precedent am discutat despre metoda
care permite s verificm calculul matematic atunci cnd construim ecuaia estimat a
regresiei. Spuneam atunci c suma erorilor individuale trebuie s fie zero i am artat c
lucrul acesta chia se ntmpl. Spuneam, de asemenea, c aceast condiie nu se refer la
gradul de ncredere pe care l putem avea n n ecuaia estimat a regresiei, n sensul c nu
aflm de aici n ce msur ne putem baza pe aceasta pentru predicii ulterioare i a sosit clipa
s ne motivm afirmaia. Dac avei curiozitatea s nsumai erorile din coloana a patra a
Tabelului 3.1. vei obine valoarea zero. Asta nu nseamn nici pe departe c dreapta de
ecuaie y y = este o foarte bun aproximare a punctelor de pe diagrama scatter, lucrul acesta
fiind argumentabil n dou moduri: nti, Figura 3.1. v convinge imediat c diagrama este
mult mprtiat fa de punctele dreptei orizontale, iar al doilea va trebui s comparai suma
ptratelor erorilor n dou situaii, adic SPE i SPT. Se observ c SPT, corespunztor
aproximrii prin dreapta orizontal, este mult mai mare dect SPE care deriv din
aproximarea pe baza dreptei de regresie, cu toate c suma erorilor individiale n fiecare caz
este zero. Deducei de aici c anularea sumei este o simpl verificare pentru corectitudinea
calculului i nu pentru vreo afirmaie relativ la precizia estimrii pe baza dreptei respective.
Mai putem face o observaie pornind de la egalitatea (3.3.). Pentru c SPR este o sum
de ptrate, nseamn c are loc ntotdeauna 0 SPR > . Egalitatea cu zero poate avea loc doar
dac toi termenii implicai n calcul ar fi zero, adic
i
y y = 0, ( ) n , 1 i = . Aceast situaie
corespunde cazului n care dreapta de regresie se suprapune peste dreapta y y = i este

33
unicul caz n care SPE SPT = . Pornind de la reprezentarea grafic din Figura 3.1. putem
spune deci c SPT i SPE au urmtoarea semnificaie:
SPT este msura erorii atunci cnd nu utilizm analiza de regresie
SPE este msura erorii atunci cnd utilizm analiza de regresie
Am convingerea c pn n momentul de fa cel puin un cititor i-a pus ntrebarea
dac relaia (3.3.) mai are i alt rost nafar de stresarea nceptorilor n econometrie. mi face
plcere s spun c tot ce am spus pn acum converge ctre o argumentare solid relativ la
msura n care relaia gsit pentru ecuaia estimat a regresiei poate fi utilizat n prognoze.
Aceasta nsemna, dup cum am mai spus i n capitolul anterior, ca pe dreapta de regresie s
se afle ct mai multe dintre punctele diagramei scatter. Un ideal, greu de atins, ar fi ca dreapta
la care ne.am referit s treac prin toate aceste puncte, ceea ce ar nsemna c n toate cazurile
are loc
i
y
i
y = , iar n Figura 3.1. ai mai regsi doar erori fa de dreapta orizontal y y = .
ntr-o atare situaie ar avea loc:
i
y y = 0, ( ) n , 1 i = 0 SPE =
Cele dou cazuri extreme pe care le.am pus n discuie, cu toate c nu se prea ntlnesc n
practic, sunt de ajutor pentru studiul unei mrimi pe care o vom defini imediat i pe care se
bazeaz multe elemente din analiza de regresie. Este vorba despre coeficientul de
determinare.
Definiia 3.1. Coeficientul de determinare este mrimea care reflect gradul n care
ecuaia estimat a regresiei poate fi folosit n prognoze. Se noteaz cu
2
r i se calculeaz
dup formula:
SPT
SPR
r
2
= (3.4.)
Cele dou cazuri extreme discutate anterior ne spun c:
0 r
2
= dac 0 SPR = , adic dac dreapta de regresie se suprapune peste dreapta
y y = ;
1 r
2
= dac SPT SPR = ,ceea ce nseamn din (3.3.) c 0 SPE = adic dac dreapta
de regresie se suprapune peste toate punctele diagramei scatter.
n oricare alt situaie, pentru c SPE este o sum de ptrate i este pozitiv, la fel cu
celelalte mrimi implicate n (3.3.), are loc inegalitatea SPT SPR < . Rezult imediat c
1
SPT
SPR
< . innd cont de cele dou cazuri particulare i de definiia coeficientului de
determinare, obinem:

34
| | 1 , 0 r
2
e (3.5.)
Coeficientul de determinare exprim procentul din SPT care poate fi explicat de utilizarea
ecuaiei estimat a regresiei. El mai poate fi folosit ca msur a gradului de apropiere a
dreptei de regresie de punctele diagramei scatter, n sensul c o valoare mare a lui
2
r ne
spune c apropierea este foarte bun. Nu n ultimul rnd,
2
r exprim o msur a intensitii
relaiei de regresie: mai exact, cu ct
2
r este mai mare relaia este mai puternic pe cnd o
valoare mic a lui
2
r arat o relaie slab.
Pentru exemplul firmei de telefonie mobil, coeficientul de determinare este
9237 , 0
1 , 32813
61 , 30309
r
2
= = . n exprimare procentual avem % 37 , 92 r
2
= , valoare foarte
apropiat de 1, deci relaia dintre numrul clienilor din supermarket i vnzrile anuale ale
firmei este foarte intens.
Altfel exprimat, procentul de 92,37% arat de fapt msura n care variaia vnzrilor
anuale ale firmei de telefonie mobil este explicat de variaia numrului de clieni ai
supermarketului n preajma cruia este situat dealerul. Exprimndu-ne astfel, devine uor de
neles motivul pentru care de foarte multe ori n lucrrile de specialitate vei ntlni, pentru
valorile
i
y denumirea de variabil explicat de modelul de regresie. De asemenea, pentru
c n exemplul nostru coeficientul de determinare este 92,37%, se intuiete c diferena pn
la 100% corespunde unui segment, sau unei pri din variaia vnzrilor care nu poate fi
atribuit numrului de clieni din supermarketuri. Despre aceast diferen de 7,63% nu avem
informaii cuprinse n modelul pe care l-am utilizat i este ideal ca acest procent diferen
s fie foarte mic, astfel nct ncrederea n relaia obinut (ecuaia de regresie) s fie mare.
Dealtfel este limpede c un model, fie el de regresie sau de alt natur, este cu att mai
potrivit cu ct furnizeaz ct mai multe explicaii asupra fenomenului studiat.
n concluzie, procentul de 92,37% ne spune c din variaia total a vnzrilor anuale
care ne-au fost oferite n eantion, 92,37% ar putea fi atribuit modului n care sunt distribuite
datele corespunztoare numrului clienilor din supermarket. A dori s atrag atenia din nou
asupra unu aspect pe care l-am mai comentat i anume faptul c n exprimarea utilizat
anterior nu am sugerat nici o secund o relaie de cauzalitate ntre variabilele modelului. Am
folosit cuvintele ar putea fi atribuit i nu are drept cauz, acestea din urm nsemnnd,
la o privire atent, cu totul altceva.
Acelai procent ne spune c putem s avem ncredere n faptul c ecuaia estimat a
regresieiofer o bun aproximare a punctelor diagramei scatter.

35
n final trebuie s recunoatem c ntreg calculul lui
2
r este destul de incomod i c
metoda direct pe care am prezentat-o i care utilizeaz Tabelele 3.1. i 3.2. este destul de
riscant, mai ales c n calculul erorilor ridicate la ptrat apar deseori zecimale i tot deseori
se simte nevoia aproximrii valorilor obinute. Desigur c n scopuri didactice a fi putut
alege un exemplu care s nu cauzeze bti de cap cititorului, ns ntr-o atare situaie probabil
c metoda rapid de calcul pe care o voi prezenta mai departe nu ar mai fi fost apreciat la
justa ei valoare.
Experiena didactic mi-a dovedit c de foarte multe ori studenii manifest aversiune
fa de formulele de calcul i prefer s abordeze problemele ntr-o manier direct,
muncitoreasc. Din pcate, trunchierile rezultatelor intermediare determin n marea
majoritate a cazurilor rezultate finale destul de departe de adevr, pentru c datele reale cu
care se lucreaz n problemele practice nu pot fi ntotdeauna alese comod.
Sugerez cititorilor s in cont de toate aceste aspecte i s nu resping metoda de
calcul a coeficientului de determinare care presupune aflarea lui SPR i SPT din formulele
urmtoare:
2
n
1 i
i
n
1 i
2
i
2
n
1 i
i
n
1 i
i
n
1 i
i i
x
n
1
x
y x
n
1
y x
SPR
|
|
.
|

\
|

(
(

=


= =
= = =
(3.6.)
2
n
1 i
i
n
1 i
2
i
y
n
1
y SPT
|
|
.
|

\
|
=

= =
(3.7.)
Atunci cnd am calculat coeficienii
0
| i
1
| pentru ecuaia estimat a regresiei am avut
nevoie de toate elementele care apar n (3.6.) i (3.7.), mai puin de suma

=
n
1 i
2
i
y care va fi
calculat acum. Reamintim c:
10 n = , 36 , 14195 y x
n
1 i
i i
=

=
, 100 x
n
1 i
i
=

=
, 36 , 11154 y x
n
1 i
i i
=

=
, 1232 x
n
1 i
2
i
=

=
.
Din calcul direct, rezult 8096 , 166067 y
n
1 i
2
i
=

=
.
nlocuim n (3.6.) i (3.7.) i obinem:

36
61 , 30309
100
10
1
1232
36 , 1154 100
10
1
36 , 14195
SPR
2
2
=

(


=
1 , 32813 36 , 1154
10
1
8096 , 166067 SPT
2
= =
Coeficientul de determinare se calculeaz din (3.4.) i pentru c valorile SPT i SPR au
rezultat, aa cum ne ateptam, aceleai ca i n cazul metodei anterioare de calcul, nseamn
c
2
r i menine valoarea de 92,37%. n acest fel nu am utilizat tabele, nu am ridicat la
ptrat o grmad de diferene, de fapt n-am fcut dect s utilizm mrimile care ne-au fost
deja de ajutor n calculul lui
0
| i
1
| . Este foarte adevrat c i aceast metod presupune ca,
la un moment dat, s facem ulele aproximri. Dac vei calcula efectiv SPR i SPT prin
intermediul formulelor (3.6.) i (3.7.), vei vedea c ele sunt aproximativ egale cu valorile
pe care le-am comunicat cititorilor. Dar prin aceast metod de lucru eventuala aproximare
apare o singur dat, la finalul calculului i nu n fiecare csu din ultima coloan a
Tabelelor 3.1. i 3.2., aa cum sunt tentai studenii s procedeze atunci cnd sunt confruntai
n mod repetat cu zecimale incomode.
n fond, i calculul direct i aplicarea formulelor prescurtate sunt de fapt metode de
lucru la fel de corecte ct vreme rezultatele obinute nu sunt eronate. Important este ca,
indiferent pe care dintre ci, s o scoatei la capt i s calculai corect coeficientul de
determinare.

Exerciii propuse

Exerciiul 14. Pentru datele din Exerciiul 7, s se calculeze cu ajutorul formulelor
(3.6.) i (3.7.):
a) SPR
b) SPT
c) Folosind formula (3.3.) i rezultatele de la a) i b), calculai SPE i comparai cu
rezultatul pe care l-ai obinut cnd ai rezolvat Exerciiul 7 i ai utilizat metoda
direct.
d) Calcluai coeficientul de determinare i comentai asupra ecuaiei estimate a regresiei
pe care ai obinut-o n rezolvarea Exerciiului 7.

37
Exerciiul 15. Pentru datele din Exerciiul 8, s se calculeze SPR i SPT prin metoda
direct i apoi cu ajutorul formulelor (3.6.) i (3.7.). Care este procentul din SPT care este
explicat prin modelul de regresie? Ce informaii ofer valoarea coeficientului de determinare
cu privire la relaia dintre variabilele din problem?

Exerciiul 16. Pentru datele din Exerciiul 9, se cer:
a) Valorile pentru SPR, SPE i SPT , calculate prin metoda direct i apoi cu ajutorul
formulelor (3.3.), (3.6.) i (3.7.).
b) Comparai rezultatele obinute prin cele dou metode i explicai eventualele diferene
care pot s apar.
c) Calculai coeficientul de determinare i comentai semnificaia lui pe baza elementelor
teoretice explicate n Seciunea 3.

Exerciiul 17. Aceleai cerine ca la exerciiul anterior, pentru datele din Exerciiul 11.

Exerciiul 18. Se dau urmtoarele date:
x 50 75 100 140 160 180
y 5 25 45 70 95 120

a) Imaginai un exemplu practic pentru care datele din tabelul anterior ar putea fi
corespunztoare.
b) Stabilii variabila independent i pe cea dependent, conform cu semnificaiile
impuse de exemplul pe care l-ai ales.
c) Construii ecuaia estimat a regresiei pentru datele din enun i reprezentai-o grafic
n acelai sistem de coordonate cu diagrama scatter care se profileaz.
d) Calculai coeficientul de determinare i interpretai valoarea lui pe baza exemplului
concret pe care l-ai ales.

Exerciiul 19. Calculai coeficientul de determinare pentru ecuaia estimat a regresiei pe
care ai determinat-o la Exerciiul 10. Comentai rezultatul prin prisma semnificaiei lui
2
r .

ntrebri recapitulative


38
1. Care sunt elementele de care dispunem iniial atunci cnd ne pregtim s calculm
coeficientul de determinare?
2. Cte metode de estimare sunt implicate n calculul coeficientului de determinare?
Care sunt?
3. Cte feluri de erori, sau diferene, trebuie avute n vedere atunci cnd urmeaz s
discutm problema coeficientului de determinare? Care sunt?
4. Care este semnificaia mrimilor SPR, SPE i SPT?
5. Care este relaia dintre SPR, SPE i SPT?
6. n cte moduri pot fi calculate mrimile SPR, SPE i SPT? Detaliai.
7. Explicai avantajele i dezavantajele fiecreia dintre metodele de calcul pe care le-
ai menionat ca rspuns la ntrebarea 6.
8. Cum se definete coeficientul de determinare?
9. Care este formula de calcul a coeficientului de determinare?
10. Care sunt comentariile pe care le putei face asupra semnificaiei coeficientului de
determinare?


4. Testarea semnificaiei statistice

Exist cteva motive obiective pentru care aceast seciune va fi prezentat cu foarte
mare atenie i, pentru unii dintre cititori, poate prea n amnunt. Dac prezenta lucrare s-ar
adresa specialitilor n econometrie, cu siguran c grija ar trebui ndreptat doar asupra
corectitudinii informaiei. Mi-am propus, ns, ca aceast carte s se adreseze n primul rnd
persoanelor care nu sunt familiarizate cu domeniul i de aceea, n dorina de a explica foarte
clar noiunile i metodele cu care operm, voi prefera s aduc i foarte multe elemente care
pot fi de ajutor n atingerea obiectivului propus. Seciunea 4 face apel la o serie de cunotine
pe care cititorul ar trebui s le aib ca urmare a lecturrii atente a unui curs de statistic.
Pentru c nu sunt convins de existena acestor informaii nici mcar atunci cnd este vorba
despre fotii mei studeni i pentru c de cele mai multe ori reacia cititorilor este aceea de a
trece peste paragrafele incomode mai degrab dect s caute prin diverse cri o completare
a cunotinelor, am preferat s elaborez aceast seciune reamintind i cteva din elementele
fundamentale de statistic pe care se bazeaz toate construciile i concluziile la care vom
ajunge. mi place s cred c acest demers va fi de ajutor mcar unora dintre dumneavoastr,

39
uurndu-v munca de documentare i, de ce nu, eliminnd o parte din sentimentul de
respingere cu care este primit de ctre studeni aceast parte a analizei de regresie.
Voi ncepe printr-o scurt recapitulare a ctorva lucruri pe care le-am fcut pn
acum. Am prezentat Metoda Celor Mai Mici Ptrate, cu ajutorul creia am determinat
0

| i
1

| pe care i-am numit parametrii ecuaiei estimate a regresiei. Trebuie s ne amintim faptul
c ntreg calculul s-a bazat pe datele din Tabelul 1.1., deci pe un eantion format din zece
dealeri. Haidei s ne gndim c n realitate firma de telefonie mobil are reprezentani n
foarte multe locuri i c n total exist 270 de magazine prin intermediul crora i distribuie
produsele destinate vnzrii: telefoane mobile, accesorii sau abonamente i alte servicii. ntr-
o atare situaie alegerea unui eantion format din zece dealeri se poate face n foarte multe
moduri, mai exact n
10
270
C adic un numr deloc de neglijat pe care nu v-a sftui s ncercai
sa-l calculai dac nu dispunei de un program special pe computer. Ne putem atepta, deci,
ca pentru un alt eantion datele din Tabelul 1.1. s arate mai mult sau mai puin diferit, la fel
de bine cum valorile rezultate dintr-un nou calcul pentru
0

| i
1

| pot fi de asemenea diferite


de cele determinate de noi n Seciunea 2. Mai grav, dac lucrm pe baza datelor provenite de
la 20 de eantioane diferite, de exemplu, n-ar fi de mirare s obinem tot attea valori pentru
parametrii estimai
0

| i
1

| . Ei, bine, toat povestea aceasta reprezint marea problem


care cere ajutorul instrumentelor statistice. Atta vreme ct nu dispunem de absolut toate
datele adic de ntreaga populaie i avem la ndemn doar o parte dintre ele adic
eantionul nu ne putem baza cu certitudine pe rezultatele pe care le-am obinut. Informaia
trunchiat va genera n mod sigur erori i problemele care apar sunt destul de numeroase.
Orice statistician poate mrturisi c lupta cu datele care urmeaz a fi utilizate n
analize este destul de spinoas. Se pot ntmpla dou lucruri: s-i fie puse la dispoziie, sau s
fie invitat s le culeag. Ambele variante creaz oarecari neplceri i este greu de spus care
situaie este de preferat. Dac datele i sunt furnizate pur i simplu, apare problema modului
n care au fost obinute. Sunt corecte? Sunt suficiente? Au fost colectate conform regulilor pe
care le impune statistica? Dac are posibilitatea s le culeag singur, atunci va ti ce are de
fcut pentru ca totul s se desfoare pe baze tiinifice, dar i n aceast situaie se va afla
fa n fa cu fragmente de informaie i nu cu date complete relativ la ntreaga populaie.
Revenind la problema valorilor care se pot obine pentru
0

| i
1

| din diferite
eantioane, este uor de neles faptul c se nate urmtoarea suspiciune: ct de mult ne putem
baza pe rezultatele pe care le-am obinut? Ct de semnificateive sunt, n sensul n care scopul

40
nostru este s caracterizm ntregul pe baza unei pri pe care o cunoatem? De exemplu,
valorile 136 , 1

0
= | i 43 , 11

1
= | pe care le-am calculat n Seciunea 2caracterizeaz ct de
ct fidel ecuaia de regresie pe ansamblul dealerilor firmei de telefonie mobil, sau se poate
ntmpla ca un alt eantion s ne conduc la rezultate complet diferite, ca de exemplu
6 , 12

0
= | i 135

1
= | , iar n realitate s fie vorba despre 4 , 4
0
= | i 5
1
= | ? Aceste ultime
valori s-ar referi la mrimile pe care le-am obine dac am avea acces la datele pentru
ntreaga populaie i care nu ar fi deloc apropiate de rezultatele pe care le-am menionat ca
provenind din dou eantioane diferite.
De obicei eantioanele se aleg uniform aleator i prin urmare exist o valoare de
probabilitate pe care o putei atribui posibilitii ca din aceast alegere s rezulte un eantion
anume. De asemenea, fiecrui eantion i vor corespunde ca urmare a calculului prezentat n
Seciunea 2 valori ferme ale parametrilor estimai
0

| i
1

| . Putem afirma, deci, c


0

| i
1

|
se obin din calcule cu aceeai probabilitate cu care este ales eantionul pe baza cruia au fost
determinai. Dac, de exemplu, eantionul din Tabelul 1.1. apare cu probabilitate 0,014
(ipotetic vorbind) atunci cnd se aleg la ntmplare zece dealeri din totalul lor, atunci putem
spune c 136 , 1

0
= | i 43 , 11

1
= | apar cu probabilitate identic, adic tot 0,014.
Vom discuta un exemplu n care populaia are trei elemente, iar populaia are dou.
Desigur c din punct de vedere practic nu are nici un sens s aplicm instrumente statistice n
aceast situaie, dect dac din diferite motive nu avem acces la ntreaga informaie. Pentru
scopuri didactice, ns, exemplul este potrivit.
Exemplul 4.1. Considerm populaia { } c , b , a din care alegem uniform aleator un
eantion format cu doi itemi. Este uor de observat c exist trei posibiliti i anume: { } b , a ,
{ } c , a , { } c , b i intuim c fiecare variant are ansa, sau probabilitatea, de
3
1
de a fi aleas.
Pentru fiecare dintre cele trei posibiliti de alegere se vor obine valori ferme pentru
0

| i
1

| , pe care le vom nota astfel:


Eantionul { } b , a :
01

| i
11

|
Eantionul { } c , a :
02

| i
12

|
Eantionul { } c , b :
03

| i
13

|

41
Pentru c fiecare eantion apare cu probabilitate
3
1
, cu aceeai probabilitate se vor nregistra
i rezultatele
0

| i
1

| . Construim tablourile urmtoare, n care nscriem pe prima linie


parametrii i pe linia a doua ansele lor de apariie:
Tabloul 1:
|
|
|
.
|

\
|
| | |
|
3
1
3
1
3
1

:

03 02 01
0

Tabloul 2:
|
|
|
.
|

\
|
| | |
|
3
1
3
1
3
1

:

13 12 11
1

Pentru cititorii familiarizai cu teoria probabilitilor faptul c am enumerat toate variantele
de rezultat i ansele lor de apariie este o direcionare clar ctre noiunea de variabil
aleatoare. Tabloul 1 este variabila aleatoare care corespunde lui
0

| , iar Tabloul 2 lui


1

| .
Dac exemplul anterior a fost suficient de clar, nseamn c este de neles faptul c
0

| i
1

| sunt, de fapt, variabile aleatoare care pot lua diferite valori n funcie de eantionul
ales, iar aceste valori se pot ntlni cu aceeai probabilitate cu care eantionul utilizat n calcul
are anse s apar ca urmare a seleciei din ntreaga populaie. Problema care se contureaz
imediat este legat de natura valorilor pe care le pot lua aceste dou variabile aleatoare, n
sensul n care dorim s vedem:
Dac exist o tendin de grupare a lor n jurul unei valori medii;
n ce msur se realizeaz aceast grupare;
Ct de dispersate, sau mprtiate, sunt valorile fa de media pe care am menionat-o.
Exprimat n limbaj de specialitate, dorim ca
0

| i
1

| s ndeplineasc urmtoarele
proprieti:
1) S fie estimatori nedeplasai, adic media fiecreia dintre cele dou variabile aleatoare
s fie egal cu parametrul corespunztor care ar rezulta din calcul dac am utiliza, n
loc de eantion, ntreaga populaie. Aceast proprietate se scrie, formal, astfel:
( )
0 0

M | = | i ( )
1 1
.

M | = |
2) Dispersia variabilelor
0

| i
1

| s fie cea mai mic posibil, adic estimatorii trebuie


s se mprtie, sau s se ndeprteze ct mai puin cu putin de la valorile medii
pomenite anterior.

42
3) S fie estimatori consisteni, adic pe msur ce alegem eantioane de dimensiuni din
ce n ce mai mari, valorile rezultate din calcul pentru
0

| i
1

| s se apropie din ce n
ce mai mult de valorile reale ale parametrilor
0
| i
1
| care corespund ntregii
populaii.
Fr s intrm n amnunte, vom spune c estimatorii
0

| i
1

| calculai prin Metoda


Celor Mai Mici Ptrate ndeplinesc o serie de proprieti care ne dau voie s credem c ne
putem baza pe cele trei caracteristici pe care tocmai le-am prezentat.
Din punct de vedere al practicianului, tot preambulul pe care l-am fcut aici poate fi
considerat plictisitor sau deranjant. Foarte muli cititori sunt interesai n primul rnd de latura
aplicativ a problemelor, simindu-se pe deplin insensibili cnd este vorba despre
caracteristicile sau proprietile teoretice ale instrumentelor cu care opereaz. Prin urmare,
voi continua prezentarea ntr-un registru concret i voi urmri dou coordonate care pot fi de
interes atunci cnd lucrm cu date numerice. n ambele situaii, metodele de lucru au la baz
elemente de statistic i pentru c nu toat lumea cunoate n amnunt capitolul pe cre aceast
tiin l dedic verificrii ipotezelor, voi opta pentru indicarea unor etape de lucru i nu
pentru o recapitulare n amnunt a informaiilor.
Prima problem: Am explicat faptul c
0

| i
1

| sunt, de fapt, estimri ale parametrilor


0
| i
1
| ai ntregii populaii. Se poate ntmpla ca, din diferite considerente, s intuim
valoarea lui
0
| i
1
| i s dorim s verificm dac avem dreptate utiliznd un eantion din
care s calculm
0

| i
1

| . Pentru o mai bun nelegere a fenomenului, haidei s


presupunem c directorul firmei de telefonie mobil are motive s cread c
1
| ia, n
realitate, valoare 11,5. Cum se poate convinge c aceast valoare este plauzibil? n primul
rnd, el nu va avea certitudine asupra afirmaiei dect n situaia n care efectueaz calculul
lui
1
| pe baza datelor provenite de la toi dealerii, adic pe baza ntregii populaii. n rest,
directorul poate spera ntr-o afirmaie cu 90% sau 95% anse de certitudine, sau cu orice alt
procent de obicei mai mic de 100%. S admitem c domnul director se declar mulumit cu
procentul de 90%. Apar aici dou ipoteze pe care le vom numi dup modelul statisticii
ipoteza nul
0
H i ipoteza alternativ
1
H . Ipoteza nul se refer la ceea ce se verific i deci
la posibilitatea 5 , 11
1
= | . Ipoteza alternativ este contrar primeia i va presupune, prin
urmare, c 5 , 11
1
= | . Alegerea celor dou ipoteze este mai mult dect fireasc, pentru c se
refer la cele dou ipostaze n care se poate afla
1
| : egal sau diferit de 11,5. Vom scrie astfel:

43
0
H : 5 , 11
1
= |
1
H : 5 , 11
1
= |
Urmeaz acum etapa n care va trebui s hotrm care ipotez este adevrat i pentru
asta vom folosi informaiile pe care le-am obinut deja pe baza eantionului disponibil n
Tabelul 1.1. Avem nevoie de o mrime pe care o numim eroarea standard a corficientului de
regresie, aceasta fiind tocmai rdcina ptrat a coeficientului de determinare
2
r . Pentru c
am precizat deja c voi prezenta doar metoda de calcul, cititorii vor trebui s tie doar faptul
c trebuie calculat mrimea:
2
n
1 i
2
i
e

x n x
s
s
1

=
|
(4.1.)
Pe
e
s l-ai ntlnit n Seciunea 3 i a fost calculat, rezultnd 69 , 17 s
e
= . Obinem, prin
urmare:
1614 , 1
10 10 1232
69 , 17
s
2

1
=

=
|

Tocmai am folosit un element important pentru continuarea calculului i anume informaia cu
privire la dimensiunea eantionului, care este 10 n = . Lucrul acesta ar trebui s ne
reaminteasc faptul c n statistic se ine cont dac eantionul este format din mai mult sau
mai puin de 30 de itemi, pentru c n funcie de asta vom ti cum abordm problema mai
departe. De fapt, avem de calculat dou valori limit i anume: limita superioar a regiunii
de acceptare pentru ipoteza
0
H i limita inferioar a aceleiai regiuni. Va trebui s
determinm mrimile:
1
1
s
|
- |
n locul steluei se va afla fie un t, fie un z, n funcie de dimensiunea eantionului, adic:
Dac 30 n < , cum este i cazul nostru, vom folosi distribuia Student cu 2 n grade
de libertate i n locul lui - va fi un t.
Dac 30 n > , intr n scen distribuia normal i - va fi nlocuit printr-un z.
Am stabilit c directorul firmei se declar mulumit dac poate fi sigur n proporie de
90% de rezultatul testrii. Atunci vom determina o valoare o din egalitatea urmtoare:
05 , 0
2
10 , 0 9 , 0 1 =
o
= o = o

44
Acest o se numete prag de semnificaie i reprezint probabilitatea cu care ipoteza
0
H risc s fie respins, ea fiind n realitate adevrat.
Vom calcula limita superioar i cea inferioar de acceptare astfel:
Limita superioar:
1

2
1
s t
|
o
+ | (4.2.)
Limita inferioar:
1

2
1
s t
|
o
| (4.3.)
Valoarea
2
t
o
, pentru 05 , 0
2
=
o
i 8 2 n = grade de libertate este de gsit n
tabelele distribuiei Student i este 860 , 1 t
05 , 0
= . Cele dou limite se calculeaz imediat,
innd cont c ipoteza
0
H insinueaz o valoare 5 , 11
1
= | :
Limita superioar: 66 , 13 1614 , 1 86 , 1 5 , 11 = +
Limita inferioar: 34 , 9 1614 , 1 86 , 1 5 , 11 =
Mai departe, metoda de lucru ne spune s verificm dac valoarea estimat pentru
1
|
se afl ntre limita inferioar i cea superioar a regiunii de acceptare. Mai exact, dac
( ) 66 , 13 ; 34 , 9 43 , 11

1
e = | . Pentru c apartenena lui
1

| la acest interval este evident, vom


afirma c suntem siguri n proporie de 90% de faptul c ipoteza
0
H este adevrat i vom
accepta c 5 , 11
1
= | .
Exemplul 4.2. Uitai pentru moment faptul c s-ar putea confirma cu anse 90%
valoarea 5 , 11
1
= | i haidei s readucem n discuie amnuntul c 43 , 11

1
= | a fost obinut
din unul dintre eantioanele posibile ale populaiei. Am discutat deja cu privire la
posibilitatea ca acest rezultat s fie, de fapt, foarte departe de adevr i c este posibil ca n
realitate 135
1
= | de exemplu. S testm aceast ipotez urmnd exact aceiai pai pe care
i-am prezentat anterior.
Fixm ipotezele:
0
H : 135
1
= |
1
H : 135
1
= |
Vom calcula din nou limitele regiunii de acceptare din (4.2.) i (4.3.), singura mrime
care se modific fa de calculul precedent fiind 135
1
= | .
Limita superioar: 84 , 132 1614 , 1 86 , 1 135 = +
Limita inferioar: 16 , 137 1614 , 1 86 , 1 135 =

45
Verificm acum dac valoarea 43 , 11

1
= | este situat n intervalul pe care l-am
obinut, adic:
( ) 84 , 132 ; 16 , 137 43 , 11

1
e = |
Apartenena nu este valabil, deci putem afirma cu certitudine de 90% c ipoteza
0
H se
respinge, iar ipoteza
1
H devine implicit acceptat.
Calcule similare se pot face i pentru verificarea ipotezelor relativ la parametrul
0
| i
voi lsa n seama cititorului s afle dac presupunerea c 14 , 1
0
= | este viabil, c o
probabilitate de 90%.
A doua problem: Am luat n calcul pn acum diferite aspecte care vizeaz valorile
posibile ale parametrilor
0
| i
1
| , dar nu ne-am referit la o situaie care, odat aprut, poate
modifica radical modul n care am privit problema relaiei de regresie dintre variabilele x i y.
Este vorba despre cazul n care, de fapt, 0
1
= | ceea ce nseamn c nu exist influen a
variabilei independente asupra variabilei dependente.
Ne vom reaminti c ecuaia regresiei are forma:
( ) x y M
1 0
| + | =
nseamn c dac de exemplu 2
1
= | , atunci modificarea gu o unitate a lui x este
responsabil de modificarea cu dou uniti a lui ( ) y M , ceea ce indic faptul c ntre x i
( ) y M se stabilete o relaie liniar. Dac
1
| se dovedete a fi zero, nseamn c modificrile
lui x nu mai au influen asupra lui ( ) y M , adic ntre cele dou mrimi nu exist o relaie
liniar i, cine tie, poate c de fapt nu exist nici un fel de relaie. De ce n+am putea intui
nc de la nceput o astfel de situaie? Evident, pentru c opernd pe un eantion ne punem
sperane c dac
1

| a rezultat nenul, atunci i


1
| trebuie s fie la fel. Avem deja destule
argumente ca s nu avem ncredere deplin n aceast posibilitate, mai ales dac
1

| are o
valoare foarte mic. Aadar, este justificat testarea ipotezei ca
1
| s fie nul, avnd ca
ipotez alternativ posibilitatea 0
1
= | :
0
H : 0
1
= |
1
H : 0
1
= |
Metoda pe care o vom utiliza mai departe, numit Testul F, se bazeaz tot pe verificarea
ipotezelor statistice i nu va fi aprofundat sub aspectmteoretic ci vor fi urmai doar paii de

46
lecru. Vom utiliza unele mrimi deja calculate i va trebui s mai determinm i altele, dup
cum urmeaz.
Cunoatem deja 49 , 2503 SPE = i, cu ajutorul ei, calculm media ptratelor erorilor
din formula:
2 n
SPE
MPE

= (4.4.)
Obinem 936 , 312
8
49 , 2503
MPE = = . Calculm apoi media ptratelor erorilor rezultate din
utilizarea regresiei, din formula:
. indep . var . nr
SPR
MPR= (4.5.)
Pentru c n modelul nostru avem o singur variabil independent, x, nseamn c numitorul
fraciei anterioare este egal cu 1. Numrtorul a fost calculat deja i este 30309,61, deci
obinem 61 , 30309 MPR= .
Dac ne gndim la un fapt evident, anume acela c odat cu modificarea eantionului
se vor modifica i mrimile SPR i SPE, deci i MPR i MPE, nseamn c acestea din urm
sunt variabile aleatoare. Justificarea este similar celei pe care am adus-o atunci cnd am
explicat c
0

| i
1

| sunt astfel de variabile. Raportul lor l vom nota cu F:


MPE
MPR
F = (4.6.)
Acest F desemneaz o distribuie ntlnit n teoria probabilitilor sub numele de Distribuia
F cu un grad de libertate la numrtor i 2 n grade de libertate la numitor, unde n este
dimensiunea eantionului utilizat.
Calculm valoarea lui F pentru exemplul nostru i obinem:
855 , 96
936 , 312
61 , 30309
F = =
S stabilim dac putem accepta
0
H i vom presupune c trebuie s fim siguri n proporie de
99%. nseamn c putem grei cu anse de 1%, adic 0,01.
Pentru 01 , 0 = o i pentru distribuia F cu un grad de libertate la numrtor i 8 grade
de libertate la numitor, obinem din tabelele specifice valoarea 26 , 11 F
01 , 0
= . Ultimul pas n
rezolvarea problemei noastre este s comparm valorile F i
01 , 0
F pe care tocmai le-am
determinat i s aplim urmtoarea regul de decizie:
Dac
01 , 0
F F s , acceptm
0
H .

47
Dac
01 , 0
F F > , respingem
0
H .
Pentru c > = 855 , 96 F 26 , 11 F
01 , 0
= rezult c ipoteza
0
H se respinge. Asta nseamn c
suntem 99% siguri de faptul c 0
1
= | , deci c ntre variabilele x i y exist o relaie n
sensul c variaia lui x genereaz variaii ale lui y. Putem avea ncredere acum n ecuaia
estimat a regresiei pe care am determinat-o n Seciunea 2 i o putem folosi n predicii cu
privire la vnzrile anuale ale firmei de telefonie mobil.
Specialitii ne pun la dispoziie i o alt metod de verificare a ipotezelor n acest caz,
bazat de aceast dat pe Testul t. Ct vreme lucrai pentru testarea parametrilor unui model
de regresie liniar cu o singur variabil independent, n cazul nostru x, putei aplica dup
propriile preferine Testul F sau Testul t pentru c ele conduc la acelai rezultat. Dac
modelul are, ns, mai multe variabile independente, ceea ce nu este cazul n lucrarea de fa,
Testul F va fi singura arm de care vei dispune.
Discutm n continuare etapele de lucru specifice Testului t, fr s ne oprim asupra
motivelor teoretice care justific funcionalitatea lor.
Pasul 1. Calculm valoarea
2

1
s
|
care se constituie n estimatorul dispersiei, sau
mprtierii
2
o pe care o nregistreaz valorile variabilei aleatoare
1

| :
2
n
1 i
2
i
2

x n x
1
MPE s
1

=
|
(4.7.)
Obinem, pentru exemplul nostru: 349 , 1 s
2

1
=
|
. Trebuie s observai c (4.7.) este de fapt
(4.2.) ridicat la ptrat n ambii membri.
Pasul 2. Calculm raportul
1

1
s

|
|
.
Pentru exemplul nostru, obinem: 84 , 9
1614 , 1
43 , 11
s

1
= =
|
|

Pasul 3. n funcie de pragul de semnificaie dorit, vom calcula
2
t
o
din tabelul
Distribuiei t cu 2 n grade de libertate.

48
S presupunem c dorim s fim siguri n proporie 90% de faptul c ipoteza
0
H este
adevrat. Asta neamn c 05 , 0
2
10 , 0 9 , 0 1 =
o
= o = o , de unde obinem
86 , 1 t
2
=
o
pentru 8 grade de libertate.
Pasul 4. Regula de decizie. Vom folosi urmtoarea regul:
Acceptm
0
H dac s
o
2
t
1

1
s

|
|
2
t
o
s
Respingem
0
H dac
1

1
s

|
|
2
t
o
>
n exemplul nostru se observ c este ndeplinit cea de-a doua relaie, pentru c 9,84 > 1,86.
n consecin, respingem
0
H i acceptm
1
H care ne spune c 0
1
= | . Aceast concluzie o
considerm adevrat la un prag de semnificaie 10 , 0 = o .
n ncheierea acestei seciuni a dori s mai trec n revist nc o dat motivele pentru
care etapa de testare a semnificaiei parametrilor este necesar. Modificrile eantionului i a
dimensiunii acestuia ridic probleme, pentru c apar schimbri n valorile estimatorilor
0

| i
1

| . Problemele se traduc astfel:


n ce condiii putem generaliza estimrile? Altfel spus, n ce condiii putem realiza
inferena statistic?
Pe ce ne bazm atunci cnd afirmm c o estimare este cu adevrat semnificativ i
nu este rezultatul ntmplrii sau a unei conjuncturi particulare, legate de alegerea
unui anumit eantion?
ntre ce limite se poate modifica estimaia fr s afectm concluziile relativ la
semnificaia ei?
Ce garanii probabilistice avem cu privire la semnificaia estimatorilor?
Dac dup parcurgerea acestei seciuni ai putut rspunde acestor ntrebri, nseamn
c ai acumulat toate informaiile necesare pentru aceast etap n materie de testarea
semnificaiei estimatorilor.

Exerciii propuse

Exerciiul 20. Se dau urmtoarele date, provenite din 5 observaii:

49
Observaia
i
x
i
y
1 3 25
2 4 26
3 6 22
4 2 32
5 10 15
a) Calculai SPR, SPT i SPE.
b) Calculai MSR i MSE.
c) Aplicai testul F pentru ipotezele:
0
H : 0
1
= |
1
H : 0
1
= |
la un prag de semnificaie 05 , 0 = o
d) Pentru rezolvarea acestei probleme avei nevoie de determinarea prealabil a ecuaiei
estimate a regresiei?
e) Ce semnificaie considerai c are concluzia pe care ai obinut-o la punctul c)?

Exerciiul 21. Pentru datele de la Exerciiul 7, rspundei cerinelor urmtoare:
a) Calculai SPR, SPT i SPE.
b) Calculai MSR i MSE.
c) La un prag de semnificaie 05 , 0 = o , aplicai testul F pentru ipotezele:
0
H : 0
1
= |
1
H : 0
1
= |
d) Exist vreo relaie ntre variabilele x i y din datele iniiale? Justificai rspunsul.
e) La un prag de semnificaie 05 , 0 = o , testai ipotezele:
0
H : 5 , 2
1
= |
1
H : 5 , 2
1
= |

Exerciiul 22. Pentru datele de la Exerciiul 8, rspundei cerinelor urmtoare:
a) Calculai MSE, ca estimator al lui
2
o .
b) Calculai
2

1
s
|
i
1

s
|
.

50
c) Utilizai Testul t pentru a stabili dac ntre nivelul salariilor angajailor i vechime
exist o relaie. Efectuai testarea, separat, pentru praguri de semnificaie 1 , 0 = o ,
05 , 0 = o i 025 , 0 = o .
d) La un prag de semnificaie 05 , 0 = o , testai ipotezele:
0
H : 120
1
= |
1
H : 120
1
= |
e) La un prag de semnificaie 1 , 0 = o i apoi 05 , 0 = o , testai ipotezele:
0
H : 5 , 486
0
= |
1
H : 5 , 486
0
= |

Exerciiul 23. Pentru datele din Exerciiul 10, testai dac ntre preul de vnzare a unei
locuine i suprafaa acesteia exist o relaie. Utilizai att Testul t ct i Testul F, pentru
pragurile de semnificaie 1 , 0 = o i 05 , 0 = o .

Exerciiul 24. Pentru datele din Exerciiul 12, rspundei urmtoarelor cerine:
a) Utilizai Testul F la un prag de semnificaie 1 , 0 = o i apoi 05 , 0 = o pentru a stabili
dac ntre preul biletului i numrul de pasageri exist sau nu vreo relaie.
b) Aceeai cerin, pentru aplicarea Testului t.
c) Comparai valorile lui
1

1
s

|
|
i
2
t
o
i gsii, dac exist, o relaie ntre ele.
d) Considerai c Testul F i Testul t pot conduce la concluzii diferite?

Intrebri recapitulative

1. Care sunt avantajele i dezavantajele utilizrii eantionului i nu a ntregii populaii?
2. De ce utilizarea eantionului nu ofer informaii exacte despre comportamentul
ntregii populaii?
3. Cte valori ale lui
0

| i
1

| putem obine atunci cnd avem posibilitatea s selectm


diferite eantioane din pupulaie?
4. De ce
0

| i
1

| sunt considerate variabile aleatoare?



51
5. Ce nseamn faptul c
0

| i
1

| sunt estimatori nedeplasai, consisteni i de dispersie


minim?
6. Care sunt cele dou probleme care pot s apar atunci cnd dorim s ne bazm pe
valori
0

| i
1

| provenite din eantioane?


7. Recapitulai paii de lucru ai metodei de testare a faptului c
1
| ia n realitate o
anumit valoare.
8. Recapitulai paii de lucru pentru aplicarea Testului F i a Testului t i precizai
scopul n care sunt aplicate aceste metode.
9. Ce nseamn prag de semnificaie?
10. n ce situaie v este indiferent dac aplicai Testul F sau Testul t?