Sunteți pe pagina 1din 63

ECONOMETRIE

1. Modelul de regresie
1.1. Cteva considerente de ordin general
La fel ca i n multe alte domenii, n domeniul economic i n particular n cel
al afacerilor se ntlnesc deseori situaii care presupun luarea unor decizii, care
necesit prognoze sau care pun n eviden nevoia de a cunoate modul n care
depind unele de altele anumite mrimi importante la nivel de firm. Iat exemplul
foarte simplu al unui ntreprinztor care dorete s tie urmtoarele:
Este potrivit s investeasc pentru reclama unui produs?
Care form de reclam este cea mai potrivit?
Care este legtura ntre suma investit n reclam i volumul vnzrilor pentru
produsul respectiv?
Dac s-au investit n reclam x u.m., care este prognoza pentru volumul
vnzrilor?
Cineva ar putea sugera faptul c ntreprinztorul, ca agent economic raional, nu va
face cheltuieli dect n msura n care va ti sigur care sunt rezultatele pe care
conteaz. Prin urmare, se poate insinua c nu este nevoie de un aparat matematic,
statistic, econometric, pentru a intui c ntreprinztorul va obine ceea ce i-a propus
n momentul n care a decis s fac reclam produsului. Exist ns un revers al
medaliei, pentru c intuiia este totui intuiie i s-ar putea s nu fie foarte exact.
Desigur c logica lucrurilor ne face s afirmm c promovarea produsului are ca
rezultat creterea vnzrilor, dar practica ne nva c se poate s nu se fi optat
pentru cea mai bun variant de promovare, c din motive greu de neles vnzrile
nu au crescut sau, n orice caz, nu att de mult pe ct s-a dorit sau ct s acopere
mcar cheltuielile efectuate n scopul reclamei. Din acest motiv ar fi ideal dac
ntreprinztorul ar putea s cunoasc din vreme o serie de detalii, ca de exemplu
modul n care se va realiza promovarea produsului, msura n care vnzrile
preconizate sunt realizabile, natura relaiei care se stabilete ntre cheltuielile pentru
1
reclam i volumul vnzrilor i prin urmare s poat rspunde la ntrebarea: Exist
posibilitatea ca efortul financiar fcut n scopul publicitii s fie acoperit ntr-un
interval de timp convenabil?.
Cu siguran c astfel de lucruri nu vor putea fi cunoscute pur i simplu,
pentru c este nevoie de date, date statistice pentru care prelucrarea i analiza prin
metode specifice vor putea oferi informaiile necesare. Maniera n care sunt
colectate datele i aranjarea lor n forma cea mai potrivit nu reprezint domeniul
nostru de interes. Amnunte despre aceste etape, despre maniera n care sunt duse
la ndeplinire, se pot gsi n orice manual de statistic
1
. Econometria poate intra n
scen doar dup ce au fost oferite date suficiente, imediat ce a fost stabilit
problema care trebuie rezolvat i n msura n care metodele specifice acestei
discipline sunt utilizabile.
Vom face mpreun primii pai n econometrie, prin studiul unei metode care
poate fi utilizat n scopul determinrii unei relaii de dependen ntre dou mrimi
de interes pe care le vom numi variabile. Este vorba despre Analiza regresiei.
Deocamdat ne vom ocupa de cazul cel mai simplu, acela care implic intenia de a
descrie o variabil y, pe care o vom numi variabil dependent, sau endogen, n
funcie de o singur variabil x, care va purta numele de variabil independent,
sau exogen. Cel mai simplu tip de analiz de regresie presupune c relaia dintre
cele dou variabile se apropie de o relaie liniar care, ntr-o reprezentare grafic,
are foma unei drepte. Cazul care implic o astfel de relaie de dependen este
cunoscut n literatura de specialitate sub numele de Analiza regresiei liniare
simple. Dac variabilele independente sunt dou, sau mai multe, ne situm n cazul
regresiei multiple.
Rezumnd, ne vom ocupa de determinarea relaiei dintre:
y: variabil dependent, sau endogen
x: variabil independent, sau exogen
Vom considera c relaia este suficient de apropiat de una liniar i din cauza
acestei aproximri este natural s ne punem problema dac liniaritatea este o
1
Se poate vedea de exemplu Cornelia Nistor, Elemente de statistic, Ed. Cartea Universitar, Bucureti, 2005.
2
supoziie corect. Prin studiul corelaiei dintre x i y se determin gradul n care
variabilele sunt, ntr-adevr, n relaie liniar i nu de alt natur. Analiza de
corelaie, de care nu ne vom ocupa n aceast lucrare, este o procedur de stabilire
a msurii n care relaia dintre x i y este liniar i, dac acest lucru se confirm, tot
analiza de corelaie ne ajut s determinm intensitatea relaiei.
nainte de a trece efectiv la studiul modelului de regresie mai trebuie precizat
faptul c nici analiza regresiei i nici cea a corelaiei nu pun n eviden o relaie de
tipul cauz efect ntre variabilele implicate n model, ci arat doar n ce msur
sunt ele n legtur una cu alta. Dac analiza este just, dac se dovedete c
exist argumente solide n acest sens, atunci cauzalitatea este un aspect care poate
fi discutat ulterior.
n ncheierea acestei prime seciuni ne vom ntoarce pentru o clip la
exemplul ntreprinztorului doritor s tie dac reclama fcut produsului are efectul
scontat i vom observa c variabila dependent y este volumul vnzrilor, iar
variabila independent x este reprezentat de suma cheltuit pentru publicitate. Pe
viitor, dac nu se fac specificaii cu privire la alegerea variabilelor, va trebui s avei
abilitatea s stabilii singuri cine este exogena i cine este endogena, pentru a putea
construi un model viabil.
1.2. Model determinist i model probabilist
Este esenial ca nc de la nceput s clarificm distincia ntre aceste dou
concepte. Atunci cnd ne referim la un model determinist, trebuie s tim imediat
c a cunoate valoarea variabilei independente x atrage dup sine cunoaterea
exact a variabilei dependente y, aa cum se poate vedea din exemplul urmtor.
Exemplul 1.2.1. Preul unui kilogram de cartofi este de 3 RON. Dac un client
cumpr x kilograme, atunci el va plti o sum pe care o notm cu y i care se
calculeaz, evident, dup regula:
x 3 y
.
3
Acest model de calcul arat cum cunoaterea faptului c se achiziioneaz 4 x kg.
cartofi atrage dup sine cunoaterea sumei exacte care trebuie pltit, adic
12 4 3 y
RON.
n concluzie, nu exist dubii cu privire la valoarea y a sumei pltite, odat ce se
cunoate cantitatea x achiziionat.
Vom pune n eviden, prin intermediul exemplului urmtor, o situaie care
relev o component incert.
Exemplul 1.2.2. O firm de telefonie mobil are dealeri pe tot cuprinsul rii.
Unele dintre magazinele prin intermediul crora se asigur contactul cu clienii sunt
situate n vecintatea unor supermarketuri din incinta unor centre comerciale, , iar
altele sunt de sine stttoare. Directorul firmei dorete nfiinarea unor alte puncte de
vnzare i intuiete, pe baza rezultatelor anterioare, c profiturile cele mai mari s-au
nregistrat de la acei dealeri situai n apropierea supermarketurilor din centrele
comerciale i c exist o legtur ntre nivelul vnzrilor i numrul clienilor care
viziteaz zilnic supermarketul vecin. nainte s decid locaia n care va nfiina noile
magazine, directorul dorete s evalueze relaia dintre numrul zilnic al clienilor din
supermarketuri (x) i vnzrile anuale ale dealerilor nvecinai (y). Datele pe care le
vom utiliza n studiul nostru sunt nregistrate n Tabelul 1.2.1. si provin dintr-un
eantion format din zece dealeri situai n centre comerciale.
Dealer Nr. Clieni (x)
(sute)
Vnzri anuale
(y) (sute RON)
1 1 19,36
2 4 50
3 7 68
4 7 90
5 10 100
6 12 125
7 14 150
8 14 200
9 15 162
10 16 190
4
Tabelul 1.2.1. Date cu privire la numrul zilnic de clieni ai supermarketurilor i
vnzrile anuale ale dealerilor firmei de telefonie mobil situai n vecintate
O scurt privire asupra datelor din Tabelul 1.2.1. ne va convinge c ipoteza unei
relaii deterministe ntre numrul zilnic al vizitatorilor supermarketurilor i vnzrile
anuale ale dealerilor nu poate fi luat n calcul. Dealerii 3 i 4 sunt situai n
vecintatea unor supermarketuri cu acelai numr zilnic de vizitatori, 700, dar
vnzrile anuale sunt diferite. Observm c:
68 y 7 x
(Dealer 3)
90 y 7 x
(Dealer 4)
Aceeai observaie este valabil i pentru dealerii 7 i 8, pentru care:
150 y 14 x
(Dealer 7)
200 y 14 x
(Dealer 8)
ntr-o astfel de situaie nu mai putem pune problema determinrii exacte a lui y pe
baza cunoaterii valorii lui x, motiv pentru care spunem c modelul care arat relaia
dintre x i y este de natur nedeterminist i prin urmare probabilistic.
1. 3. Prezentarea modelului de regresie
Pentru o mai bun imagine asupra datelor din Tabelul 1.2.1. vom proceda la
reprezentarea lor grafic ntr-un sistem de coordonate bidimensional, n care
numrul clienilor este nscris pe orizontal ca variabil independent i volumul
vnzrilor pe vertical, ca variabil dependent. Rezultatul acestei reprezentri, din
Figura 1.3.1., este cunoscut sub numele de diagram scatter i ne ofer o viziune
de ansamblu care este de ajutor n intuirea relaiei dintre cele dou variabile.
5
_________________________________________
Figura 1.3.1. Diagrama scatter pentru datele
din Tabelul 1.2.1.
Din Figura 1.3.1. putem desprinde cteva concluzii preliminare. n primul rnd apare
ideea c un numr mic de clieni ai supermarketului este asociat cu un volum mic de
vnzri anuale, iar un numr mare de clieni este, dimpotriv, corespunztor unui
volum anual mare al vnzrilor. De asemenea, se observ o tendin de dependen
liniar (n form de dreapt) ntre cele dou variabile i n Figura 1.3.1. am trasat
linia dreapt care pare s aproximeze aceast dependen. Totui, este important s
inem cont de faptul c relaia liniar care s-a conturat nu este una perfect, pentru
c nu toate punctele de pe diagrama scatter aparin dreptei pe care am desenat-o.
Am vzut deja, n Tabelul 1.2.1., c unei aceeai valori a lui x nu i se garanteaz
aceeai valoare a lui y i din acest motiv va trebui s acceptm c dependena dintre
x i y nu are o natur determinist, ci una probabilist. Pe baza faptului c relaia
care se contureaz ntre numrul clienilor din supermarmarketuri vecine i volumul
anual al vnzrilor obinute de dealerii firmei de telefonie mobil este una liniar,
aproximat de linia dreapt din Figura 1.3.1., afirmm acum c urmtorul model
probabilist este o reprezentare apropiat de realitate a relaiei dintre cele dou
variabile:
+ + x y
1 0
(1.3.1.)
Reamintindu-ne acum semnificaia coeficienilor care apar ntr-o funcie liniar, vom
ti c:

reprezint intersecia dreptei de ecuaie


x y
1 0
+
cu axa vertical a
sistemului de coordonate;

reprezint panta dreptei de ecuaie


x y
1 0
+
.
6
Avnd n vedere c n Figura 1.3.1. doar un numr mic de puncte ale diagramei
scatter aparin efectiv dreptei, apare ca fireasc nevoia de a lua n calcul nc un
termen, pe care n relaia (1.3.1.) l-am notat cu

i care reprezint eroarea pe care


o facem atunci cnd aproximm relaia dintre variabile cu relaia liniar
x y
1 0
+
.
Deci,

reprezint devierea valorii efective (sau observate n practic i comunicate,


n exemplul nostru, prin Talelul 1.2.1.) a lui y fa de acea valoare a lui y pe care o
obinem prin nlocuirea lui x n
x y
1 0
+
.
Pentru c exist mai multe valori ale lui x, n cazul exemplului nostru zece,
este natural s lum n calcul eroarea posibil pentru fiecare situaie n parte.
Practic, ne ateptm ca pentru fiecare valoare a lui x s obinem o eroare, mai mare
sau mai mic (sau poate nul) notat ( ) x .
Folosirea relaiei (1.3.1.) ca model pentru legtura dintre y i x ne d
posibilitatea s afirmm c x i y sunt n aceeai relaie ca aceea descris de
x y
1 0
+
, dar aceast relaie este doar aproximativ dac nu inem cont de
termenul eroare

.
Modelul (1.3.1.), despre care credem c reflect relaia dintre variabila
independent x i variabila dependent y este numit modelul de regresie. n
continuare, ne vom referi la coeficienii
0

i
1
ca la parametrii modelului.
1.4. Erorile modelului de regresie
Experiena didactic mi-a dovedit c n foarte multe cazuri persoanele care
iau contact cu modelul de regresie ntmpin dificulti n a nelege condiiile
oarecum abstracte care se impun asupra erorilor

. De ce sunt ele considerate


variabile aleatoare? De unde provin i ce anume trebuie luat n calcul atunci cnd ne
referim la erori?
Logica lucrurilor ne spune c volumul vnzrilor firmei de telefonie mobil nu
este influenat doar de numrul de clieni din supermarket. Exist, intuim, i ali
7
factori care i pot pune amprenta, dar pe care nu i considerm att de importani
pentru a fi introdui n model. De exemplu, exist clieni care viziteaz centrul
comercial fr intenia de a ptrunde n supermarket i care manifest totui interes
fa de oferta firmei. Chiar dac acetia nu influeneaz decisiv volumul vnzrilor, ei
trebuie luai n seam pentru c n ansamblu pot produce perturbri asupra
rezultatelor ateptate. De asemenea, se ntlnesc i o serie de elemente de natur
calitativ, greu sau imposibil de cuantificat, care pot influena clienii
supermarketurilor astfel nct s i determine s nu fie niciodat adeptii firmei de
telefonie mobil sau n orice caz nu ai dealerului din vecintate: gusturile, nclinaia
ctre un anumit dealer, percepia asupra personalului din magazin, fidelitatea fa de
o alt firm sunt la rndul lor elemente care fac ca o simpl relaie matematic s fie
insuficient pentru descrierea unor rezultate exacte. i, nu n ultimul rnd, pot s
apar erori n nregistrarea datelor statistice cu ajutorul crora se construiete
modelul. Pot fi erori n comunicarea valorilor observate ale variabilei observate y, caz
n care modelul de regresie se va bucura o dat n plus de prezena lui

, sau erori
n nregistrarea variabilei independente x. Pentru linitea noastr, nu vom lua n
calcul deocamdat aceast ultim de posibilitate deosebit de neplcut din punct de
vedere al consecinelor.
n concluzie, variabila eroare este necesar i, din pcate, ea nu poate fi
observat efectiv ci doar luat n calcul ca fiind prezent i dotat cu anumite
proprieti puse n eviden de specialiti n scopul ncercrii de a convieui cu ea.
Condiiile
2
impuse asupra variabile eroare sunt prezentate n cele ce urmeaz,
mpreun cu implicaiile lor.
Condiia 1: Eroarea

este o variabil aleatoare normal distribuit, lund


valori pozitive sau negative care reflect devierea dintre valoarea observat a lui y i
valoarea rezultat prin nlocuirea lui x n
x
1 0
+
.
Implicaii: Deoarece
0

i
1
sunt constante, deducem c pentru o valoare dat a
lui x mrimea definit n (1.3.1.),
+ + x y
1 0
, este de asemenea o variabil
aleatoare normal distribuit.
2
Pentru o tratare detaliat, se poate vedea Dorin Jula, Introducere n econometrie, Ed. PROFESSIONAL
CONSULTING, Bucureti, 2003
8
Condiia 2: Media variabilei aleatoare eroare este zero, adic ( ) 0 M .
Implicaii: S ne remintim c valoarea medie a unei constante este constanta nsi
i faptul c:
( ) ( ) ( ) Y M X M Y X M + + .
Deducem astfel valoarea medie a variabilei dependente Y, din calculul urmtor:
( ) ( ) ( ) ( ) ( ) + + + + M x M M x M y M
1 0 1 0
Pentru c x,
0

i
1
sunt constante i media variabilei aleatoare eroare este zero,
obinem:
( ) x y M
1 0
+
(1.4.1.).
Condiia 3: Dispersia variabilei aleatoare

, pe care o vom nota


2
, este
aceeai pentru toate valorile lui x.
Implicaii: Pornind de la proprietile dispersiei, vom demonstra c i variabila
aleatoare dependent y are aceeai dispersie pentru toate valorile lui x.
( ) ( ) ( ) ( ) ( ) + + + +
2
1
2
0
2
1 0
2 2
D x D D x D y D
Pentru c dispersia unei constante este zero i ( )
2 2
D obinem, indiferent de
valoarea lui x:
( )
2 2
y D (1.4.2.)
Vom reine aceast implicaie pentru c va fi de natur s explice foarte multe din
afirmaiile de mai trziu. Va trebui s reinem, de asemenea, relaia (1.4.1.) ca fiind
deosebit de important i o vom numi ecuaia de regresie. Aflm de aici modul n
care se poate calcula media variabilei dependente y, despre care am aflat c este o
variabil aleatoare normal, pentru valori fixate ale lui x.
9
Deocamdat lucrurile sunt destul de abstracte i de aceea ne vom ntoarce pentru o
clip la exemplul firmei de telefonie mobil. S ne referim la supermerketul n care
exist zilnic o mie de clieni (este cazul dealerului nr. 5). Deci, 10 x . Semnificaia
relaiei (1.4.1.) pentru 10 x este aceea a valorii medii a vnzrilor anuale
negistrate de ctre toi dealerii situai n vecintatea suprmerketurilor cu o mie de
clieni pe zi. n cazul particular 10 x , eroarea specific depinde de diferena dintre
valoarea observat y relativ la acest x (n exemplul nostru a fost observat un nivel al
vnzrilor egal cu 100 sute RON) i valoarea medie rezultat din ecuaia de
regresie, ( ) y M . Pe msur ce vom avansa n prezentarea modelului de regresie,
toate aceste elemente care deocamdat au o conotaie destul de teoretic vor
cpta sens.
n finalul acestei seciuni m simt datoare s fac cteva comentarii. Pentru aceia
dintre cititori care i amintesc faptul c funcia de gradul I a fost predat de
profesorul de matematic nc de prin clasa a aptea, modelul de regresie liniar cu
o singur variabil independent poate fi considerat pueril i oarecum departe de
realitatea nconjurtoare. Complexitatea din viaa economic sugereaz fenomene
care nu au nici un motiv s se comporte att de simplist nct s ne permit s le
modelm printr-o funcie de gradul nti. Ajuns n prag de bacalaureat, orice elev
cunoate deja o sumedenie de funcii cu o singur variabil i atunci se nate, firesc,
ntrebarea: ce for mai are regresia liniar simpl, dac se dovedete c
dependena lui y de x are, de exemplu, forma
2
1 0
x y + ? Aceeai for, este
rspunsul la ntrebare. Pentru c nu v oprete nimic s facei o notaie,
2
x z
, cu
ajutorul creia dependena capt o natur liniar:
z y
1 0
+
. Mai departe, vei
proceda la fel ca i n modelul discutat pn acum, avnd z pe poziia lui x i
ncercnd s nu uitai ce se afl n spatele notaiei pe care ai fcut-o. Dar trebuie
spus i faptul c modelul de regresie liniar nu este atotputernic, lucru despre care
nu vom discuta pe larg deocamdat.
Exerciii propuse:
10
Exerciiul 1. Se dau urmtoarele modele de relaii ntre variabila dependent y i
variabila independent x:
Modelul 1:
x 2 3 y +
Modelul 2:
+ + x 2 3 y
Am notat cu

termenul eroare.
a) Calculai pentru fiecare model n parte valoarea lui y pentru 9 x i 2 .
b) Calculai pentru fiecare model n parte valoarea lui y pentru 9 x i 0 .
c) Care dintre cele dou modele este determinist i care este probabilist?
Explicai.
Exerciiul 2. Utilizai ecuaia regresiei din (1.4.1.).
a) Scriei ecuaia regresiei pentru
1
0

i 4
1
.
b) Reprezentai grafic ecuaia acestei drepte, ntr-un sistem de coordonate care
are variabila x pe axa orizontal i variabila ( ) y M pe axa vertical.
c) Scriei ecuaia regresiei pentru
0
0

i 2
1
. Reprezentai grafic, ntr-un
sistem de coordonate similar celui de la punctul anterior.
Exerciiul 3. Urmtoarele date arat media de admitere i media de absolvire pentru
opt studeni ai Facultii de Administraie i Afaceri.
Media de admitere (x) Media de absolvire (y)
8,24 7,14
8,75 8,90
8,16 7,20
8,90 9,50
9,15 9,28
9,03 9,00
11
9,70 9,62
10 9,65
a) Construii diagrama scatter pentru aceste date, nscriind media de admitere
pe axa orizontal i media de absolvire pe axa vertical.
b) Pe baza diagramei scatter, observai vreo tendin care s sugereze un
anumit tip de relaie ntre cele dou variabile?
c) Construii dreapta care considerai c aproximeaz cel mai bine tendina
relevat de diagrama scatter.
Exerciiul 4
3
. Supermarketurile BRISTO exist pe tot cuprinsul rii. A fost selectat
un eantion format cu cinci dintre ele pentru a se vedea natura legturii care se
stabilete ntre cheltuielile efectuate n scopul reclamei i volumul vnzrilor, n
decurs de o lun:
Cheltuieli pentru
reclam (mii RON) (x)
Volum vnzri (mii RON)
(y)
1 19
4 44
6 40
10 52
14 53
a) Construii diagrama scatter pentru aceste date, nregistrnd pe axa orizontal
cheltuielile penru reclam.
b) Reprezentai grafic dreapta ( ) x 5 , 2 24 y M + pe diagrama scatter. Considerai
c aceasta ofer o bun aproximare a relaiei care se stabilete ntre
cheltuielile pentru recam i volumul vnzrilor?
3
Anderson R. D., Sweeney J. D., Williams A. T., Statistics for Business and Economics, Second Edition, West
Publishing Company, 1984, p. 412
12
c) Reprezentai grafic funcia ( )
x 2
x 60
y M
+
, calculnd valorile ei pentru fiecare x
din tabelul de date. Considerai c aceast curb care rezult din
reprezentare este o bun aproximare a relaiei dintre x i y?
d) Fa de dreapta de la punctul b, considerai c funcia de la punctul c ofer o
mai bun potrivire pe diagrama scatter?
e) Calculai erorile care rezult din aproximarea vnzrilor prin intermediul
funciilor de la punctele b i c, fa de valorile efective ale lui y pe care le
cunoatei din tabelul de date.
Exerciiul 5. Datele urmtoare provin de la cinci asociaii de locatari i arat suma
pe care o pltesc proprietarii a cinci apartamente de suprafee diferite care
beneficiaz de central termic proprie, pentru factura de gaze n decursul unei luni
calendaristice.
Suprafaa locuimei (mp)
(x)
Costul nclzirii (sute
RON) (y)
62 1,5
65 1,3
58 1
70 2,3
76 2,6
a) Construii diagrama scatter, avnd suprafaa pe axa orizontal.
b) ncercai s aproximai relaia dintre suprafaa apartamentelor i costul
facturii, punnd n eviden linia dreapt corespunztoare pe diagrama
scatter.
c) Considerai c aproximarea liniar este potrivit?
13
Exerciiul 6. Considerai c relaiile pe care le-ai observat n exerciiile anterioare
sunt relaii de tip cauz efect, sau relaii de asociere? Explicai, pentru fiecare
situaie n parte.
ntrebri recapitulative:
1. Ce este analiza de regresie?
2. Ce reprezint modelul de regresie i care este forma sa, n cazul regresiei
liniare simple?
3. Ce reprezint ecuaia de regresie, care este forma sa i cum se obine
pornind de la modelul de regresie?
4. Care este scopul analizei de corelaie? Prin ce anume se deosebete de
analiza de regresie?
5. Definii noiunile: variabil endogen, variabil exogen, relaie direct, liniar
i curbilinie.
6. La ce se refer relaia de cauzalitate i care este legtura dintre acest
concept i relaia de asociere? Prezentai punctele comune i diferenele.
7. Care sunt motivele pentru care se construiete diagrama scatter?
8. Cum credei este reprezentat o diagram scatter care nu indic nici un fel de
relaie tre variabilele x i y?
9. Care sunt motivele pentru care modelul de regresie include variabila eroare

?
10. Care sunt condiiile care se impun asupra erorilor i care sunt implicaiile
acestor condiii?
2. Metoda celor mai mici ptrate. Estimarea parametrilor
0

i
1
.
14
2.1. Considerente generale despre erori
Vom reaminti faptul c n capitolul anterior am fixat pentru modelul de regresie
variabilele x i y care n exemplul firmei de telefonie mobil au urmtoarea
semnificaie:
x
numrul zilnic al clienilor din supermarket
y
vnzrile anuale ale dealerului poziionat n centrul comercial care include
supermarketul
Am stabilit c modelul de regresie are forma:
+ + x y
1 0
.
Condiiile pe care le-am impus asupra variabilei aleatoare eroare ne-au ajutat s
descriem ecuaia de regresie, pentru care am gsit forma:
( ) x y M
1 0
+
.
Deocamdat
0

i
1
sunt constante cu valori necunoscute, numite parametrii
modelului de regresie i pe care am dori s le determinm pe baza datelor furnizate
de tabelul 1.2.1. Dac am reui s calculm
0

i
1
, atunci dreapta de regresie ar fi
complet determinat i am putea afla foarte multe lucruri despre relaia dintre
variabilele de interes.
Am czut deja de acord asupra faptului c
x y
1 0
+
este o funcie care
indic o relaie liniar ntre variabila dependent y i variabila independent x. S
privim acum la Figura 1.2.1. din seciunea 1.2. i s notm c intenia a fost s
reprezentm dreapta care s se apropie n cea mai mare msur de punctele
diagramei scatter. De obicei se opteaz pentru acea dreapt care, chiar dac nu
trece prin toate punctele diagramei, las deasupra i dedesupt aproximativ acelai
numr de puncte. n cazul nostru desupra dreptei au rmas trei puncte i sub ea au
rmas dou, ceea ce este o variant rezonabil. Cu toate acestea, este limpede c
15
exist foarte multe posibiliti de construcie a unei drepte care s ndeplineasc
impunerea menionat anterior, chiar dac unele dintre aceste reprezentri ar fi
foarte apropiate una de alta. De asemenea, este lesne de neles faptul c orice
dreapt ai alege, ea nu va trece prin absolut toate punctele diagramei dect cel mult
ntr-un caz destul de rar, acela n care toate variabilele observate conduc la
reprezentarea unor puncte coliniare. Din punct de vedere practic o atare posibilitate
este att de puin probabil s apar, nct trebuie s fim contieni c n cea mai
mare parte a cazurilor erorile sunt de neevitat. n Figura 2.1.1. am reprezentat o
diagram scatter oarecare i am pus n eviden erorile pentru dou alegeri diferite
ale dreptei pe care ne-am dori-o a fi de regresie.
Figura 2.1.1. Dou posibile drepte de regresie pentru aceeai diagram scatter pun
n eviden erori diferite
Iat, deci, cum o diagram scatter cu puncte puine a permis deja alegerea a
dou drepte de regresie care s o aproximeze. Este de ateptat ca problemele
practice, bazate pe mult mai multe date, s ofere multe alte variante i s ridice
ntrebarea: Care alegere este cea mai bun? i, Care este criteriul care ne spune
c alegerea este corespunztoare?
2.2. Semnificaia parametrilor dreptei de regresie: o analiz
exemplificat.
Aa cum spuneam mai devreme, o dreapt este complet determinat atunci cnd
am reuit s determinm valorile lui
0

i
1
. n capitolul precedent am stabilit i
semnificaia general a acestora. E timpul s discutm semnificaia practic i
pentru asta ne vom referi din nou la exemplul firmei de telefonie mobil. Am spus c
16
0

reprezint intersecia dreptei de ecuaie


x y
1 0
+
cu axa vertical, aceast
valoare obinndu-se pentru 0 x . Din punct de vedere al exemplului, asta
nseamn c nu exist nici un client n supermarket. Valoarea
0

nseamn, prin
urmare, c acesta este nivelul vnzrilor autonome, rezultate de la clienii care vin
n centrul comercial n alte scopuri dect vizitarea supermarketului. Despre
1
am
spus c este panta, sau nclinaia dreptei. Pentru o funcie liniar aceast pant este
aceeai peste tot i are urmtoarea semnificaie: dac valoarea lui x crete cu o
unitate, atunci valoarea lui y se modific n sens de cretere sau descretere cu
1

uniti, n funcie de semnul (pozitiv sau negativ) al lui
1
. Din modul n care au fost
stabilite unitile n Tabelul 1.2.1., putem spune c o cretere cu 100 de clieni zilnic
a numrului clienilor din supermarket genereaz o cretere cu
1
sute RON a
vnzrilor anuale ale dealerului (dac
1
se va dovedi a fi pozitiv) sau o scdere cu
1
sute RON a acestor vnzri (dac
1
se dovedeste a fi negativ, ceea este foarte
putin probabil dac tinem cont de evidena practic). Diagrama scatter din Figura
1.2.1. arat n mod clar c
1
este pozitiv, pentru c reprezentarea punctelor indic
faptul c pe msur ce x crete, y crete de asemenea n majoritatea cazurilor.
2.3. Eroarea total. Metoda celor mai mici ptrate.
Ne-am convins de faptul c trebuie s determinm
0

i
1
, am explicat semnificaia
acestor parametri i nu ne rmne dect s discutm despre criteriul dup care
putem alege cea mai bun dreapt de regresie. Figura 2.1.1. ar putea fi cheia
acestei probleme: am reprezentat, pentru aceeai diagram scatter, dou drepte
posibile i am pus n eviden erorile care apar. Devine natural, n acest moment, s
cutm determinarea acelei variante care genereaz o cea mai mic eroare total,
nu-i aa? Nu putem spera ntr-o eroare nul, dar putem cuta acea dreapt care s
corespund unui minim de eroare. Acesta va fi criteriul are ne va ghida mai departe
i care, din pcate, creaz o serie de probleme suplimentare.
Pentru a nelege procedeul care va urma, va trebui s facei permanent diferena
ntre dou aspecte: ce este i ce rezult a fi, sau altfel spus ce este i ce se
17
estimeaz c ar fi. Ce este se refer la datele pe care le avem i pe care le putei
vedea reprezentate pe diagrama scatter. Ce se estimeaz a fi se refer la ce
aproximm, sau estimm prin calcul c reprezint cea mai bun variant a dreptei
de regresie. Ori de cte ori apare ideea de estimare, ea va fi pus n eviden prin
adugarea simbolului plrie deasupra valorilor estimate:
y
,
0

,
1

de exemplu.
n concluzie, n modelul nostru este o dreapt de regresie
( ) x y M
1 0
+
. Dei n
esen ea este, noi nu o cunoatem pentru c n general nu cunoatem toate
informaiile i nu ne rmne dect s o estimm pe baza datelor pe care le avem.
De exemplu firma de telefonie mobil ne pune la dispoziie un eantion format cu
zece dealeri, dei se poate ca ea s aib vreo dou sute. Nu avem toate datele, deci
ncercm s ne descurcm cu ce avem. Ca estimare, dreapta de regresie are forma:
x

y
1 0
+ (2.3.1.)
Observai c x nu are plriu, pentru c valorile lui sunt cunoscute i pe baza lor
vom efectua calculele. De asemenea, observai c ecuaia estimat a regresiei este
similar adevratei ecuaii de regresie, doar c
( ) y M a fost nlocuit cu estimatorul
su
y
,
0

cu
0

, i
1
cu
1

.
n exemplul firmei de telefonie mobil, Tabelul 1.2.1. ne furnizeaz datele de
la zece dealeri, pe baza crora vom construi calculele. n general, valorile lui x se
noteaz cu
n 2 1
x , ... , x , x i valorile corespunztoare ale lui y cu
n 2 1
y , ... , y , y , unde n
este dimensiunea eantionului (adic numrul de date pe care le avem) pentru
fiecare dintre variabilele x i y). Pentru exemplul nostru 10 n , 4 x
2
,
100 y
5

etc.
n mod normal dac dreapta de regresie ar trece prin toate punctele diagramei
scatter, atunci ar trebui ca
i 1 0 i
x y +
pentru toate valorile lui i. Lucrul acesta nu
se ntmpl i ca atare pornind de la valorile
i
x putem obine doar estimri ale lui
i
y ,
cu eventuale erori pe care le-am pus n eviden n Figura 2.1.1. Valoarea estimat a
variabilei dependente va urma, deci, forma (2.3.1.) i va fi:
i 1 0 i
x

y + (2.3.2.)
18
Unde apar erorile? Evident, n diferena dintre valorile efectiv observate
i
y pe care le
regsim n tabelul de date i valorile pe care le-am estimat n (2.3.2.), adic
i
y
.
Reinem, deci, c eroarea care se face pentru poziia i este:
Eroare
i i i
y y (2.3.3.)
Aceste erori le putei vedea n Figura 2.1.1., puse n eviden pentru dou drepte
care ar putea aproxima punctele de pe diagrama scatter. Tot din aceast
reprezentare grafic se poate observa i un alt aspect, care va fi esenial mai
departe: unele puncte ale diagramei sunt situate deasupra dreptelor, iar altele sunt
situate dedesupt. Asta nseamn c erorile care vor rezulta din calcul vor putea avea
semne diferite, uneori plus, alteori minus. Atunci cnd se pune problema s evalum
eroarea total nsumarea unor valori pozitive i a unora negative poate conduce la
anulare, astfel nct dei n realitate erorile pot fi considerabile suma lor ar putea fi
totui nul. Ori, eroare zero este un rezultat care ar putea determina pe oricine s
doarm linitit cu toate c n fapt lucrurile se poate s stea prost de tot. Pentru a
evita o astfel de situaie extrem de neplcut, statisticienii au cutat soluii care s
ofere o variant de calcul a erorii totale care s nu se mai confrunte cu astfel de
probleme. S-a optat pentru luarea n discuie a erorilor din (2.3.3.) ridicate la ptrat,
ceea ce elimin definitiv posibilitatea vreunei valori negative. Cineva ar putea
argumenta c trecerea valorilor n valoare absolut, adic n modul, elimin n egal
msur valorile negative i n plus nu ne pune n situaia s lucrm cu valorile mari,
sau incomode din punct de vedere al numrului de zecimale, pe care le poate atrage
dup sine ridicarea la ptrat. De exemplu, dac o eroare este
05 , 0
valoarea ei
absolut este
05 , 0
, pe cnd ptratul ei este
0025 , 0
i mai devreme sau mai trziu tot
vom suspecta vreo greeal de calcul. Argumentul adus n sprijinul funciei modul
este corect, dar trebuie s v amintii i faptul c aceast funcie are o serie de
obiceiuri proaste care se manifest cu precdere atunci cnd urmeaz a fi derivat.
Ori, interesul nostru este s utilizm pentru minimizarea erorii totale tocmai acele
instrumente pe care ni le pune la dispoziie calculul diferenial i cu care funcia
ptrat este n cele mai bune relaii.
19
Metoda utilizat n estimarea parametrilor ecuaiei de regresie este cunoscut
sub numele de Metoda celor mai mici ptrate i presupune determinarea lui
0

i
1

astfel nct s fie minimizat expresia:


( )


n
1 i
2
i i
y y SPE
(2.3.4.)
O privire simultan asupra relaiilor (2.3.3.) i (2.3.4.) ne spune c ultima dintre ele
reprezint suma ptratelor erorilor (SPE) care apar atunci cnd utilizm pentru
dreapta de regresie estimarea (2.3.1.). Nu vom prezenta aici ntreaga demonstraie a
metodei, dar vom reine c valorile lui
0

i
1

se calculeaz conform regulilor


urmtoare:
( ) ( )
( )



n
1 i
2
i
n
1 i
i i
1
x x
y y x x

sau 2
n
1 i
i
n
1 i
2
i
n
1 i
i
n
1 i
i
n
1 i
i i
1
x
n
1
x
y x
n
1
y x

,
_






(2.3.5.)
x

1 0
(2.3.6.)
Semnnificaiile pentru
i
x i
i
y au fost deja discutate. Avem de precizat c x
reprezint valoarea medie pentru variabila independent, iar
y
este valoarea medie
pentru variabila independent, mrimi calculate din:
n
x
x
n
1 i
i

;
n
y
y
n
1 i
i

(2.3.7.)
Ca de obicei, n reprezint numrul de observaii adic numrul datelor din tabel. Se
observ c n (2.3.5.) exist dou formule de calcul pentru
1

. Ele conduc, evident,


la acelai rezultat dar de obicei se consider c forma a doua este mai simplu de
aplicat.
Vom folosi aceste rezultate pentru exemplul firmei de telefonie mobil i vom
calcula toate valorile necesare pe baza datelor din Tabelul 1.2.1.:
20
100 x x
10
1 i
i
n
1 i
i



36 , 1154 y y
10
1 i
i
n
1 i
i



1232 x x
10
1 i
2
i
n
1 i
2
i



36 , 14195 y x y x
10
1 i
i i
n
1 i
i i



Aplicm a doua form (2.3.5.) i obinem prin nlocuire:
( )
43 , 11
100
10
1
1232
36 , 1154 100
10
1
36 , 14195

2
1




Pentru aplicarea formulei (2.3.6.) i calculul lui
0

, avem nevoie de x i
y
pe care le
obinem din (2.3.7.):
10
10
100
x i 436 , 115
10
36 , 1154
y .
Calculm acum
0

din (2.3.6.):
136 , 1 10 43 , 11 436 , 115

0

Prin urmare, am obinut ecuaia estimat a regresiei:
x 43 , 11 136 , 1 y + .
Este cazul s comentm rezultatul. Panta ecuaiei estimate a regresiei este 11,43 i
ia o valoare pozitiv, ceea ce nseamn c dac numrul clienilor supermarketului
este mai mare, de asemenea i vnzrile anuale ale dealerului situat n complexul
comercial respectiv sunt mai mari. Putem spune ceva mai concret chiar, avnd n
21
vedere semnificaia pantei unei drepte despre care am discutat puin mai devreme.
n Tabelul 1.2.1. numrul clienilor este exprimat n sute, iar volumul vnzrilor n
sute RON. Deci, o cretere cu 100 a numrului clienilor din supermarket nseamn
c ne ateptm la vnzri anuale medii mai mari cu 11,43 sute RON. Asta nseamn
c vnzrile anuale medii de care este responsabil fiecare client din supermarket
sunt de 11,43 RON.
De asemenea, dac privim valoarea 136 , 1

0
vom afla c dac
supermarketul nu este vizitat de clieni
( ) 0 x exist totui anse ca dealerul s
vnd cte ceva ctre acele persoane care vin la magazin exact n acest scop sau
care se nimeresc prin zon i intr i ele ca s pun vreo ntrebare. n situaia
inexistenei clienilor n supermarket, vnzrile medii anuale ale dealerului ar fi de
1,136 sute RON, sau altfel spus 113,6 RON.
Dac ecuaia estimat a regresiei se va dovedi credibil (iar lucrul acesta l
vom lmuri n seciunea urmtoare), atunci vom putea utiliza aceast descriere a
relaiei dintre x i y pentru a realiza predicii ale lui y n condiiile n care ne sunt date
valori ale lui x. De exemplu, directorul firmei ar dori s tie care sunt vnzrile medii
anuale la care se poate atepta de la un dealer situat lng un supermarket vizitat
zilnic de 1700 de clieni, adic pentru . 17 x Obinem o medie anual a vnzrilor
egal cu:
446 , 195 17 43 , 11 136 , 1 y + sute RON,
adic 19544,6 RON. Seciunea urmtoare va prezenta metode prin intermediul
crora putem stabili dac estimarea s-a fcut cu acuratee i dac rezultatele
obinute pot fi utilizate n prognoz.
2.4. Verificarea ecuaiei estimate
Acum, c ne-am familiarizat cu calculul ecuaiei estimate a regresiei, vom
trece la pasul urmtor i vom nva cum putem s verificm corectitudinea
rezultatului. Problema nu este inutil, dac v uitai la formulele care au fost aplicate:
22
cu ct dispunei de mai multe date, sau valori observate, cu att este mai puternic
ameninarea s se strecoare o eroare de calcul. Prin urmare, se contureaz ca
necesar o metod prin care s stabilii dac ecuaia pe care ai obinut-o este
corect.
Exist, ne spun specialitii, dou metode pe care le putei aplica n acest
scop. Prima este uor de intuit i presupune reprezentarea grafic a dreptei estimate
a regresiei pe diagrama scatter: vei urmri dac linia obinut descrie ct mai bine
cu putin comportamentul punctelor de care dispunei ca urmare a observaiilor.
Aceast metod este la ndemna oricui i nu necesit dect atenie la
reprezentarea grafic, dar nu conduce la rezultate foarte exacte pentru c este o
evaluare bazat mai mult pe observaii i nu ofer argumente bine susinute teoretic.
V propun ca exerciiu s reprezentai grafic dreapta estimat a regresiei obinut
pentru exemplul firmei de telefonie mobil, pe diagrama scatter din Figura 1.3.1.
Cea de-a doua metod pe care au pus-o n eviden specialitii presupune, e drept,
mai multe calcule, dar permite obinerea de concluzii argumentate. Metoda deriv
direct din proprietile pe care trebuie s le ndeplineasc dreapta determinat prin
metoda celor mai mici ptrate i presupune verificarea faptului c suma erorilor
individuale pozitive i negative rezultate din din aproximarea valorilor y cu cele de pe
dreapta de regresie
y
trebuie s fie egal cu zero. Vom exemplifica aceast metod
pentru datele de care dispune firma de telefonie mobil. Calculm prin urmare
valorile
y
pentru toate cele zece valori ale lui x, pe baza ecuaiei estimate a regresiei
x 43 , 11 136 , 1 y + .
x y y
y y
1 19,36 12,566 6,794
4 50 46,856 3,144
7 68 81,146 -13,146
7 90 81,146 8,854
10 100 115,436 -15,436
12 125 138,296 -13,296
14 150 161,156 -11,156
14 200 161,156 38,844
15 162 172,586 -10,586
23
16 190 184,016 5,984
Total erori individuale: 0
Tabelul 2.4.1. Calculul erorilor individuale pentru datele deinute de firma de
telefonie mobil
Din coloana a patra a Tabelului 2.4.1. se observ c suma tuturor erorilor individuale
este zero, prin urmare acum putei fi siguri c nu s-a strecurat nici o eroare de calcul
atunci cnd am fcut demersurile necesare obinerii ecuaiei estimate a regresiei.
Dac, aa cum v-am sugerat, ai reprezentat grafic dreapta estimat a regresiei pe
diagrama scatter, putei s v convingei c linia pe care ai trasat-o aproximeaz
foarte bine tendina punctelor care au fost reprezentate pe baza datelor din Tabelul
1.2.1.
2.5. Eroarea standard a estimrii
Pasul urmtor care trebuie parcurs n procesul analizei de regresie se refer
la modul n care putem msura ncrederea cu privire la ecuaia estimat pe care am
construit-o anterior. Este dreapta de regresie relevant n raport cu datele
observate? Oricine poate intui c dreapta va fi cu att mai relevant pentru studiu cu
ct punctele diagramei scatter sunt mai apropiate de ea, lucru care de data aceasta
nu mai are legtur cu corectitudinea calculului. Aici este vorba despre faptul c
ecuaia estimat a regresiei este corect determinat (ai verificat deja c suma
erorilor individuale este nul), dar s-ar putea ca dincolo de toate eforturile noastre
punctele rmase n afara dreptei s fie att de multe i, mai ales, att de distanate
de aceasta nct utilizarea estimrilor s fie aproape inutil. Reprezentm n
continuare dou situaii care implic aceeai dreapt de regresie pentru dou
diagrame scatter diferite. Este limpede c Figura 2.5.1.a. se refer la un caz care
inspir mai mult ncredere dect Figura 2.5.1.b., pentru c n prima situaie
punctele diagramei scatter sunt mai adunate i indic o mai mic mprtiere fa
de dreapta de regresie.
24
Figura 2.5.1. a i b. Dou diagrame scatter care arat mprtieri diferite fa de
dreapta de regresie
Pentru msurarea ncrederii pe care o putem avea n ecuaia estimat a regresiei,
statisticienii ne-au pus la dispoziie mrimea numit eroarea standard a estimrii,
notat
e
s
i avnd o natur similar abaterii standard de selecie pe care ai ntlnit-o
la cursul de statistic. Ambele mrimi reprezint, de fapt, o msur a dispersrii
datelor fa de o medie: abaterea standard de selecie msoar dispersarea fa
de media de selecie, pe cnd eroarea standard a estimrii msoar dispersarea
fa de punctele dreptei de regresie care, reamintii.v, au ordonata
y
pe care am
asimilat-o estimatorului mediei
( ) y M . Formula de calcul a lui
e
s
este:
2 n
SPE
s
e

(2.5.1.).
Dac ne amintim cine este SPE, din (2.3.4.), atunci eroarea standard a estimrii se
poate scrie ntr-o form desfurat:
( )
2 n
y y
s
n
1 i
2
i i
e

(2.5.2.)
Se poate observa acum asemnarea dintre formulele de calcul pentru abaterea
standard de selecie i eroarea standard a estimrii i vom reine c numrul
gradelor de libertate pe care le vom lua n calcul pentru
e
s
este 2 n , adic tocmai
numitorul fraciei de sub radical.
Vom calcula acum
e
s
pentru exemplul firmei de telefonie mobil i pentru asta
utilizm ultima coloan din Tabelul 2.4.1. n scopul obinerii lui SPE:
25
( ) 49 , 2503 y y SPE
n
1 i
2
i i

.
Pentru c 10 n , deducem c 8 2 n i din (2.5.1.) obinem eroarea standard a
estimrii ca fiind.
69 , 17
8
49 , 2503
2 n
SPE
s
e

Unitatea de msur a lui


e
s
este aceeai cu a mrimilor y, prin urmare
69 , 17 s
e


sute RON, sau 17690 RON.
Specialitii ne propun i o alt metod de calcul pentru
e
s
, pe care unii dintre
cititori ar putea-o considera mai simplu de aplicat. Dac x

y
1 0
+ este ecuaia
estimat a regresiei, a doua metod ne nva c
e
s
poate fi obinut din formula:
2 n
y x

y
s
n
1 i
i i 1
n
1 i
i 0
n
1 i
2
i
e



(2.5.3.)
La o prim vedere, formula (2.5.3.) este cu mult mai complicat dect (2.5.1.) sau
(2.5.2.) i de aceea este nevoie s discutm puin asupra utilitii ei. Dac n ecuaia
estimat e regresiei ai calculat deja
1

din a doua variant a formulei (2.3.5.), atunci


singurul termen care v mai lipsete din (2.5.3.) este

n
1 i
2
i
y
, care poate fi calculat
direct din tabelul de date. Evitai, astfel operaiile de scdere y y i ridicrile la
ptrat ale rezultatelor. Pe de alt parte, dac ai fost nevoii s verificai
corectitudinea calculului printr-un tabel ca 2.4.1., atunci nu prea mai conteaz ce
formul de calcul aplicai pentru
e
s
, fiindc deja avei la dispoziie erorile individuale.
n orice caz, este un exerciiu bun s ncercai determinarea lui
e
s
prin ambele
formule de calcul despre care am discutat aici.
26
Am convingerea c tocmai v trece prin cap un protest vehement relativ la
rostul mrimii
e
s
, o mrime n plus n totalul i aa deranjant pe care vi l-a oferit pn
acum aceast prezentare. S aplicm i s interpretm pornind de la exemplul
nostru: am afirmat ceva mai devreme c pe baza ecuaiei estimate a regresiei se
poate face o predicie cu privire la nivelul anual al vnzrilor pentru un dealer situat
n preajma unui supermarket cu 1700 de clieni zilnic. Mai exact, am gsit acel nivel
anual mediu ca fiind egal cu 195,446 sute RON, sau 19544,6 RON. Dac ai fi chiar
proprietarul firmei de telefonie mobil, v-ar interesa foarte tare n ce msur v putei
baza pe aceast predicie. Uneori, astfel de proprietari nu in neaprat s citeasc
un curs de econometrie i, din pcate, nici nu ntreab vreun specialist n domeniu.
Cei care o fac, ns, pot afla o sumedenie de lucruri interesante pe care le vom
prezenta imediat.
Deocamdat tim c avem, pentru 17 x , o predicie 446 , 195 y . Fiecare
dintre mrimi se msoar conform cu unitile de msur care au fost stabilite n
tabelul iniial al datelor. Mai im c exist o abatere standard a estimrii
69 , 17 s
e

.
Bunul sim ne sugereaz c n realitate nivelul mediu al vnzrilor anuale este cel
prognozat, dar n rezultatul 446 , 195 y exist o marj de eroare de
69 , 17 t
. Adic,
media anual ar fi situat ntre
69 , 17 446 , 195
i
69 , 17 446 , 195 +
, sau echivalent, n
intervalul
( ) 136 , 213 ; 756 , 177 . ntr-un anume fel i mai ales n anumite condiii,
afirmaia este adevrat. Nu trebuie s uitm nici o clip c valoarea 446 , 195 y
este doar o predicie, deci c include un anumit grad de aproximare i atunci devine
natural ntrebarea: Care sunt ansele ca acest interval s fie corect? De
asemenea, teoria probabilitilor ne nva c abaterile standard pot oferi intervale
simetrice fa de medie doar n cazul n care distribuia de probabilitate a variabilei
aleatoare despre care se discut este la rndul ei simetric fa de medie i bine ar fi
s fie vorba chiar despre o distribuie normal. Pn s vedem dac astfel de lucruri
sunt valabile n cazul nostru, s facem observaia intuitiv c o eroare standard de
estimare mai mare corespunde unei mprtieri mai pronunate a punctelor de pe
diagrama scatter fa de dreapta de regresie, aa cum se poate vedea n Figura
2.5.1.b., iar o eroare standard de estimare mai mic evideniaz o mprtiere mai
slab, ca de exemplu n Figura 2.5.1.a. De asemenea, putei deduce imediat c
27
dac
0 s
e

nseamn c ai gsit o dreapt de regresie pe care sunt dispuse toate
punctele diagramei scatter, deci potrivirea este perfect i n acest caz predicia se
face cu exactitate.
Ca s ne putem referi la intervalul
( ) 136 , 213 ; 756 , 177 pe care l-am obinut mai
devreme ca la o informaie cu consisten tiinific, va trebui s impunem dou
condiii a cror ndeplinire ne va permite obinerea de rezultate corecte i de
ncredere pentru directorul firmei. Condiiile vor fi pe deplin deranjante pentru aceia
dintre cititori care i doresc doar utilizarea practic a unor formule de calcul, dar
sunt absolut necesare. Citirorii familiarizai cu elemente de teoria probabilitilor i
statistic le vor considera foarte utile i la locul lor, lucru care m motiveaz s merg
mai departe.
Condiia 1 Valorile observate y sunt normal distribuite n jurul fiecrei valori
estimate,
y
. Aceast condiie este legat, evident, de posibilitatea utilizrii fiecrei
estimri
y
ca medie a unei variabile aleatoare normale.
Condiia 2. Dispersia distribuiilor n jurul fiecrei valori
y
este aceeai.
Motivul introducerii acestei condiii este legat de utilizarea valorii
e
s
ca valoare unic
pentru abaterile standard ale distribuiilor de probabilitate menionate n prima
condiie.
S vedem acum de ce aducerea n discuie a chinuitoarei repartiii normale ne poate
rezolva o serie de probleme. Ne vom reaminti c orice carte de teoria probabilitilor
precizeaz urmtoarele: pentru o variabil normal repartizat, cu media m i
abaterea standard

, sunt valabile afirmaiile:


68% dintre rezultate sunt cuprinse n intervalul
( ) + m , m
95,5% dintre rezultate sunt cuprinse n intervalul
( ) + 2 m , 2 m
99,7% dintre rezultate sunt cuprinse n intervalul
( ) + 3 m , 3 m
Pentru c putem stabili corespondena ntre

i
e
s
i pentru c
y
din ecuaia
estimat a regresiei este estimatir al lui ( ) y M , deci al valorii medii, nseamn c
28
dac cele dou condiii sunt ndeplinite atunci punctele de pe diagrama scatter au
proprietatea de a fi dispuse astfel:
68% dintre ele se afl la distan
e
s t
fa de dreapta de regresie;
95,5% dintre ele se afl la distan
e
s 2 t
fa de dreapta de regresie;
99,7% dintre ele se afl la distan
e
s 3 t
fa de dreapta de regresie.
nseamn c exist 68% anse ca nivelul mediu anual al vnzrilor dealerului situat
n preajma supermarketului vizitat zilnic de 1700 de clieni s fie cuprins ntre
177,756 sute RON i 213,136 sute RON, pentru c aceste limite de interval au fost
obinute din estimarea lui ( ) y M pentru 17 x , plus sau minus valoarea lui
e
s
.
Spre disperarea celor care nu au fost intotdeauna prietenii calculelor, trebuie
spus c nu ne vom opri aici. O scurt rememorare a elementelor de statistic va
trage un semnal de alarm n dou direcii. Prima este legat de faptul c practica
nu ne pune la dispoziie ntotdeauna repartiii normale, iar a doua este legat de
dimensiunea eantionului, adic de numrul datelor pe care le avem la dispoziie.
Ceva mai devreme am subliniat natura similar a mrimilor pe care le
cunoatem acum sub numele de eroarea standard a estimrii,
e
s
i abaterea
standard de selecie, pe care la cursul de statistic ai notat-o cu s. De asemenea,
am avut o tentativ de construcie a unui interval de predicie, similar intervalului de
ncredere pe care l cunoatei de la acelai curs. ntr-adevr,
e
s
poate fi utilizat
pentru construcia unui astfel de interval n jurul valorii estimate
y
, unde s fie
situate cu o anumit probabilitate valorile efectiv observate pe care le-am tot notat cu
y. Acesta este aspectul de care ne vom ecupa n continuare, mai exact construcia
intervalelor aproximative de predicie.
2.6. Intervale de predicie
Din cele amintite anterior despre repartiia normal i pe baza acelor condiii
pe care le-am impus asupra repartizrii valorilor y, putem afirma c: 68% dintre
29
valorile y se afl la distana
e
s
fa de dreapta de regresie (deasupra sau sub
aceasta, ceea ce face corect descrierea prin intermediul mrimii
e
s t
), c 95,5%
dintre valorile lui y se afl la distan
e
s 2 t
fa de dreapta de regresie i c 99,7%
dintre valori se afl la diatan
e
s 3 t
fa de aceast dreapt.
Concret, pentru exemplul firmei de telefonie mobil aceasta nseamn c
dac 17 x i 446 , 195 y , atunci sunt:
68% anse ca nivelul mediu al ncasrilor pentru un dealer oarecare situat n
vecintatea unui supermarket oarecare cu un numr zilnic de clieni de 1700
s fie situat n intervalul
( ) 69 , 17 446 , 195 ; 69 , 17 446 , 195 + , deci n intervalul
( ) 136 , 213 ; 756 , 177 ;
95,5% anse ca nivelul mediu al acestor vnzri s fie n
( ) 69 , 17 2 446 , 195 ; 69 , 17 2 446 , 195 + , deci ntre 160,066 i 230,826;
99,7% anse ca nivelul mediu al ncasrilor anuale s fie ntre
69 , 17 3 446 , 195
i
69 , 17 3 446 , 195 +
, deci ntre 142,376 i 248,516.
Metoda prin care am construit aceste intervale, pentru grade de ncredere diferite,
este corect n msura n care utilizarea repartiiei normale este justificat. Dac
eantionul folosit n studiu are dimensiune mai mic dect 30 (aa cum este cazul n
exemplul nostru) i dac nu se ndeplinesc cele dou condiii impuse asupra lui y,
ceea ce este foarte posibil n practic, atunci distribuia normal nu mai are nici o
putere. Din fericire, statisticienii ne nva c atunci cnd dimensiunea n a
eantionului este mai mic dect 30 i cnd dispersia ntregii populaii este
necunoscut, intr n cu succes Distribuia t, sau Distribuia Student, care n cazul de
fa se bucur de n-2 grade de libertate, acelai n-2 ca i numitrul din formula de
calcul pentru
e
s
. Vom reine n acest context forma intervalului de predicie i anume:
Cu o probabilitate egal cu 1 , valorile observate ale lui z se afl situate n
intervalul:

,
_

+
e
2
e
2
s t y ; s t y
(2.6.1.)
30
S aplicm aceast form pentru exemplul firmei de telefonie mobil. Avem un
eantion format din 10 n dealeri, deci 30 n < i, judecnd la rece, habar nu avem
care este abaterea standard a populaiei. Prin urmare, pentru predicie va trebui
utilizat intervalul (2.6.1.), cu o distribuie t cu 8 2 n grade de libertate. Ne vom
referi la valoarea estimat pentru 17 x , pentru care am calculat 446 , 195 y i vom
avea n atenie c dac dorim pentru intervalul care urmeaz a fi construit un grad
de ncredere de 95% de exemplu, atunci:
025 , 0
2
05 , 0 95 , 0 1


.
Pentru cele 8 grade de libertate, tabelele distribuiei t ne pun la dispoziie valoarea
306 , 2 t t
025 , 0
2

. nlocuim n (2.6.1.) i obinem:
( ) 69 , 17 306 , 2 3 , 195 ; 69 , 17 306 , 2 3 , 195 +
Dup efectuarea calculelor, directorul firmei poate fi sigur n proporie de 95% de
faptul c nivelul mediu anual al vnzrilor pentru un dealer oarecare situat n
vecintatea unui supermarket oarecare cu un numr zilnic de clieni de 1700 este
situat ntre 15444 RON i 23616 RON.
Exerciii propuse
Exerciiul 7. Tabelul urmtor prezint ase observaii despre dou variabile, x
i y.
Observaia
i
x
i
y
1 4 30
2 5 30
3 6 25
4 2 35
5 9 20
31
6 10 16
a) Construii o diagram scatter pentru aceste date.
b) Reprezentai grafic dreapta
x 2 40 y
pe diagrama scatter. Considerai c
aceast dreapt este o bun aproximare a datelor?
c) Utilizai metoda celor mai mici ptrate i calculai ecuaia estimat a regresiei
pe baza datelor din tabel.
d) Calculai
( )


n
1 i
2
i i
y y SPE
pentru dreptele de la b) i c). Care valoare a lui
SPE este mai mic i cum explicai?
Exerciiul 8. Datele din tabelul urmtor indic salariile de care beneficiaz angajaii
unei firme i vechimea acestora la locul de munc.
Vechime (ani) Salariu (RON)
1,5 651
2,5 800
3,2 920
3,6 870
4,3 1000
2,9 820
a) Construii ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Facei o predicie cu privire la salariul pe care l poate primi un angajat cu doi
ani vechime i unul cu cinci ani vechime.
Exerciiul 9. Construii ecuaia estimat a regresiei pentru datele din Exerciiul 3
propus n seciunea precedent. Facei apoi o predicie cu privire la media general
cu care poate fi absolvit facultatea de ctre un student care a fost admis cu nota 9.
Exerciiul 10. [Andersen] O agenie imobiliar dispune de urmtoarele date cu
privire la suprafaa i preul de vnzare pentru cinci locuine:
32
Spaiu locuibil (mp) Pre de vnzare (mii
euro)
250 124
240 108
180 92
300 146
230 110
a) Construii ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Facei o predicie cu privire la preul de vnzare pentru o locuin cu suprafaa
de 270 mp.
Exerciiul 11. Se dau urmtoarele date:
x 54 46 40 56 38 37 48
y 43 36,5 32,5 44,2 31,2 30,1 38,6
a) Calculai ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Calculai erorile individuale de estimare i verificai corectitudinea calculului
de la punctul anterior, pe baza rezultatului obinut prin nsumarea acestor
erori.
c) Calculai eroarea standard a estimrii.
d) Construii un interval de predicie pentru y n cazul unei valori 42 x , cu un
grad de ncredere de 95%.
Exerciiul 12. O firm care asigur transport internaional efecturaz un studiu cu
privire la efectele pe care le are modificarea preului biletelor asupra numrului de
pasageri. Au fost obinute urmtoarele date:
Pre bilet (euro) Numr pasageri
30 700
35 670
40 670
45 550
50 530
55 500
60 510
33
65 430
a) Stabilii care este variabila independent x i care este variabila dependent
y.
b) Construii diagrama scatter pentru datele din enun.
c) Construii ecuaia estimat a regresiei cu ajutorul metodei celor mai mici
ptrate i reprezentai grafic dreapta corespunttoare n sistemul de
coordonate de la punctul anterior.
d) Calculai erorile individuale i verificai corectitudinea calculului, studiind
rezultatul sumei acestora.
e) Calculai eroarea standard a estimrii.
f) Dezvoltai un interval de predicie 95% pentru numrul de pasageri pe care i
poate avea firma dac preul biletului este de 53 euro.
Exerciiul 13. [Levin, Rubin] O firm testeaz agenii proprii specializai n vnzri,
nainte de a-i trimite efectiv pe teren. Managerul firmei este interesat n determinarea
relaiei care se stabilete ntre punctajul obinut la test i vnzrile efective realizate
de ctre ageni dup un an de practic. Urmtoarele date au fost culese i se refer
la zece persoane care au lucrat timp de un an pe teren.
Persoana Punctajul
testului
Numr uniti
vndute
1 26 95
2 37 140
3 24 85
4 45 180
5 26 100
6 50 195
7 28 115
8 30 136
9 40 175
10 34 150
a) Determinai ecuaia estimat a regresiei, care poate fi utilizat n scopul
prediciei volumului vnzrilor pe baza rezultatelor obinute la test de ctre
ageni.
34
b) Ct de mult este ateptat s creasc numrul unitilor vndute de ctre un
agent, la o cretere cu zece puncte a punctajului obinut la test?
c) Utilizai ecuaia estimat a regresiei pentru a efectua o predicie cu privire la
numrul unitilor pe care le poate vinde un agent care a obinut la testare 25
de puncte.
d) Calculai eroarea standard a estimrii.
e) Construii un interval de predicie 95% pentru mrimea pentru care ai fcut
predicia la punctul c).
ntrebri recapitulative
1. Care este semnificaia parametrilor
0

i
1
?
2. Cum se aplic aceast semnificaie pentru exemplul firmei de telefonie
mobil?
3. Cum trebuie aleas dreapta de regresie pentru ca analiza de regresie s fie
credibil?
4. Ce sunt erorile individuale, care este formula de calcul i ce semn pot avea?
Ce sugereaz semnul erorilor individuale?
5. Ce este metoda celor mai mici ptrate i ce anume se urmrete prin
aplicarea ei?
6. Care sunt formulele de calcul pentru parametrii ecuaiei estimate a regresiei?
7. Care este diferena dintre modelul de regresie i ecuaia estimat a regresiei?
8. Prin ce metode se poate verifica dac ecuaia estimat a regresiei a fost
calculat corect?
9. Ce este eroarea standard a estimrii i unde poate fi utilizat?
10. Ce sunt intervalele de predicie i cum se calculeaz? Comentai semnificaia
fiecrei mrimi care apare n formula general de calcul, n funcie de
dimensiunea eantionului i informaiile pe care le avei despre dispersia
populaiei.
35
3. Coeficientul de determinare
Exist, pn n acest moment, cteva aspecte cu care putem fi de acord cu
toii. n primul rnd, faptul c ideea de estimare atrage dup sine suspiciuni cu privire
la exactitatea rezultatului i implicit sugereaz existena unor poteniale erori
provenite din diferena ntre valorile estimate i cele nregistrate efectiv. n al doilea
rnd, atunci cnd teoria ne pune la dispoziie dou sau mai multe metode de
estimare se contureaz ideea c diferenele pot s apar nu doar ntre valorile
estimate i cele observate, ci i ntre estimrile obinute prin metode diferite.
Ar fi ideal s putem conta pe modaliti de control cu ajutorul crora s
stabilim gradul n care o anumit estimare poate fi utilizat n prognoz i este de
intuit c un element de ghidare n obinerea rspunsului la ntrebarea n ce msur
pot folosi informaiile pentru prognoz? trebuie s fie legat de luarea n calcul a unei
analize bazate pe cel puin dou metode de estimare. n mod sigur vei acorda mai
mult credit unui rezultat dac ai obine acelai lucru pe mai multe ci, nu-i aa?
Iat de ce atunci cnd vom discuta problema acestei msuri, sau gradului n
care ecusia estimat a regresiei poate fi utilizat n prognoze vom face referire la
mrimile observate
i
y , la cele estimate
i
y
i la o mrime pe care ne-o ofer
statistica. Este vorba despre
y
, media valorilor observate, despre care teoria ne
nva c poate fi utilizat ca estimator pentru media ntregii populaii. Aadar,
dispunem de:
Datele iniiale
i
y
;
Estimarea pe baza relaiei de regresie, din care obinem valorile
i
y
;
Estimarea bazat pe media
y
a datelor din eantion.
36
n cazul exemplului pe care l-am discutat pn acum, al firmei de telefonie mobil,
regsim aceste valori dup cum urmeaz: datele iniiale
i
y i estimrile lor
i
y
se afl
n coloanele 2 i 3 ale Tabelului 1.2.1.. Media
y
a fost calculat pe baza relaiei
(2.3.7.) i a rezultat egal cu 115,436.
Conform cu ceea ce am precizat puin mai devreme, va trebui s lum n
calcul urmtoarele erori i diferene:
a) Erorile care apar atunci cnd estimm datele
i
y prin intermediul valorilor
i
y

obinute pe baza ecuaiei estimate a regresiei. Este vorba despre diferenele
i i
y y pe care le ntlnii n crile de specialitate sub numele de reziduuri.
Suma ptratelor erorilor astfel rezultate este o cunotin mai veche, pe care
am notat-o cu SPE i, pentru exemplul firmei de telefonie mobil, a rezultat
din calcul ca fiind egal cu 2503,49.
b) Erorile care apar atunci cnd estimm
i
y prin intermediul valorii medii
y
, a
cror sum a ptratelor o vom nota SPT i are forma:
( )


n
1 i
2
i
y y SPT
(3.1.)
Expresia (3.1.) este binecunoscut pentru cei care i amintesc formula de calcul a
dispersiei de selecie i reprezint suma ptratelor abaterilor pe care le nregistreaz
datele din eantion fa de valoarea medie de selecie.
Haidei s calculm acum valoarea SPT pentru exemplul firmei de telefonie mobil i
vom utiliza Tabelul 3.1. pentru simplificarea calculului.
x y
y
y
y
( )
2
y y
1 19,36 115,436 -96, 076 9230,597
4 50 115,436 -65, 436 4281,87
7 68 115,436 -47, 436 2250,174
7 90 115,436 -25, 436 646,99
10 100 115,436 -15, 436 238,27
12 125 115,436 9, 564 91,47
14 150 115,436 34, 564 1194,67
14 200 115,436 84, 564 7151,07
15 162 115,436 46, 564 2168,2
37
16 190 115,436 74, 564 5559,79
SPT = 32813,1
Tabelul 3.1. Calculul valorii SPT prin nsumarea rezultatelor din ultima coloan a
tabelului.
Am obinut, deci,
1 , 32813 SPT
pentru exemplul firmei de telefonie mobil. Asupra
acestui rezultat vom reveni cu cteva comentarii imediat ce vom prezenta i ultima
categorie de diferene care trebuie luate n calcul n studiul nostru.
c) Diferenele care apar ntre cele dou variante de estimare, cea n care a fost
utilizat ecuaia estimat a regresiei i cea n care am folosit media de
selecie calculat pe baza eantionului de date. Este vorba, deci, despre
( ) y y
i
, iar suma ptratelor acestora o vom nota SPR.
( )


n
1 i
2
i
y y SPR
(3.2.)
Pentru exemplul firmei de telefonie mobil utilizm Tabelul 3.2. i calculm SPR.
y y
y y
( )
2
y y
12,566 115,436 -102,87 10582,2369
46,856 115,436 -68,58 4703,2164
81,146 115,436 -34,29 1175,8041
81,146 115,436 -34,29 1175,8041
115,436 115,436 0 0
138,296 115,436 22,86 522,5796
161,156 115,436 45,72 2090,3184
161,156 115,436 45,72 2090,3184
172,586 115,436 57,15 3266,1225
184,016 115,436 68,58 4703,2164
SPR = 30309,61
Tabelul 3.2. Calculul valorii SPR prin nsumarea rezultatelor din ultima coloan a
tabelului.
Am calculat, aadar, cele trei sume implicate de diferenele care apar ntre
valorile observate i cele estimate, respectiv ntre mrimile rezultate din cele dou
estimri pe care le-am folosit. O nlocuire simpl v va convinge c are loc
urmtoarea egalitate:
38
SPR SPE SPT + (3.3.)
Aceast relaie se verific ntotdeauna, nu doar pentru exemplul firmei de telefonie
mobil, dar demonstraia afirmaiei nu este tocmai plcut i de aceea voi opta
pentru omiterea ei din aceast lucrare. Aceia dintre cititori care agreaz calculele
laborioase i doresc s se conving de adevrul egalitii (3.3.) n cadru general pot
gsi amanunte i indicaii suplimentare n lucrri de econometrie care dezvolt mai
profund aspectele teoretice
4
. n ceea ce ne privete, vom lucra n continuare
considernd c (3.3.) este adevrat i vom discuta implicaiile acestei egaliti.
Vom privi din nou la SPE i SPT i ne vom aminti faptul c SPE este suma
ptratelor erorilor care apar ntre punctele diagramei scatter (care corespund
valorilor observate, dau date,
i
y ) i punctele corespunztoare de pe dreapta
estimat a regresiei. Gndind ntr-o manier similar, SPT va trebui s provin din
nsumarea ptratelor erorilor care apar ntre punctele aceleiai diagrame i cele
corespunztoare de pe dreapta de ecuaie
y y
. Figura 3.1. arat aproximarea
punctelor
i
y prin cele dou drepte.
Figura 3.1. Diagrama scatter pentru datele din Tabelul 1.2.1. i aproximarea
acesteia prin ecuaia estimat a regresiei, respectiv prin dreapta
y y
n Figura 3.1. am pus n eviden eroarea aproximrii pentru valoarea lui y
corespunztoate lui 16 x . Am notat cu
1
E eroarea fa de dreapta de regresie i cu
2
E eroarea fa de dreapta orizontal
y y
. Similar, se pot evidenia toate erorile
pentru toate punctele diagramei scatter. Este momentul s ne amintim c n capitolul
precedent am discutat despre metoda care permite s verificm calculul matematic
atunci cnd construim ecuaia estimat a regresiei. Spuneam atunci c suma erorilor
individuale trebuie s fie zero i am artat c lucrul acesta chia se ntmpl.
4
Se poate vedea Jula Dorin, Op. Cit.
39
Spuneam, de asemenea, c aceast condiie nu se refer la gradul de ncredere pe
care l putem avea n n ecuaia estimat a regresiei, n sensul c nu aflm de aici n
ce msur ne putem baza pe aceasta pentru predicii ulterioare i a sosit clipa s ne
motivm afirmaia. Dac avei curiozitatea s nsumai erorile din coloana a patra a
Tabelului 3.1. vei obine valoarea zero. Asta nu nseamn nici pe departe c
dreapta de ecuaie
y y
este o foarte bun aproximare a punctelor de pe diagrama
scatter, lucrul acesta fiind argumentabil n dou moduri: nti, Figura 3.1. v
convinge imediat c diagrama este mult mprtiat fa de punctele dreptei
orizontale, iar al doilea va trebui s comparai suma ptratelor erorilor n dou
situaii, adic SPE i SPT. Se observ c SPT, corespunztor aproximrii prin
dreapta orizontal, este mult mai mare dect SPE care deriv din aproximarea pe
baza dreptei de regresie, cu toate c suma erorilor individiale n fiecare caz este
zero. Deducei de aici c anularea sumei este o simpl verificare pentru
corectitudinea calculului i nu pentru vreo afirmaie relativ la precizia estimrii pe
baza dreptei respective.
Mai putem face o observaie pornind de la egalitatea (3.3.). Pentru c SPR
este o sum de ptrate, nseamn c are loc ntotdeauna 0 SPR . Egalitatea cu
zero poate avea loc doar dac toi termenii implicai n calcul ar fi zero, adic
i
y y

= 0, ( ) n , 1 i . Aceast situaie corespunde cazului n care dreapta de regresie se
suprapune peste dreapta
y y
i este unicul caz n care SPE SPT . Pornind de la
reprezentarea grafic din Figura 3.1. putem spune deci c SPT i SPE au
urmtoarea semnificaie:
SPT este msura erorii atunci cnd nu utilizm analiza de regresie
SPE este msura erorii atunci cnd utilizm analiza de regresie
Am convingerea c pn n momentul de fa cel puin un cititor i-a pus
ntrebarea dac relaia (3.3.) mai are i alt rost n afar de stresarea nceptorilor n
econometrie. mi face plcere s spun c tot ce am spus pn acum converge ctre
o argumentare solid relativ la msura n care relaia gsit pentru ecuaia estimat
a regresiei poate fi utilizat n prognoze. Aceasta nsemna, dup cum am mai spus
i n capitolul anterior, ca pe dreapta de regresie s se afle ct mai multe dintre
punctele diagramei scatter. Un ideal, greu de atins, ar fi ca dreapta la care ne-am
40
referit s treac prin toate aceste puncte, ceea ce ar nsemna c n toate cazurile
are loc
i
y
i
y , iar n Figura 3.1. a-i mai regsi doar erori fa de dreapta orizontal
y y
. ntr-o atare situaie ar avea loc:
i
y y = 0,
( ) n , 1 i
0 SPE
Cele dou cazuri extreme pe care le.am pus n discuie, cu toate c nu se prea
ntlnesc n practic, sunt de ajutor pentru studiul unei mrimi pe care o vom defini
imediat i pe care se bazeaz multe elemente din analiza de regresie. Este vorba
despre coeficientul de determinare.
Definiia 3.1. Coeficientul de determinare este mrimea care reflect gradul
n care ecuaia estimat a regresiei poate fi folosit n prognoze. Se noteaz cu
2
r
i
se calculeaz dup formula:
SPT
SPR
r
2
(3.4.)
Cele dou cazuri extreme discutate anterior ne spun c:
0 r
2
dac
0 SPR
, adic dac dreapta de regresie se suprapune peste
dreapta
y y
;
1 r
2
dac
SPT SPR
,ceea ce nseamn din (3.3.) c
0 SPE
adic dac
dreapta de regresie se suprapune peste toate punctele diagramei scatter.
n oricare alt situaie, pentru c SPE este o sum de ptrate i este pozitiv,
la fel cu celelalte mrimi implicate n (3.3.), are loc inegalitatea SPT SPR < . Rezult
imediat c 1
SPT
SPR
< . innd cont de cele dou cazuri particulare i de definiia
coeficientului de determinare, obinem:
[ ] 1 , 0 r
2
(3.5.)
Coeficientul de determinare exprim procentul din SPT care poate fi explicat de
utilizarea ecuaiei estimat a regresiei. El mai poate fi folosit ca msur a gradului de
41
apropiere a dreptei de regresie de punctele diagramei scatter, n sensul c o valoare
mare a lui
2
r
ne spune c apropierea este foarte bun. Nu n ultimul rnd,
2
r

exprim o msur a intensitii relaiei de regresie: mai exact, cu ct
2
r
este mai
mare relaia este mai puternic pe cnd o valoare mic a lui
2
r
arat o relaie slab.
Pentru exemplul firmei de telefonie mobil, coeficientul de determinare este
9237 , 0
1 , 32813
61 , 30309
r
2

. n exprimare procentual avem % 37 , 92 r
2
, valoare foarte
apropiat de 1, deci relaia dintre numrul clienilor din supermarket i vnzrile
anuale ale firmei este foarte intens.
Altfel exprimat, procentul de 92,37% arat de fapt msura n care variaia
vnzrilor anuale ale firmei de telefonie mobil este explicat de variaia numrului
de clieni ai supermarketului n preajma cruia este situat dealerul. Exprimndu-ne
astfel, devine uor de neles motivul pentru care de foarte multe ori n lucrrile de
specialitate vei ntlni, pentru valorile
i
y
denumirea de variabil explicat de
modelul de regresie. De asemenea, pentru c n exemplul nostru coeficientul de
determinare este 92,37%, se intuiete c diferena pn la 100% corespunde unui
segment, sau unei pri din variaia vnzrilor care nu poate fi atribuit numrului de
clieni din supermarketuri. Despre aceast diferen de 7,63% nu avem informaii
cuprinse n modelul pe care l-am utilizat i este ideal ca acest procent diferen s
fie foarte mic, astfel nct ncrederea n relaia obinut (ecuaia de regresie) s fie
mare. Dealtfel este limpede c un model, fie el de regresie sau de alt natur, este
cu att mai potrivit cu ct furnizeaz ct mai multe explicaii asupra fenomenului
studiat.
n concluzie, procentul de 92,37% ne spune c din variaia total a vnzrilor
anuale care ne-au fost oferite n eantion, 92,37% ar putea fi atribuit modului n
care sunt distribuite datele corespunztoare numrului clienilor din supermarket. A
dori s atrag atenia din nou asupra unu aspect pe care l-am mai comentat i anume
faptul c n exprimarea utilizat anterior nu am sugerat nici o secund o relaie de
cauzalitate ntre variabilele modelului. Am folosit cuvintele ar putea fi atribuit i nu
are drept cauz, acestea din urm nsemnnd, la o privire atent, cu totul altceva.
42
Acelai procent ne spune c putem s avem ncredere n faptul c ecuaia
estimat a regresieiofer o bun aproximare a punctelor diagramei scatter.
n final trebuie s recunoatem c ntreg calculul lui
2
r
este destul de
incomod i c metoda direct pe care am prezentat-o i care utilizeaz Tabelele 3.1.
i 3.2. este destul de riscant, mai ales c n calculul erorilor ridicate la ptrat apar
deseori zecimale i tot deseori se simte nevoia aproximrii valorilor obinute. Desigur
c n scopuri didactice a fi putut alege un exemplu care s nu cauzeze bti de cap
cititorului, ns ntr-o atare situaie probabil c metoda rapid de calcul pe care o voi
prezenta mai departe nu ar mai fi fost apreciat la justa ei valoare.
Experiena didactic mi-a dovedit c de foarte multe ori studenii manifest
aversiune fa de formulele de calcul i prefer s abordeze problemele ntr-o
manier direct, muncitoreasc. Din pcate, trunchierile rezultatelor intermediare
determin n marea majoritate a cazurilor rezultate finale destul de departe de
adevr, pentru c datele reale cu care se lucreaz n problemele practice nu pot fi
ntotdeauna alese comod.
Sugerez cititorilor s in cont de toate aceste aspecte i s nu resping metoda de
calcul a coeficientului de determinare care presupune aflarea lui SPR i SPT din
formulele urmtoare:
2
n
1 i
i
n
1 i
2
i
2
n
1 i
i
n
1 i
i
n
1 i
i i
x
n
1
x
y x
n
1
y x
SPR

,
_

1
1
]
1





(3.6.)
2
n
1 i
i
n
1 i
2
i
y
n
1
y SPT

,
_




(3.7.)
43
Atunci cnd am calculat coeficienii
0

i
1
pentru ecuaia estimat a regresiei am
avut nevoie de toate elementele care apar n (3.6.) i (3.7.), mai puin de suma

n
1 i
2
i
y
care va fi calculat acum. Reamintim c:
10 n ,
36 , 14195 y x
n
1 i
i i

,
100 x
n
1 i
i

,
36 , 11154 y x
n
1 i
i i

,
1232 x
n
1 i
2
i

.
Din calcul direct, rezult
8096 , 166067 y
n
1 i
2
i

.
nlocuim n (3.6.) i (3.7.) i obinem:
61 , 30309
100
10
1
1232
36 , 1154 100
10
1
36 , 14195
SPR
2
2


1
]
1

1 , 32813 36 , 1154
10
1
8096 , 166067 SPT
2

Coeficientul de determinare se calculeaz din (3.4.) i pentru c valorile SPT i SPR
au rezultat, aa cum ne ateptam, aceleai ca i n cazul metodei anterioare de
calcul, nseamn c
2
r
i menine valoarea de 92,37%. n acest fel nu am utilizat
tabele, nu am ridicat la ptrat o grmad de diferene, de fapt n-am fcut dect s
utilizm mrimile care ne-au fost deja de ajutor n calculul lui
0

i
1
. Este foarte
adevrat c i aceast metod presupune ca, la un moment dat, s facem ulele
aproximri. Dac vei calcula efectiv SPR i SPT prin intermediul formulelor (3.6.) i
(3.7.), vei vedea c ele sunt aproximativ egale cu valorile pe care le-am comunicat
cititorilor. Dar prin aceast metod de lucru eventuala aproximare apare o singur
dat, la finalul calculului i nu n fiecare csu din ultima coloan a Tabelelor 3.1. i
3.2., aa cum sunt tentai studenii s procedeze atunci cnd sunt confruntai n mod
repetat cu zecimale incomode.
44
n fond, i calculul direct i aplicarea formulelor prescurtate sunt de fapt
metode de lucru la fel de corecte ct vreme rezultatele obinute nu sunt eronate.
Important este ca, indiferent pe care dintre ci, s o scoatei la capt i s calculai
corect coeficientul de determinare.
Exerciii propuse
Exerciiul 14. Pentru datele din Exerciiul 7, s se calculeze cu ajutorul
formulelor (3.6.) i (3.7.):
a) SPR
b) SPT
c) Folosind formula (3.3.) i rezultatele de la a) i b), calculai SPE i comparai
cu rezultatul pe care l-ai obinut cnd ai rezolvat Exerciiul 7 i ai utilizat
metoda direct.
d) Calcluai coeficientul de determinare i comentai asupra ecuaiei estimate a
regresiei pe care ai obinut-o n rezolvarea Exerciiului 7.
Exerciiul 15. Pentru datele din Exerciiul 8, s se calculeze SPR i SPT prin
metoda direct i apoi cu ajutorul formulelor (3.6.) i (3.7.). Care este procentul din
SPT care este explicat prin modelul de regresie? Ce informaii ofer valoarea
coeficientului de determinare cu privire la relaia dintre variabilele din problem?
Exerciiul 16. Pentru datele din Exerciiul 9, se cer:
a) Valorile pentru SPR, SPE i SPT , calculate prin metoda direct i apoi cu
ajutorul formulelor (3.3.), (3.6.) i (3.7.).
b) Comparai rezultatele obinute prin cele dou metode i explicai eventualele
diferene care pot s apar.
45
c) Calculai coeficientul de determinare i comentai semnificaia lui pe baza
elementelor teoretice explicate n Seciunea 3.
Exerciiul 17. Aceleai cerine ca la exerciiul anterior, pentru datele din Exerciiul
11.
Exerciiul 18. Se dau urmtoarele date:
x 50 75 100 140 160 180
y 5 25 45 70 95 120
a) Imaginai un exemplu practic pentru care datele din tabelul anterior ar putea fi
corespunztoare.
b) Stabilii variabila independent i pe cea dependent, conform cu
semnificaiile impuse de exemplul pe care l-ai ales.
c) Construii ecuaia estimat a regresiei pentru datele din enun i reprezentai-
o grafic n acelai sistem de coordonate cu diagrama scatter care se
profileaz.
d) Calculai coeficientul de determinare i interpretai valoarea lui pe baza
exemplului concret pe care l-ai ales.
Exerciiul 19. Calculai coeficientul de determinare pentru ecuaia estimat a
regresiei pe care ai determinat-o la Exerciiul 10. Comentai rezultatul prin prisma
semnificaiei lui
2
r
.
ntrebri recapitulative
46
1. Care sunt elementele de care dispunem iniial atunci cnd ne pregtim s
calculm coeficientul de determinare?
2. Cte metode de estimare sunt implicate n calculul coeficientului de
determinare? Care sunt?
3. Cte feluri de erori, sau diferene, trebuie avute n vedere atunci cnd
urmeaz s discutm problema coeficientului de determinare? Care sunt?
4. Care este semnificaia mrimilor SPR, SPE i SPT?
5. Care este relaia dintre SPR, SPE i SPT?
6. n cte moduri pot fi calculate mrimile SPR, SPE i SPT? Detaliai.
7. Explicai avantajele i dezavantajele fiecreia dintre metodele de calcul pe
care le-ai menionat ca rspuns la ntrebarea 6.
8. Cum se definete coeficientul de determinare?
9. Care este formula de calcul a coeficientului de determinare?
10. Care sunt comentariile pe care le putei face asupra semnificaiei
coeficientului de determinare?
4. Testarea semnificaiei statistice
Exist cteva motive obiective pentru care aceast seciune va fi prezentat
cu foarte mare atenie i, pentru unii dintre cititori, poate prea n amnunt. Dac
prezenta lucrare s-ar adresa specialitilor n econometrie, cu siguran c grija ar
trebui ndreptat doar asupra corectitudinii informaiei. Mi-am propus, ns, ca
aceast carte s se adreseze n primul rnd persoanelor care nu sunt familiarizate
cu domeniul i de aceea, n dorina de a explica foarte clar noiunile i metodele cu
care operm, voi prefera s aduc i foarte multe elemente care pot fi de ajutor n
atingerea obiectivului propus. Seciunea 4 face apel la o serie de cunotine pe care
cititorul ar trebui s le aib ca urmare a lecturrii atente a unui curs de statistic.
Pentru c nu sunt convins de existena acestor informaii nici mcar atunci cnd
este vorba despre fotii mei studeni i pentru c de cele mai multe ori reacia
47
cititorilor este aceea de a trece peste paragrafele incomode mai degrab dect s
caute prin diverse cri o completare a cunotinelor, am preferat s elaborez
aceast seciune reamintind i cteva din elementele fundamentale de statistic pe
care se bazeaz toate construciile i concluziile la care vom ajunge. mi place s
cred c acest demers va fi de ajutor mcar unora dintre dumneavoastr, uurndu-
v munca de documentare i, de ce nu, eliminnd o parte din sentimentul de
respingere cu care este primit de ctre studeni aceast parte a analizei de
regresie.
Voi ncepe printr-o scurt recapitulare a ctorva lucruri pe care le-am fcut
pn acum. Am prezentat Metoda Celor Mai Mici Ptrate, cu ajutorul creia am
determinat
0

i
1

pe care i-am numit parametrii ecuaiei estimate a regresiei.


Trebuie s ne amintim faptul c ntreg calculul s-a bazat pe datele din Tabelul 1.1.,
deci pe un eantion format din zece dealeri. Haidei s ne gndim c n realitate
firma de telefonie mobil are reprezentani n foarte multe locuri i c n total exist
270 de magazine prin intermediul crora i distribuie produsele destinate vnzrii:
telefoane mobile, accesorii sau abonamente i alte servicii. ntr-o atare situaie
alegerea unui eantion format din zece dealeri se poate face n foarte multe moduri,
mai exact n
10
270
C adic un numr deloc de neglijat pe care nu v-a sftui s
ncercai sa-l calculai dac nu dispunei de un program special pe computer. Ne
putem atepta, deci, ca pentru un alt eantion datele din Tabelul 1.1. s arate mai
mult sau mai puin diferit, la fel de bine cum valorile rezultate dintr-un nou calcul
pentru
0

i
1

pot fi de asemenea diferite de cele determinate de noi n Seciunea


2. Mai grav, dac lucrm pe baza datelor provenite de la 20 de eantioane diferite,
de exemplu, n-ar fi de mirare s obinem tot attea valori pentru parametrii estimai
0

i
1

. Ei, bine, toat povestea aceasta reprezint marea problem care cere
ajutorul instrumentelor statistice. Atta vreme ct nu dispunem de absolut toate
datele adic de ntreaga populaie i avem la ndemn doar o parte dintre ele
adic eantionul nu ne putem baza cu certitudine pe rezultatele pe care le-am
obinut. Informaia trunchiat va genera n mod sigur erori i problemele care apar
sunt destul de numeroase.
48
Orice statistician poate mrturisi c lupta cu datele care urmeaz a fi utilizate
n analize este destul de spinoas. Se pot ntmpla dou lucruri: s-i fie puse la
dispoziie, sau s fie invitat s le culeag. Ambele variante creaz oarecare
neplceri i este greu de spus care situaie este de preferat. Dac datele i sunt
furnizate pur i simplu, apare problema modului n care au fost obinute. Sunt
corecte? Sunt suficiente? Au fost colectate conform regulilor pe care le impune
statistica? Dac are posibilitatea s le culeag singur, atunci va ti ce are de fcut
pentru ca totul s se desfoare pe baze tiinifice, dar i n aceast situaie se va
afla fa n fa cu fragmente de informaie i nu cu date complete relativ la ntreaga
populaie.
Revenind la problema valorilor care se pot obine pentru
0

i
1

din diferite
eantioane, este uor de neles faptul c se nate urmtoarea suspiciune: ct de
mult ne putem baza pe rezultatele pe care le-am obinut? Ct de semnificateive sunt,
n sensul n care scopul nostru este s caracterizm ntregul pe baza unei pri pe
care o cunoatem? De exemplu, valorile 136 , 1

0
i 43 , 11

1
pe care le-am
calculat n Seciunea 2 caracterizeaz ct de ct fidel ecuaia de regresie pe
ansamblul dealerilor firmei de telefonie mobil, sau se poate ntmpla ca un alt
eantion s ne conduc la rezultate complet diferite, ca de exemplu 6 , 12

0
i
135

1
, iar n realitate s fie vorba despre
4 , 4
0

i 5
1
? Aceste ultime valori
s-ar referi la mrimile pe care le-am obine dac am avea acces la datele pentru
ntreaga populaie i care nu ar fi deloc apropiate de rezultatele pe care le-am
menionat ca provenind din dou eantioane diferite.
De obicei eantioanele se aleg uniform aleator i prin urmare exist o valoare
de probabilitate pe care o putei atribui posibilitii ca din aceast alegere s rezulte
un eantion anume. De asemenea, fiecrui eantion i vor corespunde ca urmare a
calculului prezentat n Seciunea 2 valori ferme ale parametrilor estimai
0

i
1

.
Putem afirma, deci, c
0

i
1

se obin din calcule cu aceeai probabilitate cu care


este ales eantionul pe baza cruia au fost determinai. Dac, de exemplu,
eantionul din Tabelul 1.1. apare cu probabilitate 0,014 (ipotetic vorbind) atunci cnd
49
se aleg la ntmplare zece dealeri din totalul lor, atunci putem spune c 136 , 1

0
i
43 , 11

1
apar cu probabilitate identic, adic tot 0,014.
Vom discuta un exemplu n care populaia are trei elemente, iar populaia are
dou. Desigur c din punct de vedere practic nu are nici un sens s aplicm
instrumente statistice n aceast situaie, dect dac din diferite motive nu avem
acces la ntreaga informaie. Pentru scopuri didactice, ns, exemplul este potrivit.
Exemplul 4.1. Considerm populaia
{ } c , b , a din care alegem uniform aleator
un eantion format cu doi itemi. Este uor de observat c exist trei posibiliti i
anume:
{ } b , a ,
{ } c , a ,
{ } c , b i intuim c fiecare variant are ansa, sau probabilitatea,
de
3
1
de a fi aleas. Pentru fiecare dintre cele trei posibiliti de alegere se vor obine
valori ferme pentru
0

i
1

, pe care le vom nota astfel:


Eantionul
{ } b , a :
01

i
11

Eantionul
{ } c , a :
02

i
12

Eantionul
{ } c , b :
03

i
13

Pentru c fiecare eantion apare cu probabilitate


3
1
, cu aceeai probabilitate se vor
nregistra i rezultatele
0

i
1

. Construim tablourile urmtoare, n care nscriem pe


prima linie parametrii i pe linia a doua ansele lor de apariie:
Tabloul 1:

,
_

3
1
3
1
3
1

:

03 02 01
0
Tabloul 2:

,
_

3
1
3
1
3
1

:

13 12 11
1
50
Pentru cititorii familiarizai cu teoria probabilitilor faptul c am enumerat toate
variantele de rezultat i ansele lor de apariie este o direcionare clar ctre
noiunea de variabil aleatoare. Tabloul 1 este variabila aleatoare care corespunde
lui
0

, iar Tabloul 2 lui


1

.
Dac exemplul anterior a fost suficient de clar, nseamn c este de neles
faptul c
0

i
1

sunt, de fapt, variabile aleatoare care pot lua diferite valori n


funcie de eantionul ales, iar aceste valori se pot ntlni cu aceeai probabilitate cu
care eantionul utilizat n calcul are anse s apar ca urmare a seleciei din
ntreaga populaie. Problema care se contureaz imediat este legat de natura
valorilor pe care le pot lua aceste dou variabile aleatoare, n sensul n care dorim
s vedem:
Dac exist o tendin de grupare a lor n jurul unei valori medii;
n ce msur se realizeaz aceast grupare;
Ct de dispersate, sau mprtiate, sunt valorile fa de media pe care am
menionat-o.
Exprimat n limbaj de specialitate, dorim ca
0

i
1

s ndeplineasc
urmtoarele proprieti:
1) S fie estimatori nedeplasai, adic media fiecreia dintre cele dou variabile
aleatoare s fie egal cu parametrul corespunztor care ar rezulta din calcul
dac am utiliza, n loc de eantion, ntreaga populaie. Aceast proprietate se
scrie, formal, astfel:
( )
0 0

M i ( )
1 1
.

M
2) Dispersia variabilelor
0

i
1

s fie cea mai mic posibil, adic estimatorii


trebuie s se mprtie, sau s se ndeprteze ct mai puin cu putin de la
valorile medii pomenite anterior.
3) S fie estimatori consisteni, adic pe msur ce alegem eantioane de
dimensiuni din ce n ce mai mari, valorile rezultate din calcul pentru
0

i
1


51
s se apropie din ce n ce mai mult de valorile reale ale parametrilor
0

i
1

care corespund ntregii populaii.
Fr s intrm n amnunte, vom spune c estimatorii
0

i
1

calculai prin Metoda


Celor Mai Mici Ptrate ndeplinesc o serie de proprieti care ne dau voie s credem
c ne putem baza pe cele trei caracteristici pe care tocmai le-am prezentat.
Din punct de vedere al practicianului, tot preambulul pe care l-am fcut aici poate fi
considerat plictisitor sau deranjant. Foarte muli cititori sunt interesai n primul rnd
de latura aplicativ a problemelor, simindu-se pe deplin insensibili cnd este vorba
despre caracteristicile sau proprietile teoretice ale instrumentelor cu care
opereaz. Prin urmare, voi continua prezentarea ntr-un registru concret i voi urmri
dou coordonate care pot fi de interes atunci cnd lucrm cu date numerice. n
ambele situaii, metodele de lucru au la baz elemente de statistic i pentru c nu
toat lumea cunoate n amnunt capitolul pe care aceast tiin l dedic verificrii
ipotezelor, voi opta pentru indicarea unor etape de lucru i nu pentru o recapitulare
n amnunt a informaiilor.
Prima problem: Am explicat faptul c
0

i
1

sunt, de fapt, estimri ale


parametrilor
0

i
1
ai ntregii populaii. Se poate ntmpla ca, din diferite
considerente, s intuim valoarea lui
0

i
1
i s dorim s verificm dac avem
dreptate utiliznd un eantion din care s calculm
0

i
1

. Pentru o mai bun


nelegere a fenomenului, haidei s presupunem c directorul firmei de telefonie
mobil are motive s cread c
1
ia, n realitate, valoare 11,5. Cum se poate
convinge c aceast valoare este plauzibil? n primul rnd, el nu va avea
certitudine asupra afirmaiei dect n situaia n care efectueaz calculul lui
1
pe
baza datelor provenite de la toi dealerii, adic pe baza ntregii populaii. n rest,
directorul poate spera ntr-o afirmaie cu 90% sau 95% anse de certitudine, sau cu
orice alt procent de obicei mai mic de 100%. S admitem c domnul director se
declar mulumit cu procentul de 90%. Apar aici dou ipoteze pe care le vom numi
dup modelul statisticii ipoteza nul
0
H
i ipoteza alternativ
1
H . Ipoteza nul se
refer la ceea ce se verific i deci la posibilitatea 5 , 11
1
. Ipoteza alternativ este
52
contrar primeia i va presupune, prin urmare, c 5 , 11
1
. Alegerea celor dou
ipoteze este mai mult dect fireasc, pentru c se refer la cele dou ipostaze n
care se poate afla
1
: egal sau diferit de 11,5. Vom scrie astfel:
0
H
: 5 , 11
1

1
H : 5 , 11
1

Urmeaz acum etapa n care va trebui s hotrm care ipotez este adevrat i
pentru asta vom folosi informaiile pe care le-am obinut deja pe baza eantionului
disponibil n Tabelul 1.1. Avem nevoie de o mrime pe care o numim eroarea
standard a corficientului de regresie, aceasta fiind tocmai rdcina ptrat a
coeficientului de determinare
2
r
. Pentru c am precizat deja c voi prezenta doar
metoda de calcul, cititorii vor trebui s tie doar faptul c trebuie calculat mrimea:
2
n
1 i
2
i
e

x n x
s
s
1

(4.1.)
Pe
e
s
l-ai ntlnit n Seciunea 3 i a fost calculat, rezultnd
69 , 17 s
e

. Obinem,
prin urmare:
1614 , 1
10 10 1232
69 , 17
s
2

Tocmai am folosit un element important pentru continuarea calculului i anume


informaia cu privire la dimensiunea eantionului, care este 10 n . Lucrul acesta ar
trebui s ne reaminteasc faptul c n statistic se ine cont dac eantionul este
format din mai mult sau mai puin de 30 de itemi, pentru c n funcie de asta vom ti
cum abordm problema mai departe. De fapt, avem de calculat dou valori limit i
anume: limita superioar a regiunii de acceptare pentru ipoteza
0
H
i limita
inferioar a aceleiai regiuni. Va trebui s determinm mrimile:
1
1
s

t
53
n locul steluei se va afla fie un t, fie un z, n funcie de dimensiunea eantionului,
adic:
Dac 30 n < , cum este i cazul nostru, vom folosi distribuia Student cu 2 n
grade de libertate i n locul lui va fi un t.
Dac 30 n , intr n scen distribuia normal i va fi nlocuit printr-un z.
Am stabilit c directorul firmei se declar mulumit dac poate fi sigur n
proporie de 90% de rezultatul testrii. Atunci vom determina o valoare

din
egalitatea urmtoare:
05 , 0
2
10 , 0 9 , 0 1


Acest

se numete prag de semnificaie i reprezint probabilitatea cu care ipoteza


0
H
risc s fie respins, ea fiind n realitate adevrat.
Vom calcula limita superioar i cea inferioar de acceptare astfel:
Limita superioar:
1

2
1
s t

+
(4.2.)
Limita inferioar:
1

2
1
s t


(4.3.)
Valoarea
2
t

, pentru
05 , 0
2

i 8 2 n grade de libertate este de gsit n


tabelele distribuiei Student i este
860 , 1 t
05 , 0

. Cele dou limite se calculeaz
imediat, innd cont c ipoteza
0
H
insinueaz o valoare 5 , 11
1
:
Limita superioar:
66 , 13 1614 , 1 86 , 1 5 , 11 +

Limita inferioar:
34 , 9 1614 , 1 86 , 1 5 , 11
Mai departe, metoda de lucru ne spune s verificm dac valoarea estimat pentru
1
se afl ntre limita inferioar i cea superioar a regiunii de acceptare. Mai exact,
dac ( ) 66 , 13 ; 34 , 9 43 , 11

1
. Pentru c apartenena lui
1

la acest interval este


54
evident, vom afirma c suntem siguri n proporie de 90% de faptul c ipoteza
0
H

este adevrat i vom accepta c 5 , 11
1
.
Exemplul 4.2. Uitai pentru moment faptul c s-ar putea confirma cu anse 90%
valoarea 5 , 11
1
i haidei s readucem n discuie amnuntul c 43 , 11

1
a fost
obinut din unul dintre eantioanele posibile ale populaiei. Am discutat deja cu
privire la posibilitatea ca acest rezultat s fie, de fapt, foarte departe de adevr i c
este posibil ca n realitate 135
1
de exemplu. S testm aceast ipotez urmnd
exact aceiai pai pe care i-am prezentat anterior.
Fixm ipotezele:
0
H
: 135
1

1
H : 135
1

Vom calcula din nou limitele regiunii de acceptare din (4.2.) i (4.3.), singura mrime
care se modific fa de calculul precedent fiind 135
1
.
Limita superioar:
84 , 132 1614 , 1 86 , 1 135 +

Limita inferioar:
16 , 137 1614 , 1 86 , 1 135
Verificm acum dac valoarea 43 , 11

1
este situat n intervalul pe care l-am
obinut, adic:
( ) 84 , 132 ; 16 , 137 43 , 11

1

Apartenena nu este valabil, deci putem afirma cu certitudine de 90% c ipoteza
0
H
se respinge, iar ipoteza
1
H devine implicit acceptat.
Calcule similare se pot face i pentru verificarea ipotezelor relativ la
parametrul
0

i voi lsa n seama cititorului s afle dac presupunerea c


14 , 1
0


este viabil, c o probabilitate de 90%.
55
A doua problem: Am luat n calcul pn acum diferite aspecte care vizeaz
valorile posibile ale parametrilor
0

i
1
, dar nu ne-am referit la o situaie care,
odat aprut, poate modifica radical modul n care am privit problema relaiei de
regresie dintre variabilele x i y. Este vorba despre cazul n care, de fapt, 0
1

ceea ce nseamn c nu exist influen a variabilei independente asupra variabilei
dependente.
Ne vom reaminti c ecuaia regresiei are forma:
( ) x y M
1 0
+
nseamn c dac de exemplu 2
1
, atunci modificarea gu o unitate a lui x este
responsabil de modificarea cu dou uniti a lui
( ) y M , ceea ce indic faptul c ntre
x i
( ) y M se stabilete o relaie liniar. Dac
1
se dovedete a fi zero, nseamn c
modificrile lui x nu mai au influen asupra lui
( ) y M , adic ntre cele dou mrimi
nu exist o relaie liniar i, cine tie, poate c de fapt nu exist nici un fel de relaie.
De ce n+am putea intui nc de la nceput o astfel de situaie? Evident, pentru c
opernd pe un eantion ne punem sperane c dac
1

a rezultat nenul, atunci i


1

trebuie s fie la fel. Avem deja destule argumente ca s nu avem ncredere deplin
n aceast posibilitate, mai ales dac
1

are o valoare foarte mic. Aadar, este


justificat testarea ipotezei ca
1
s fie nul, avnd ca ipotez alternativ posibilitatea
0
1
:
0
H
: 0
1

1
H : 0
1

Metoda pe care o vom utiliza mai departe, numit Testul F, se bazeaz tot pe
verificarea ipotezelor statistice i nu va fi aprofundat sub aspectmteoretic ci vor fi
urmai doar paii de lecru. Vom utiliza unele mrimi deja calculate i va trebui s mai
determinm i altele, dup cum urmeaz.
56
Cunoatem deja
49 , 2503 SPE
i, cu ajutorul ei, calculm media ptratelor
erorilor din formula:
2 n
SPE
MPE

(4.4.)
Obinem 936 , 312
8
49 , 2503
MPE . Calculm apoi media ptratelor erorilor rezultate
din utilizarea regresiei, din formula:
. indep . var . nr
SPR
MPR
(4.5.)
Pentru c n modelul nostru avem o singur variabil independent, x, nseamn c
numitorul fraciei anterioare este egal cu 1. Numrtorul a fost calculat deja i este
30309,61, deci obinem
61 , 30309 MPR
.
Dac ne gndim la un fapt evident, anume acela c odat cu modificarea
eantionului se vor modifica i mrimile SPR i SPE, deci i MPR i MPE, nseamn
c acestea din urm sunt variabile aleatoare. Justificarea este similar celei pe care
am adus-o atunci cnd am explicat c
0

i
1

sunt astfel de variabile. Raportul lor l


vom nota cu F:
MPE
MPR
F (4.6.)
Acest F desemneaz o distribuie ntlnit n teoria probabilitilor sub numele de
Distribuia F cu un grad de libertate la numrtor i 2 n grade de libertate la
numitor, unde n este dimensiunea eantionului utilizat.
Calculm valoarea lui F pentru exemplul nostru i obinem:
855 , 96
936 , 312
61 , 30309
F
57
S stabilim dac putem accepta
0
H
i vom presupune c trebuie s fim siguri n
proporie de 99%. nseamn c putem grei cu anse de 1%, adic 0,01.
Pentru
01 , 0
i pentru distribuia F cu un grad de libertate la numrtor i 8
grade de libertate la numitor, obinem din tabelele specifice valoarea
26 , 11 F
01 , 0

.
Ultimul pas n rezolvarea problemei noastre este s comparm valorile F i
01 , 0
F
pe
care tocmai le-am determinat i s aplim urmtoarea regul de decizie:
Dac
01 , 0
F F
, acceptm
0
H
.
Dac
01 , 0
F F >
, respingem
0
H
.
Pentru c
> 855 , 96 F 26 , 11 F
01 , 0

rezult c ipoteza
0
H
se respinge. Asta
nseamn c suntem 99% siguri de faptul c 0
1
, deci c ntre variabilele x i y
exist o relaie n sensul c variaia lui x genereaz variaii ale lui y. Putem avea
ncredere acum n ecuaia estimat a regresiei pe care am determinat-o n Seciunea
2 i o putem folosi n predicii cu privire la vnzrile anuale ale firmei de telefonie
mobil.
Specialitii ne pun la dispoziie i o alt metod de verificare a ipotezelor n
acest caz, bazat de aceast dat pe Testul t. Ct vreme lucrai pentru testarea
parametrilor unui model de regresie liniar cu o singur variabil independent, n
cazul nostru x, putei aplica dup propriile preferine Testul F sau Testul t pentru c
ele conduc la acelai rezultat. Dac modelul are, ns, mai multe variabile
independente, ceea ce nu este cazul n lucrarea de fa, Testul F va fi singura arm
de care vei dispune.
Discutm n continuare etapele de lucru specifice Testului t, fr s ne oprim
asupra motivelor teoretice care justific funcionalitatea lor.
Pasul 1. Calculm valoarea
2

1
s

care se constituie n estimatorul dispersiei,


sau mprtierii
2

pe care o nregistreaz valorile variabilei aleatoare


1

:
58
2
n
1 i
2
i
2

x n x
1
MPE s
1

(4.7.)
Obinem, pentru exemplul nostru:
349 , 1 s
2

. Trebuie s observai c (4.7.) este de


fapt (4.2.) ridicat la ptrat n ambii membri.
Pasul 2. Calculm raportul
1

1
s

.
Pentru exemplul nostru, obinem:
84 , 9
1614 , 1
43 , 11
s

Pasul 3. n funcie de pragul de semnificaie dorit, vom calcula


2
t

din tabelul
Distribuiei t cu 2 n grade de libertate.
S presupunem c dorim s fim siguri n proporie 90% de faptul c ipoteza
0
H
este adevrat. Asta neamn c
05 , 0
2
10 , 0 9 , 0 1


, de unde
obinem
86 , 1 t
2

pentru 8 grade de libertate.


Pasul 4. Regula de decizie. Vom folosi urmtoarea regul:
Acceptm
0
H
dac


2
t
1

1
s

2
t

Respingem
0
H
dac
1

1
s

2
t

>
n exemplul nostru se observ c este ndeplinit cea de-a doua relaie, pentru c
9,84 > 1,86. n consecin, respingem
0
H
i acceptm
1
H care ne spune c 0
1
.
Aceast concluzie o considerm adevrat la un prag de semnificaie
10 , 0
.
59
n ncheierea acestei seciuni a dori s mai trec n revist nc o dat
motivele pentru care etapa de testare a semnificaiei parametrilor este necesar.
Modificrile eantionului i a dimensiunii acestuia ridic probleme, pentru c apar
schimbri n valorile estimatorilor
0

i
1

. Problemele se traduc astfel:


n ce condiii putem generaliza estimrile? Altfel spus, n ce condiii putem
realiza inferena statistic?
Pe ce ne bazm atunci cnd afirmm c o estimare este cu adevrat
semnificativ i nu este rezultatul ntmplrii sau a unei conjuncturi
particulare, legate de alegerea unui anumit eantion?
ntre ce limite se poate modifica estimaia fr s afectm concluziile relativ la
semnificaia ei?
Ce garanii probabilistice avem cu privire la semnificaia estimatorilor?
Dac dup parcurgerea acestei seciuni ai putut rspunde acestor ntrebri,
nseamn c ai acumulat toate informaiile necesare pentru aceast etap n
materie de testarea semnificaiei estimatorilor.
Exerciii propuse
Exerciiul 20. Se dau urmtoarele date, provenite din 5 observaii:
Observaia
i
x
i
y
1 3 25
2 4 26
3 6 22
4 2 32
5 10 15
a) Calculai SPR, SPT i SPE.
b) Calculai MSR i MSE.
c) Aplicai testul F pentru ipotezele:
60
0
H
: 0
1

1
H : 0
1

la un prag de semnificaie
05 , 0
d) Pentru rezolvarea acestei probleme avei nevoie de determinarea prealabil a
ecuaiei estimate a regresiei?
e) Ce semnificaie considerai c are concluzia pe care ai obinut-o la punctul
c)?
Exerciiul 21. Pentru datele de la Exerciiul 7, rspundei cerinelor urmtoare:
a) Calculai SPR, SPT i SPE.
b) Calculai MSR i MSE.
c) La un prag de semnificaie
05 , 0
, aplicai testul F pentru ipotezele:
0
H
: 0
1

1
H : 0
1

d) Exist vreo relaie ntre variabilele x i y din datele iniiale? Justificai
rspunsul.
e) La un prag de semnificaie
05 , 0
, testai ipotezele:
0
H
: 5 , 2
1

1
H : 5 , 2
1

Exerciiul 22. Pentru datele de la Exerciiul 8, rspundei cerinelor urmtoare:
a) Calculai MSE, ca estimator al lui
2

.
61
b) Calculai
2

1
s

i
1

.
c) Utilizai Testul t pentru a stabili dac ntre nivelul salariilor angajailor i
vechime exist o relaie. Efectuai testarea, separat, pentru praguri de
semnificaie
1 , 0
,
05 , 0
i
025 , 0
.
d) La un prag de semnificaie
05 , 0
, testai ipotezele:
0
H
: 120
1

1
H : 120
1

e) La un prag de semnificaie
1 , 0
i apoi
05 , 0
, testai ipotezele:
0
H
:
5 , 486
0

1
H :
5 , 486
0

Exerciiul 23. Pentru datele din Exerciiul 10, testai dac ntre preul de vnzare a
unei locuine i suprafaa acesteia exist o relaie. Utilizai att Testul t ct i Testul
F, pentru pragurile de semnificaie
1 , 0
i
05 , 0
.
Exerciiul 24. Pentru datele din Exerciiul 12, rspundei urmtoarelor cerine:
a) Utilizai Testul F la un prag de semnificaie
1 , 0
i apoi
05 , 0
pentru a
stabili dac ntre preul biletului i numrul de pasageri exist sau nu vreo
relaie.
b) Aceeai cerin, pentru aplicarea Testului t.
c) Comparai valorile lui
1

1
s

i
2
t

i gsii, dac exist, o relaie ntre ele.


d) Considerai c Testul F i Testul t pot conduce la concluzii diferite?
62
Intrebri recapitulative
1. Care sunt avantajele i dezavantajele utilizrii eantionului i nu a ntregii
populaii?
2. De ce utilizarea eantionului nu ofer informaii exacte despre
comportamentul ntregii populaii?
3. Cte valori ale lui
0

i
1

putem obine atunci cnd avem posibilitatea s


selectm diferite eantioane din pupulaie?
4. De ce
0

i
1

sunt considerate variabile aleatoare?


5. Ce nseamn faptul c
0

i
1

sunt estimatori nedeplasai, consisteni i de


dispersie minim?
6. Care sunt cele dou probleme care pot s apar atunci cnd dorim s ne
bazm pe valori
0

i
1

provenite din eantioane?


7. Recapitulai paii de lucru ai metodei de testare a faptului c
1
ia n realitate
o anumit valoare.
8. Recapitulai paii de lucru pentru aplicarea Testului F i a Testului t i
precizai scopul n care sunt aplicate aceste metode.
9. Ce nseamn prag de semnificaie?
10. n ce situaie v este indiferent dac aplicai Testul F sau Testul t?
63

S-ar putea să vă placă și