Documente Academic
Documente Profesional
Documente Cultură
Econometrie - Suport de Curs
Econometrie - Suport de Curs
Modelul de regresie
etape, despre maniera n care sunt duse la ndeplinire, se pot gsi n orice manual de
statistic1. Econometria poate intra n scen doar dup ce au fost oferite date suficiente,
imediat ce a fost stabilit problema care trebuie rezolvat i n msura n care metodele
specifice acestei discipline sunt utilizabile.
Vom face mpreun primii pai n econometrie, prin studiul unei metode care poate fi
utilizat n scopul determinrii unei relaii de dependen ntre dou mrimi de interes pe care
le vom numi variabile. Este vorba despre Analiza regresiei. Deocamdat ne vom ocupa de
cazul cel mai simplu, acela care implic intenia de a descrie o variabil y, pe care o vom
numi variabil dependent, sau endogen, n funcie de o singur variabil x, care va purta
numele de variabil independent, sau exogen. Cel mai simplu tip de analiz de regresie
presupune c relaia dintre cele dou variabile se apropie de o relaie liniar care, ntr-o
reprezentare grafic, are foma unei drepte. Cazul care implic o astfel de relaie de
dependen este cunoscut n literatura de specialitate sub numele de Analiza regresiei liniare
simple. Dac variabilele independente sunt dou, sau mai multe, ne situm n cazul regresiei
multiple.
Rezumnd, ne vom ocupa de determinarea relaiei dintre:
y: variabil dependent, sau endogen
x: variabil independent, sau exogen
Vom considera c relaia este suficient de apropiat de una liniar i din cauza acestei
aproximri este natural s ne punem problema dac liniaritatea este o supoziie corect.
Prin studiul corelaiei dintre x i y se determin gradul n care variabilele sunt, ntr-adevr, n
relaie liniar i nu de alt natur. Analiza de corelaie, de care nu ne vom ocupa n aceast
lucrare, este o procedur de stabilire a msurii n care relaia dintre x i y este liniar i, dac
acest lucru se confirm, tot analiza de corelaie ne ajut s determinm intensitatea relaiei.
nainte de a trece efectiv la studiul modelului de regresie mai trebuie precizat faptul c
nici analiza regresiei i nici cea a corelaiei nu pun n eviden o relaie de tipul cauz efect
ntre variabilele implicate n model, ci arat doar n ce msur sunt ele n legtur una cu alta.
Dac analiza este just, dac se dovedete c exist argumente solide n acest sens, atunci
cauzalitatea este un aspect care poate fi discutat ulterior.
n ncheierea acestei prime seciuni ne vom ntoarce pentru o clip la exemplul
ntreprinztorului doritor s tie dac reclama fcut produsului are efectul scontat i vom
observa c variabila dependent y este volumul vnzrilor, iar variabila independent x este
Se poate vedea de exemplu Cornelia Nistor, Elemente de statistic, Ed. Cartea Universitar, Bucureti, 2005.
2
Acest model de calcul arat cum cunoaterea faptului c se achiziioneaz x 4 kg. cartofi
atrage dup sine cunoaterea sumei exacte care trebuie pltit, adic
y 3 4 12 RON.
Dealer
Vnzri anuale
(sute)
19,36
50
68
90
10
100
12
125
14
150
14
200
15
162
10
16
190
x 14 y 200 (Dealer 8)
ntr-o astfel de situaie nu mai putem pune problema determinrii exacte a lui y pe baza
cunoaterii valorii lui x, motiv pentru care spunem c modelul care arat relaia dintre x i y
este de natur nedeterminist i prin urmare probabilistic.
cunoscut sub numele de diagram scatter i ne ofer o viziune de ansamblu care este de
ajutor n intuirea relaiei dintre cele dou variabile.
_________________________________________
Figura 1.3.1. Diagrama scatter pentru datele
din Tabelul 1.2.1.
Din Figura 1.3.1. putem desprinde cteva concluzii preliminare. n primul rnd apare
ideea c un numr mic de clieni ai supermarketului este asociat cu un volum mic de vnzri
anuale, iar un numr mare de clieni este, dimpotriv, corespunztor unui volum anual mare
al vnzrilor. De asemenea, se observ o tendin de dependen liniar (n form de dreapt)
ntre cele dou variabile i n Figura 1.3.1. am trasat linia dreapt care pare s aproximeze
aceast dependen. Totui, este important s inem cont de faptul c relaia liniar care s-a
conturat nu este una perfect, pentru c nu toate punctele de pe diagrama scatter aparin
dreptei pe care am desenat-o.
Am vzut deja, n Tabelul 1.2.1., c unei aceeai valori a lui x nu i se garanteaz
aceeai valoare a lui y i din acest motiv va trebui s acceptm c dependena dintre x i y nu
are o natur determinist, ci una probabilist. Pe baza faptului c relaia care se contureaz
ntre numrul clienilor din supermarmarketuri vecine i volumul anual al vnzrilor obinute
de dealerii firmei de telefonie mobil este una liniar, aproximat de linia dreapt din Figura
1.3.1., afirmm acum c urmtorul model probabilist este o reprezentare apropiat de realitate
a relaiei dintre cele dou variabile:
y 0 1 x
(1.3.1.)
Reamintindu-ne acum semnificaia coeficienilor care apar ntr-o funcie liniar, vom ti c:
0 reprezint intersecia dreptei de ecuaie y 0 1 x cu axa vertical a sistemului
de coordonate;
1 reprezint panta dreptei de ecuaie y 0 1 x .
Avnd n vedere c n Figura 1.3.1. doar un numr mic de puncte ale diagramei scatter
aparin efectiv dreptei, apare ca fireasc nevoia de a lua n calcul nc un termen, pe care n
relaia (1.3.1.) l-am notat cu
1.2.1.) a lui y fa de acea valoare a lui y pe care o obinem prin nlocuirea lui x n
y 0 1 x .
Pentru c exist mai multe valori ale lui x, n cazul exemplului nostru zece, este
natural s lum n calcul eroarea posibil pentru fiecare situaie n parte. Practic, ne ateptm
ca pentru fiecare valoare a lui x s obinem o eroare, mai mare sau mai mic (sau poate nul)
notat x .
Folosirea relaiei (1.3.1.) ca model pentru legtura dintre y i x ne d posibilitatea s
afirmm c x i y sunt n aceeai relaie ca aceea descris de y 0 1 x , dar aceast relaie
este doar aproximativ dac nu inem cont de termenul eroare .
Modelul (1.3.1.), despre care credem c reflect relaia dintre variabila independent
x i variabila dependent y este numit modelul de regresie. n continuare, ne vom referi la
coeficienii 0 i 1 ca la parametrii modelului.
dat n plus de prezena lui , sau erori n nregistrarea variabilei independente x. Pentru
linitea noastr, nu vom lua n calcul deocamdat aceast ultim de posibilitate deosebit de
neplcut din punct de vedere al consecinelor.
n concluzie, variabila eroare este necesar i, din pcate, ea nu poate fi observat
efectiv ci doar luat n calcul ca fiind prezent i dotat cu anumite proprieti puse n
eviden de specialiti n scopul ncercrii de a convieui cu ea. Condiiile2 impuse asupra
variabile eroare sunt prezentate n cele ce urmeaz, mpreun cu implicaiile lor.
Condiia 1: Eroarea este o variabil aleatoare normal distribuit, lund valori
pozitive sau negative care reflect devierea dintre valoarea observat a lui y i valoarea
rezultat prin nlocuirea lui x n 0 1 x .
Implicaii: Deoarece 0 i 1 sunt constante, deducem c pentru o valoare dat a lui x
mrimea definit n (1.3.1.), y 0 1 x , este de asemenea o variabil aleatoare normal
distribuit.
Condiia 2: Media variabilei aleatoare eroare este zero, adic M 0 .
Implicaii: S ne remintim c valoarea medie a unei constante este constanta nsi i faptul
c:
MX Y MX MY .
Deducem astfel valoarea medie a variabilei dependente Y, din calculul urmtor:
My M 0 1 x M 0 M1 x M
Pentru c x, 0 i 1 sunt constante i media variabilei aleatoare eroare este zero, obinem:
My 0 1 x (1.4.1.).
Condiia 3: Dispersia variabilei aleatoare , pe care o vom nota 2 , este aceeai
pentru toate valorile lui x.
Implicaii: Pornind de la proprietile dispersiei, vom demonstra c i variabila aleatoare
dependent y are aceeai dispersie pentru toate valorile lui x.
D 2 y D 2 0 1 x D 2 0 D 2 1 x D 2
Pentru c dispersia unei constante este zero i D 2 2 obinem, indiferent de valoarea lui
x:
D 2 y 2 (1.4.2.)
Pentru o tratare detaliat, se poate vedea Dorin Jula, Introducere n econometrie, Ed. PROFESSIONAL
CONSULTING, Bucureti, 2003
7
Vom reine aceast implicaie pentru c va fi de natur s explice foarte multe din
afirmaiile de mai trziu. Va trebui s reinem, de asemenea, relaia (1.4.1.) ca fiind deosebit
de important i o vom numi ecuaia de regresie. Aflm de aici modul n care se poate
calcula media variabilei dependente y, despre care am aflat c este o variabil aleatoare
normal, pentru valori fixate ale lui x.
Deocamdat lucrurile sunt destul de abstracte i de aceea ne vom ntoarce pentru o
clip la exemplul firmei de telefonie mobil. S ne referim la supermerketul n care exist
zilnic o mie de clieni (este cazul dealerului nr. 5). Deci, x 10 . Semnificaia relaiei (1.4.1.)
pentru x 10 este aceea a valorii medii a vnzrilor anuale negistrate de ctre toi dealerii
situai n vecintatea suprmerketurilor cu o mie de clieni pe zi. n cazul particular x 10 ,
eroarea specific depinde de diferena dintre valoarea observat y relativ la acest x (n
exemplul nostru a fost observat un nivel al vnzrilor egal cu 100 sute RON) i valoarea
medie rezultat din ecuaia de regresie, My . Pe msur ce vom avansa n prezentarea
modelului de regresie, toate aceste elemente care deocamdat au o conotaie destul de
teoretic vor cpta sens.
n finalul acestei seciuni m simt datoare s fac cteva comentarii. Pentru aceia
dintre cititori care i amintesc faptul c funcia de gradul I a fost predat de profesorul de
matematic nc de prin clasa a aptea, modelul de regresie liniar cu o singur variabil
independent poate fi considerat pueril i oarecum departe de realitatea nconjurtoare.
Complexitatea din viaa economic sugereaz fenomene care nu au nici un motiv s se
comporte att de simplist nct s ne permit s le modelm printr-o funcie de gradul nti.
Ajuns n prag de bacalaureat, orice elev cunoate deja o sumedenie de funcii cu o singur
variabil i atunci se nate, firesc, ntrebarea: ce for mai are regresia liniar simpl, dac se
dovedete c dependena lui y de x are, de exemplu, forma y 0 1 x 2 ? Aceeai for, este
rspunsul la ntrebare. Pentru c nu v oprete nimic s facei o notaie, z x 2 , cu ajutorul
creia dependena capt o natur liniar: y 0 1z . Mai departe, vei proceda la fel ca i
n modelul discutat pn acum, avnd z pe poziia lui x i ncercnd s nu uitai ce se afl n
spatele notaiei pe care ai fcut-o. Dar trebuie spus i faptul c modelul de regresie liniar nu
este atotputernic, lucru despre care nu vom discuta pe larg deocamdat.
Exerciii propuse:
a) Construii diagrama scatter pentru aceste date, nscriind media de admitere pe axa
orizontal i media de absolvire pe axa vertical.
b) Pe baza diagramei scatter, observai vreo tendin care s sugereze un anumit tip de
relaie ntre cele dou variabile?
c) Construii dreapta care considerai c aproximeaz cel mai bine tendina relevat de
diagrama scatter.
Exerciiul 43. Supermarketurile BRISTO exist pe tot cuprinsul rii. A fost selectat un
eantion format cu cinci dintre ele pentru a se vedea natura legturii care se stabilete ntre
cheltuielile efectuate n scopul reclamei i volumul vnzrilor, n decurs de o lun:
Cheltuieli pentru reclam
(mii RON) (x)
1
4
6
Anderson R. D., Sweeney J. D., Williams A. T., Statistics for Business and Economics, Second Edition, West
Publishing Company, 1984, p. 412
9
10
14
52
53
10
y 0 1 x .
Condiiile pe care le-am impus asupra variabilei aleatoare eroare ne-au ajutat s descriem
ecuaia de regresie, pentru care am gsit forma:
My 0 1 x .
Deocamdat 0 i 1 sunt constante cu valori necunoscute, numite parametrii modelului de
regresie i pe care am dori s le determinm pe baza datelor furnizate de tabelul 1.2.1. Dac
am reui s calculm 0 i 1 , atunci dreapta de regresie ar fi complet determinat i am
putea afla foarte multe lucruri despre relaia dintre variabilele de interes.
Am czut deja de acord asupra faptului c y 0 1 x este o funcie care indic o
relaie liniar ntre variabila dependent y i variabila independent x. S privim acum la
Figura 1.2.1. din seciunea 1.2. i s notm c intenia a fost s reprezentm dreapta care s se
apropie n cea mai mare msur de punctele diagramei scatter. De obicei se opteaz pentru
acea dreapt care, chiar dac nu trece prin toate punctele diagramei, las deasupra i dedesupt
aproximativ acelai numr de puncte. n cazul nostru desupra dreptei au rmas trei puncte i
sub ea au rmas dou, ceea ce este o variant rezonabil. Cu toate acestea, este limpede c
exist foarte multe posibiliti de construcie a unei drepte care s ndeplineasc impunerea
11
menionat anterior, chiar dac unele dintre aceste reprezentri ar fi foarte apropiate una de
alta. De asemenea, este lesne de neles faptul c orice dreapt ai alege, ea nu va trece prin
absolut toate punctele diagramei dect cel mult ntr-un caz destul de rar, acela n care toate
variabilele observate conduc la reprezentarea unor puncte coliniare. Din punct de vedere
practic o atare posibilitate este att de puin probabil s apar, nct trebuie s fim contieni
c n cea mai mare parte a cazurilor erorile sunt de neevitat. n Figura 2.1.1. am reprezentat o
diagram scatter oarecare i am pus n eviden erorile pentru dou alegeri diferite ale dreptei
pe care ne-am dori-o a fi de regresie.
Figura 2.1.1. Dou posibile drepte de regresie pentru aceeai diagram scatter pun n
eviden erori diferite
Iat, deci, cum o diagram scatter cu puncte puine a permis deja alegerea a dou
drepte de regresie care s o aproximeze. Este de ateptat ca problemele practice, bazate pe
mult mai multe date, s ofere multe alte variante i s ridice ntrebarea: Care alegere este cea
mai bun? i, Care este criteriul care ne spune c alegerea este corespunztoare?
2.2. Semnificaia parametrilor dreptei de regresie: o analiz exemplificat.
Aa cum spuneam mai devreme, o dreapt este complet determinat atunci cnd am
reuit s determinm valorile lui 0 i 1 . n capitolul precedent am stabilit i semnificaia
general a acestora. E timpul s discutm semnificaia practic i pentru asta ne vom referi
din nou la exemplul firmei de telefonie mobil. Am spus c 0 reprezint intersecia dreptei
de ecuaie y 0 1 x cu axa vertical, aceast valoare obinndu-se pentru x 0 . Din
punct de vedere al exemplului, asta nseamn c nu exist nici un client n supermarket.
Valoarea 0 nseamn, prin urmare, c acesta este nivelul vnzrilor autonome, rezultate
de la clienii care vin n centrul comercial n alte scopuri dect vizitarea supermarketului.
Despre 1 am spus c este panta, sau nclinaia dreptei. Pentru o funcie liniar aceast pant
este aceeai peste tot i are urmtoarea semnificaie: dac valoarea lui x crete cu o unitate,
atunci valoarea lui y se modific n sens de cretere sau descretere cu 1 uniti, n funcie
de semnul (pozitiv sau negativ) al lui 1 . Din modul n care au fost stabilite unitile n
Tabelul 1.2.1., putem spune c o cretere cu 100 de clieni zilnic a numrului clienilor din
12
supermarket genereaz o cretere cu 1 sute RON a vnzrilor anuale ale dealerului (dac 1
se va dovedi a fi pozitiv) sau o scdere cu 1 sute RON a acestor vnzri (dac 1 se
dovedeste a fi negativ, ceea este foarte putin probabil dac tinem cont de evidena practic).
Diagrama scatter din Figura 1.2.1. arat n mod clar c 1 este pozitiv, pentru c
reprezentarea punctelor indic faptul c pe msur ce x crete, y crete de asemenea n
majoritatea cazurilor.
2.3. Eroarea total. Metoda celor mai mici ptrate.
Ne-am convins de faptul c trebuie s determinm 0 i 1 , am explicat semnificaia
acestor parametri i nu ne rmne dect s discutm despre criteriul dup care putem alege
cea mai bun dreapt de regresie. Figura 2.1.1. ar putea fi cheia acestei probleme: am
reprezentat, pentru aceeai diagram scatter, dou drepte posibile i am pus n eviden
erorile care apar. Devine natural, n acest moment, s cutm determinarea acelei variante
care genereaz o cea mai mic eroare total, nu-i aa? Nu putem spera ntr-o eroare nul, dar
putem cuta acea dreapt care s corespund unui minim de eroare. Acesta va fi criteriul are
ne va ghida mai departe i care, din pcate, creaz o serie de probleme suplimentare.
Pentru a nelege procedeul care va urma, va trebui s facei permanent diferena ntre
dou aspecte: ce este i ce rezult a fi, sau altfel spus ce este i ce se estimeaz c ar fi. Ce
este se refer la datele pe care le avem i pe care le putei vedea reprezentate pe diagrama
scatter. Ce se estimeaz a fi se refer la ce aproximm, sau estimm prin calcul c
reprezint cea mai bun variant a dreptei de regresie. Ori de cte ori apare ideea de estimare,
ea va fi pus n eviden prin adugarea simbolului plrie deasupra valorilor estimate: y ,
0 , 1 de exemplu.
n concluzie, n modelul nostru este o dreapt de regresie My 0 1 x . Dei n
esen ea este, noi nu o cunoatem pentru c n general nu cunoatem toate informaiile i nu
ne rmne dect s o estimm pe baza datelor pe care le avem. De exemplu firma de telefonie
mobil ne pune la dispoziie un eantion format cu zece dealeri, dei se poate ca ea s aib
vreo dou sute. Nu avem toate datele, deci ncercm s ne descurcm cu ce avem. Ca
estimare, dreapta de regresie are forma:
y 0 1 x (2.3.1.)
Observai c x nu are plriu, pentru c valorile lui sunt cunoscute i pe baza lor vom
efectua calculele. De asemenea, observai c ecuaia estimat a regresiei este similar
13
1 cu 1 .
n exemplul firmei de telefonie mobil, Tabelul 1.2.1. ne furnizeaz datele de la zece
dealeri, pe baza crora vom construi calculele. n general, valorile lui x se noteaz cu
y i 0 1 x i (2.3.2.)
Unde apar erorile? Evident, n diferena dintre valorile efectiv observate y i pe care le
regsim n tabelul de date i valorile pe care le-am estimat n (2.3.2.), adic y i . Reinem,
deci, c eroarea care se face pentru poziia i este:
Eroare i y i y i (2.3.3.)
Aceste erori le putei vedea n Figura 2.1.1., puse n eviden pentru dou drepte care ar putea
aproxima punctele de pe diagrama scatter. Tot din aceast reprezentare grafic se poate
observa i un alt aspect, care va fi esenial mai departe: unele puncte ale diagramei sunt
situate deasupra dreptelor, iar altele sunt situate dedesupt. Asta nseamn c erorile care vor
rezulta din calcul vor putea avea semne diferite, uneori plus, alteori minus. Atunci cnd se
pune problema s evalum eroarea total nsumarea unor valori pozitive i a unora negative
poate conduce la anulare, astfel nct dei n realitate erorile pot fi considerabile suma lor ar
putea fi totui nul. Ori, eroare zero este un rezultat care ar putea determina pe oricine s
doarm linitit cu toate c n fapt lucrurile se poate s stea prost de tot. Pentru a evita o astfel
de situaie extrem de neplcut, statisticienii au cutat soluii care s ofere o variant de
calcul a erorii totale care s nu se mai confrunte cu astfel de probleme. S-a optat pentru luarea
n discuie a erorilor din (2.3.3.) ridicate la ptrat, ceea ce elimin definitiv posibilitatea
vreunei valori negative. Cineva ar putea argumenta c trecerea valorilor n valoare absolut,
adic n modul, elimin n egal msur valorile negative i n plus nu ne pune n situaia s
lucrm cu valorile mari, sau incomode din punct de vedere al numrului de zecimale, pe care
14
le poate atrage dup sine ridicarea la ptrat. De exemplu, dac o eroare este 0,05 valoarea
ei absolut este 0,05 , pe cnd ptratul ei este 0,0025 i mai devreme sau mai trziu tot vom
suspecta vreo greeal de calcul. Argumentul adus n sprijinul funciei modul este corect, dar
trebuie s v amintii i faptul c aceast funcie are o serie de obiceiuri proaste care se
manifest cu precdere atunci cnd urmeaz a fi derivat. Ori, interesul nostru este s
utilizm pentru minimizarea erorii totale tocmai acele instrumente pe care ni le pune la
dispoziie calculul diferenial i cu care funcia ptrat este n cele mai bune relaii.
Metoda utilizat n estimarea parametrilor ecuaiei de regresie este cunoscut sub
numele de Metoda celor mai mici ptrate i presupune determinarea lui 0 i 1 astfel nct
s fie minimizat expresia:
n
SPE yi y i
(2.3.4.)
i 1
O privire simultan asupra relaiilor (2.3.3.) i (2.3.4.) ne spune c ultima dintre ele reprezint
suma ptratelor erorilor (SPE) care apar atunci cnd utilizm pentru dreapta de regresie
estimarea (2.3.1.). Nu vom prezenta aici ntreaga demonstraie a metodei, dar vom reine c
valorile lui 0 i 1 se calculeaz conform regulilor urmtoare:
n
x
i 1
x
i 1
x yi y
sau 1
x y
i
i 1
n
1 n
x i yi
n i 1 i 1
1 n
2
x
xi
i
n i 1
i 1
n
(2.3.5.)
0 y 1x (2.3.6.)
Semnnificaiile pentru x i i y i au fost deja discutate. Avem de precizat c x reprezint
valoarea medie pentru variabila independent, iar y este valoarea medie pentru variabila
independent, mrimi calculate din:
n
xi
i 1
; y
y
i 1
(2.3.7.)
Ca de obicei, n reprezint numrul de observaii adic numrul datelor din tabel. Se observ
c n (2.3.5.) exist dou formule de calcul pentru 1 . Ele conduc, evident, la acelai rezultat
dar de obicei se consider c forma a doua este mai simplu de aplicat.
Vom folosi aceste rezultate pentru exemplul firmei de telefonie mobil i vom calcula
toate valorile necesare pe baza datelor din Tabelul 1.2.1.:
15
10
x x
i
i 1
i 1
10
y y
i 1
i 1
10
i 1
i 1
100
1154,36
x i2 x i2 1232
n
10
i 1
i 1
x i y i x i y i 14195,36
Aplicm a doua form (2.3.5.) i obinem prin nlocuire:
1
100 1154,36
10
11,43
1
2
1232 100
10
14195,36
100
1154,36
10 i y
115,436 .
10
10
y 1,136 11,43 x .
Este cazul s comentm rezultatul. Panta ecuaiei estimate a regresiei este 11,43 i ia o
valoare pozitiv, ceea ce nseamn c dac numrul clienilor supermarketului este mai mare,
de asemenea i vnzrile anuale ale dealerului situat n complexul comercial respectiv sunt
mai mari. Putem spune ceva mai concret chiar, avnd n vedere semnificaia pantei unei
drepte despre care am discutat puin mai devreme. n Tabelul 1.2.1. numrul clienilor este
exprimat n sute, iar volumul vnzrilor n sute RON. Deci, o cretere cu 100 a numrului
clienilor din supermarket nseamn c ne ateptm la vnzri anuale medii mai mari cu 11,43
sute RON. Asta nseamn c vnzrile anuale medii de care este responsabil fiecare client din
supermarket sunt de 11,43 RON.
De asemenea, dac privim valoarea 0 1,136 vom afla c dac supermarketul nu
este vizitat de clieni x 0 exist totui anse ca dealerul s vnd cte ceva ctre acele
persoane care vin la magazin exact n acest scop sau care se nimeresc prin zon i intr i ele
16
17
rezultate din din aproximarea valorilor y cu cele de pe dreapta de regresie y trebuie s fie
egal cu zero. Vom exemplifica aceast metod pentru datele de care dispune firma de
telefonie mobil. Calculm prin urmare valorile y pentru toate cele zece valori ale lui x, pe
baza ecuaiei estimate a regresiei y 1,136 11,43 x .
y y
19,36
12,566
6,794
50
46,856
3,144
68
81,146
-13,146
90
81,146
8,854
10
100
115,436
-15,436
12
125
138,296
-13,296
14
150
161,156
-11,156
14
200
161,156
38,844
15
162
172,586
-10,586
16
190
184,016
5,984
Tabelul 2.4.1. Calculul erorilor individuale pentru datele deinute de firma de telefonie
mobil
Din coloana a patra a Tabelului 2.4.1. se observ c suma tuturor erorilor individuale este
zero, prin urmare acum putei fi siguri c nu s-a strecurat nici o eroare de calcul atunci cnd
am fcut demersurile necesare obinerii ecuaiei estimate a regresiei. Dac, aa cum v-am
sugerat, ai reprezentat grafic dreapta estimat a regresiei pe diagrama scatter, putei s v
convingei c linia pe care ai trasat-o aproximeaz foarte bine tendina punctelor care au fost
reprezentate pe baza datelor din Tabelul 1.2.1.
2.5. Eroarea standard a estimrii
Pasul urmtor care trebuie parcurs n procesul analizei de regresie se refer la modul
n care putem msura ncrederea cu privire la ecuaia estimat pe care am construit-o anterior.
Este dreapta de regresie relevant n raport cu datele observate? Oricine poate intui c dreapta
va fi cu att mai relevant pentru studiu cu ct punctele diagramei scatter sunt mai apropiate
de ea, lucru care de data aceasta nu mai are legtur cu corectitudinea calculului. Aici este
18
vorba despre faptul c ecuaia estimat a regresiei este corect determinat (ai verificat deja c
suma erorilor individuale este nul), dar s-ar putea ca dincolo de toate eforturile noastre
punctele rmase n afara dreptei s fie att de multe i, mai ales, att de distanate de aceasta
nct utilizarea estimrilor s fie aproape inutil. Reprezentm n continuare dou situaii care
implic aceeai dreapt de regresie pentru dou diagrame scatter diferite. Este limpede c
Figura 2.5.1.a. se refer la un caz care inspir mai mult ncredere dect Figura 2.5.1.b.,
pentru c n prima situaie punctele diagramei scatter sunt mai adunate i indic o mai mic
mprtiere fa de dreapta de regresie.
Figura 2.5.1. a i b. Dou diagrame scatter care arat mprtieri diferite fa de dreapta de
regresie
Pentru msurarea ncrederii pe care o putem avea n ecuaia estimat a regresiei,
statisticienii ne-au pus la dispoziie mrimea numit eroarea standard a estimrii, notat s e
i avnd o natur similar abaterii standard de selecie pe care ai ntlnit-o la cursul de
statistic. Ambele mrimi reprezint, de fapt, o msur a dispersrii datelor fa de o
medie: abaterea standard de selecie msoar dispersarea fa de media de selecie, pe cnd
eroarea standard a estimrii msoar dispersarea fa de punctele dreptei de regresie care,
reamintii.v, au ordonata y pe care am asimilat-o estimatorului mediei My . Formula de
calcul a lui s e este:
SPE
n2
se
(2.5.1.).
Dac ne amintim cine este SPE, din (2.3.4.), atunci eroarea standard a estimrii se poate scrie
ntr-o form desfurat:
n
se
y
i 1
y i
n2
(2.5.2.)
Se poate observa acum asemnarea dintre formulele de calcul pentru abaterea standard de
selecie i eroarea standard a estimrii i vom reine c numrul gradelor de libertate pe care
le vom lua n calcul pentru s e este n 2 , adic tocmai numitorul fraciei de sub radical.
Vom calcula acum s e pentru exemplul firmei de telefonie mobil i pentru asta
utilizm ultima coloan din Tabelul 2.4.1. n scopul obinerii lui SPE:
19
SPE y i y i 2503,49 .
2
i 1
se
SPE
n2
2503,49
17,69
8
Unitatea de msur a lui s e este aceeai cu a mrimilor y, prin urmare s e 17,69 sute RON,
sau 17690 RON.
Specialitii ne propun i o alt metod de calcul pentru s e , pe care unii dintre cititori
ar putea-o considera mai simplu de aplicat. Dac y 0 1 x este ecuaia estimat a
regresiei, a doua metod ne nva c s e poate fi obinut din formula:
n
i 1
i 1
i 1
y i2 0 y i 1 x i y i
se
n2
(2.5.3.)
La o prim vedere, formula (2.5.3.) este cu mult mai complicat dect (2.5.1.) sau (2.5.2.) i
de aceea este nevoie s discutm puin asupra utilitii ei. Dac n ecuaia estimat e regresiei
ai calculat deja 1 din a doua variant a formulei (2.3.5.), atunci singurul termen care v mai
lipsete din (2.5.3.) este
y
i 1
2
i
operaiile de scdere y y i ridicrile la ptrat ale rezultatelor. Pe de alt parte, dac ai fost
nevoii s verificai corectitudinea calculului printr-un tabel ca 2.4.1., atunci nu prea mai
conteaz ce formul de calcul aplicai pentru s e , fiindc deja avei la dispoziie erorile
individuale. n orice caz, este un exerciiu bun s ncercai determinarea lui s e prin ambele
formule de calcul despre care am discutat aici.
Am convingerea c tocmai v trece prin cap un protest vehement relativ la rostul
mrimii s e , o mrime n plus n totalul i aa deranjant pe care vi l-a oferit pn acum aceast
prezentare. S aplicm i s interpretm pornind de la exemplul nostru: am afirmat ceva mai
devreme c pe baza ecuaiei estimate a regresiei se poate face o predicie cu privire la nivelul
anual al vnzrilor pentru un dealer situat n preajma unui supermarket cu 1700 de clieni
zilnic. Mai exact, am gsit acel nivel anual mediu ca fiind egal cu 195,446 sute RON, sau
19544,6 RON. Dac ai fi chiar proprietarul firmei de telefonie mobil, v-ar interesa foarte
tare n ce msur v putei baza pe aceast predicie. Uneori, astfel de proprietari nu in
20
neaprat s citeasc un curs de econometrie i, din pcate, nici nu ntreab vreun specialist n
domeniu. Cei care o fac, ns, pot afla o sumedenie de lucruri interesante pe care le vom
prezenta imediat.
Deocamdat tim c avem, pentru x 17 , o predicie y 195,446 . Fiecare dintre
mrimi se msoar conform cu unitile de msur care au fost stabilite n tabelul iniial al
datelor. Mai im c exist o abatere standard a estimrii s e 17,69 . Bunul sim ne sugereaz
c n realitate nivelul mediu al vnzrilor anuale este cel prognozat, dar n rezultatul
y 195,446 exist o marj de eroare de 17,69 . Adic, media anual ar fi situat ntre
195,446 17,69 i 195,446 17,69 , sau echivalent, n intervalul 177,756; 213,136 . ntr-un
anume fel i mai ales n anumite condiii, afirmaia este adevrat. Nu trebuie s uitm nici o
clip c valoarea y 195,446 este doar o predicie, deci c include un anumit grad de
aproximare i atunci devine natural ntrebarea: Care sunt ansele ca acest interval s fie
corect? De asemenea, teoria probabilitilor ne nva c abaterile standard pot oferi
intervale simetrice fa de medie doar n cazul n care distribuia de probabilitate a variabilei
aleatoare despre care se discut este la rndul ei simetric fa de medie i bine ar fi s fie
vorba chiar despre o distribuie normal. Pn s vedem dac astfel de lucruri sunt valabile n
cazul nostru, s facem observaia intuitiv c o eroare standard de estimare mai mare
corespunde unei mprtieri mai pronunate a punctelor de pe diagrama scatter fa de dreapta
de regresie, aa cum se poate vedea n Figura 2.5.1.b., iar o eroare standard de estimare mai
mic evideniaz o mprtiere mai slab, ca de exemplu n Figura 2.5.1.a. De asemenea,
putei deduce imediat c dac s e 0 nseamn c ai gsit o dreapt de regresie pe care sunt
dispuse toate punctele diagramei scatter, deci potrivirea este perfect i n acest caz predicia
se face cu exactitate.
Ca s ne putem referi la intervalul 177,756; 213,136 pe care l-am obinut mai
devreme ca la o informaie cu consisten tiinific, va trebui s impunem dou condiii a
cror ndeplinire ne va permite obinerea de rezultate corecte i de ncredere pentru directorul
firmei. Condiiile vor fi pe deplin deranjante pentru aceia dintre cititori care i doresc doar
utilizarea practic a unor formule de calcul, dar sunt absolut necesare. Citirorii familiarizai
cu elemente de teoria probabilitilor i statistic le vor considera foarte utile i la locul lor,
lucru care m motiveaz s merg mai departe.
21
22
intervalul
deci
intervalul
177,756; 213,136;
95,5%
anse
ca
nivelul
mediu
al
acestor
vnzri
fie
Metoda prin care am construit aceste intervale, pentru grade de ncredere diferite, este corect
n msura n care utilizarea repartiiei normale este justificat. Dac eantionul folosit n
studiu are dimensiune mai mic dect 30 (aa cum este cazul n exemplul nostru) i dac nu
se ndeplinesc cele dou condiii impuse asupra lui y, ceea ce este foarte posibil n practic,
atunci distribuia normal nu mai are nici o putere. Din fericire, statisticienii ne nva c
atunci cnd dimensiunea n a eantionului este mai mic dect 30 i cnd dispersia ntregii
populaii este necunoscut, intr n cu succes Distribuia t, sau Distribuia Student, care n
cazul de fa se bucur de n-2 grade de libertate, acelai n-2 ca i numitrul din formula de
calcul pentru s e . Vom reine n acest context forma intervalului de predicie i anume:
23
y t s ; y t s (2.6.1.)
e
2
2
S aplicm aceast form pentru exemplul firmei de telefonie mobil. Avem un eantion
format din n 10 dealeri, deci n 30 i, judecnd la rece, habar nu avem care este abaterea
standard a populaiei. Prin urmare, pentru predicie va trebui utilizat intervalul (2.6.1.), cu o
distribuie t cu n 2 8 grade de libertate. Ne vom referi la valoarea estimat pentru x 17 ,
pentru care am calculat y 195,446 i vom avea n atenie c dac dorim pentru intervalul
care urmeaz a fi construit un grad de ncredere de 95% de exemplu, atunci:
Exerciii propuse
Exerciiul 7. Tabelul urmtor prezint ase observaii despre dou variabile, x i y.
Observaia
xi
yi
30
30
25
35
20
10
16
24
d) Calculai SPE yi y i pentru dreptele de la b) i c). Care valoare a lui SPE este
2
i 1
Salariu (RON)
1,5
651
2,5
800
3,2
920
3,6
870
4,3
1000
2,9
820
a) Construii ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Facei o predicie cu privire la salariul pe care l poate primi un angajat cu doi ani
vechime i unul cu cinci ani vechime.
Exerciiul 9. Construii ecuaia estimat a regresiei pentru datele din Exerciiul 3 propus
n seciunea precedent. Facei apoi o predicie cu privire la media general cu care poate fi
absolvit facultatea de ctre un student care a fost admis cu nota 9.
Exerciiul 10. [Andersen] O agenie imobiliar dispune de urmtoarele date cu privire la
suprafaa i preul de vnzare pentru cinci locuine:
Spaiu locuibil (mp)
250
124
240
108
180
92
300
146
230
110
25
a) Construii ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Facei o predicie cu privire la preul de vnzare pentru o locuin cu suprafaa de 270
mp.
Exerciiul 11. Se dau urmtoarele date:
x
54
46
40
56
38
37
48
43
36,5
32,5
44,2
31,2
30,1
38,6
a) Calculai ecuaia estimat a regresiei utiliznd metoda celor mai mici ptrate.
b) Calculai erorile individuale de estimare i verificai corectitudinea calculului de la
punctul anterior, pe baza rezultatului obinut prin nsumarea acestor erori.
c) Calculai eroarea standard a estimrii.
d) Construii un interval de predicie pentru y n cazul unei valori x 42 , cu un grad de
ncredere de 95%.
Exerciiul 12. O firm care asigur transport internaional efecturaz un studiu cu privire
la efectele pe care le are modificarea preului biletelor asupra numrului de pasageri. Au fost
obinute urmtoarele date:
Pre bilet (euro)
Numr pasageri
30
700
35
670
40
670
45
550
50
530
55
500
60
510
65
430
26
Punctajul testului
Numr uniti
vndute
26
95
37
140
24
85
45
180
26
100
50
195
28
115
30
136
40
175
10
34
150
27
28
3. Coeficientul de determinare
Exist, pn n acest moment, cteva aspecte cu care putem fi de acord cu toii. n
primul rnd, faptul c ideea de estimare atrage dup sine suspiciuni cu privire la exactitatea
rezultatului i implicit sugereaz existena unor poteniale erori provenite din diferena ntre
valorile estimate i cele nregistrate efectiv. n al doilea rnd, atunci cnd teoria ne pune la
dispoziie dou sau mai multe metode de estimare se contureaz ideea c diferenele pot s
apar nu doar ntre valorile estimate i cele observate, ci i ntre estimrile obinute prin
metode diferite.
Ar fi ideal s putem conta pe modaliti de control cu ajutorul crora s stabilim
gradul n care o anumit estimare poate fi utilizat n prognoz i este de intuit c un element
de ghidare n obinerea rspunsului la ntrebarea n ce msur pot folosi informaiile pentru
prognoz? trebuie s fie legat de luarea n calcul a unei analize bazate pe cel puin dou
metode de estimare. n mod sigur vei acorda mai mlt credit unui rezultat dac ai obine
acelai lucru pe mai multe ci, nu-i aa?
Iat de ce atunci cnd vom discuta problema acestei msuri, sau gradului n care
ecusia estimat a regresiei poate fi utilizat n prognoze vom face referire la mrilime
observate y i , la cele estimate y i i la o mrime pe care ne-o ofer statistica. Este vorba
despre y , media valorilor observate, despre care teoria ne nva c poate fi utilizat ca
estimator pentru media ntregii populaii. Aadar, dispunem de:
Datele iniiale y i ;
Estimarea pe baza relaiei de regresie, din care obinem valorile y i ;
Estimarea bazat pe media y a datelor din eantion.
n cazul exemplului pe care l-am discutat pn acum, al firmei de telefonie mobil,
regsim aceste valori dup cum urmeaz: datele iniiale y i i estimrile lor y i se afl n
coloanele 2 i 3 ale Tabelului 1.2.1.. Media y a fost calculat pe baza relaiei (2.3.7.) i a
rezultat egal cu 115,436.
Conform cu ceea ce am precizat puin mai devreme, va trebui s lum n calcul
urmtoarele erori i diferene:
29
a) Erorile care apar atunci cnd estimm datele y i prin intermediul valorilor y i obinute
pe baza ecuaiei estimate a regresiei. Este vorba despre diferenele y i y i pe care le
ntlnii n crile de specialitate sub numele de reziduuri. Suma ptratelor erorilor
astfel rezultate este o cunotin mai veche, pe care am notat-o cu SPE i, pentru
exemplul firmei de telefonie mobil, a rezultat din calcul ca fiind egal cu 2503,49.
b) Erorile care apar atunci cnd estimm y i prin intermediul valorii medii y , a cror
sum a ptratelor o vom nota SPT i are forma:
n
SPT y i y
(3.1.)
i 1
Expresia (3.1.) este binecunoscut pentru cei care i amintesc formula de calcul a
dispersiei de selecie i reprezint suma ptratelor abaterilor pe care le nregistreaz
datele din eantion fa de valoarea medie de selecie.
Haidei s calculm acum valoarea SPT pentru exemplul firmei de telefonie mobil i
vom utiliza Tabelul 3.1. pentru simplificarea calculului.
x
y y
y y2
19,36
115,436
-96, 076
9230,597
50
115,436
-65, 436
4281,87
68
115,436
-47, 436
2250,174
90
115,436
-25, 436
646,99
10
100
115,436
-15, 436
238,27
12
125
115,436
9, 564
91,47
14
150
115,436
34, 564
1194,67
14
200
115,436
84, 564
7151,07
15
162
115,436
46, 564
2168,2
16
190
115,436
74, 564
5559,79
SPT =
32813,1
Tabelul 3.1. Calculul valorii SPT prin nsumarea rezultatelor din ultima coloan a tabelului.
Am obinut, deci, SPT 32813,1 pentru exemplul firmei de telefonie mobil. Asupra acestui
rezultat vom reveni cu cteva comentarii imediat ce vom prezenta i ultima categorie de
diferene care trebuie luate n calcul n studiul nostru.
c) Diferenele care apar ntre cele dou variante de estimare, cea n care a fost utilizat
ecuaia estimat a regresiei i cea n care am folosit media de selecie calculat pe
30
y i y ,
SPR y i y
(3.2.)
i 1
Pentru exemplul firmei de telefonie mobil utilizm Tabelul 3.2. i calculm SPR.
y y
y y2
12,566
115,436
-102,87
10582,2369
46,856
115,436
-68,58
4703,2164
81,146
115,436
-34,29
1175,8041
81,146
115,436
-34,29
1175,8041
115,436
115,436
138,296
115,436
22,86
522,5796
161,156
115,436
45,72
2090,3184
161,156
115,436
45,72
2090,3184
172,586
115,436
57,15
3266,1225
184,016
115,436
68,58
4703,2164
SPR =
30309,61
Tabelul 3.2. Calculul valorii SPR prin nsumarea rezultatelor din ultima coloan a tabelului.
Am calculat, aadar, cele trei sume implicate de diferenele care apar ntre valorile
observate i cele estimate, respectiv ntre mrimile rezultate din cele dou estimri pe care leam folosit. O nlocuire simpl v va convinge c are loc urmtoarea egalitate:
SPT SPE SPR (3.3.)
Aceast relaie se verific ntotdeauna, nu doar pentru exemplul firmei de telefonie mobil,
dar demonstraia afirmaiei nu este tocmai plcut i de aceea voi opta pentru omiterea ei din
aceast lucrare. Aceia dintre cititori care agreaz calculele laborioase i doresc s se conving
de adevrul egalitii (3.3.) n cadru general pot gsi amanunte i indicaii suplimentare n
lucrri de econometrie care dezvolt mai profund aspectele teoretice4. n ceea ce ne privete,
vom lucra n continuare considernd c (3.3.) este adevrat i vom discuta implicaiile
acestei egaliti.
Vom privi din nou la SPE i SPT i ne vom aminti faptul c SPE este suma ptratelor
erorilor care apar ntre punctele diagramei scatter (care corespund valorilor observate, dau
Figura 3.1. Diagrama scatter pentru datele din Tabelul 1.2.1. i aproximarea acesteia prin
ecuaia estimat a regresiei, respectiv prin dreapta y y
n Figura 3.1. am pus n eviden eroarea aproximrii pentru valoarea lui y corespunztoate
lui x 16 . Am notat cu E 1 eroarea fa de dreapta de regresie i cu E 2 eroarea fa de
dreapta orizontal y y . Similar, se ot evidenia toate erorile pentru toate punctele diagramei
scatter. Este momentul s ne amintim c n capitolul precedent am discutat despre metoda
care permite s verificm calculul matematic atunci cnd construim ecuaia estimat a
regresiei. Spuneam atunci c suma erorilor individuale trebuie s fie zero i am artat c
lucrul acesta chia se ntmpl. Spuneam, de asemenea, c aceast condiie nu se refer la
gradul de ncredere pe care l putem avea n n ecuaia estimat a regresiei, n sensul c nu
aflm de aici n ce msur ne putem baza pe aceasta pentru predicii ulterioare i a sosit clipa
s ne motivm afirmaia. Dac avei curiozitatea s nsumai erorile din coloana a patra a
Tabelului 3.1. vei obine valoarea zero. Asta nu nseamn nici pe departe c dreapta de
ecuaie y y este o foarte bun aproximare a punctelor de pe diagrama scatter, lucrul acesta
fiind argumentabil n dou moduri: nti, Figura 3.1. v convinge imediat c diagrama este
mult mprtiat fa de punctele dreptei orizontale, iar al doilea va trebui s comparai suma
ptratelor erorilor n dou situaii, adic SPE i SPT. Se observ c SPT, corespunztor
aproximrii prin dreapta orizontal, este mult mai mare dect SPE care deriv din
aproximarea pe baza dreptei de regresie, cu toate c suma erorilor individiale n fiecare caz
este zero. Deducei de aici c anularea sumei este o simpl verificare pentru corectitudinea
calculului i nu pentru vreo afirmaie relativ la precizia estimrii pe baza dreptei respective.
Mai putem face o observaie pornind de la egalitatea (3.3.). Pentru c SPR este o sum
de ptrate, nseamn c are loc ntotdeauna SPR 0 . Egalitatea cu zero poate avea loc doar
dac toi termenii implicai n calcul ar fi zero, adic y i y = 0, i 1, n . Aceast situaie
corespunde cazului n care dreapta de regresie se suprapune peste dreapta y y i este
32
unicul caz n care SPT SPE . Pornind de la reprezentarea grafic din Figura 3.1. putem
spune deci c SPT i SPE au urmtoarea semnificaie:
SPT este msura erorii atunci cnd nu utilizm analiza de regresie
SPE este msura erorii atunci cnd utilizm analiza de regresie
Am convingerea c pn n momentul de fa cel puin un cititor i-a pus ntrebarea
dac relaia (3.3.) mai are i alt rost nafar de stresarea nceptorilor n econometrie. mi face
plcere s spun c tot ce am spus pn acum converge ctre o argumentare solid relativ la
msura n care relaia gsit pentru ecuaia estimat a regresiei poate fi utilizat n prognoze.
Aceasta nsemna, dup cum am mai spus i n capitolul anterior, ca pe dreapta de regresie s
se afle ct mai multe dintre punctele diagramei scatter. Un ideal, greu de atins, ar fi ca dreapta
la care ne.am referit s treac prin toate aceste puncte, ceea ce ar nsemna c n toate cazurile
are loc y i y i , iar n Figura 3.1. ai mai regsi doar erori fa de dreapta orizontal y y .
ntr-o atare situaie ar avea loc:
y i y = 0, i 1, n SPE 0
Cele dou cazuri extreme pe care le.am pus n discuie, cu toate c nu se prea ntlnesc n
practic, sunt de ajutor pentru studiul unei mrimi pe care o vom defini imediat i pe care se
bazeaz multe elemente din analiza de regresie. Este vorba despre coeficientul de
determinare.
Definiia 3.1. Coeficientul de determinare este mrimea care reflect gradul n care
ecuaia estimat a regresiei poate fi folosit n prognoze. Se noteaz cu r 2 i se calculeaz
dup formula:
r2
SPR
SPT
(3.4.)
y y;
r 2 1 dac SPR SPT ,ceea ce nseamn din (3.3.) c SPE 0 adic dac dreapta
de regresie se suprapune peste toate punctele diagramei scatter.
n oricare alt situaie, pentru c SPE este o sum de ptrate i este pozitiv, la fel cu
celelalte mrimi implicate n (3.3.), are loc inegalitatea SPR SPT . Rezult imediat c
SPR
1 . innd cont de cele dou cazuri particulare i de definiia coeficientului de
SPT
determinare, obinem:
33
r 2 0,1 (3.5.)
Coeficientul de determinare exprim procentul din SPT care poate fi explicat de utilizarea
ecuaiei estimat a regresiei. El mai poate fi folosit ca msur a gradului de apropiere a
dreptei de regresie de punctele diagramei scatter, n sensul c o valoare mare a lui r 2 ne
spune c apropierea este foarte bun. Nu n ultimul rnd, r 2 exprim o msur a intensitii
relaiei de regresie: mai exact, cu ct r 2 este mai mare relaia este mai puternic pe cnd o
valoare mic a lui r 2 arat o relaie slab.
Pentru exemplul firmei de telefonie mobil, coeficientul de determinare este
r2
30309,61
0,9237 . n exprimare procentual avem r 2 92,37% , valoare foarte
32813,1
apropiat de 1, deci relaia dintre numrul clienilor din supermarket i vnzrile anuale ale
firmei este foarte intens.
Altfel exprimat, procentul de 92,37% arat de fapt msura n care variaia vnzrilor
anuale ale firmei de telefonie mobil este explicat de variaia numrului de clieni ai
supermarketului n preajma cruia este situat dealerul. Exprimndu-ne astfel, devine uor de
neles motivul pentru care de foarte multe ori n lucrrile de specialitate vei ntlni, pentru
valorile y i denumirea de variabil explicat de modelul de regresie. De asemenea, pentru
c n exemplul nostru coeficientul de determinare este 92,37%, se intuiete c diferena pn
la 100% corespunde unui segment, sau unei pri din variaia vnzrilor care nu poate fi
atribuit numrului de clieni din supermarketuri. Despre aceast diferen de 7,63% nu avem
informaii cuprinse n modelul pe care l-am utilizat i este ideal ca acest procent diferen
s fie foarte mic, astfel nct ncrederea n relaia obinut (ecuaia de regresie) s fie mare.
Dealtfel este limpede c un model, fie el de regresie sau de alt natur, este cu att mai
potrivit cu ct furnizeaz ct mai multe explicaii asupra fenomenului studiat.
n concluzie, procentul de 92,37% ne spune c din variaia total a vnzrilor anuale
care ne-au fost oferite n eantion, 92,37% ar putea fi atribuit modului n care sunt distribuite
datele corespunztoare numrului clienilor din supermarket. A dori s atrag atenia din nou
asupra unu aspect pe care l-am mai comentat i anume faptul c n exprimarea utilizat
anterior nu am sugerat nici o secund o relaie de cauzalitate ntre variabilele modelului. Am
folosit cuvintele ar putea fi atribuit i nu are drept cauz, acestea din urm nsemnnd,
la o privire atent, cu totul altceva.
Acelai procent ne spune c putem s avem ncredere n faptul c ecuaia estimat a
regresieiofer o bun aproximare a punctelor diagramei scatter.
34
SPR
n
n
1 n
x
y
x
i i
i yi
n i 1 i 1
i 1
2 1
x i n x i
i 1
i 1
1 n
yi
n i 1
SPT
i 1
y i2
(3.6.)
(3.7.)
nevoie de toate elementele care apar n (3.6.) i (3.7.), mai puin de suma
y i2
care va fi
i 1
x i y i 14195,36 ,
i 1
x i 100 ,
i 1
y i2 166067,8096 .
i 1
35
x i y i 11154,36 ,
i 1
x i2 1232 .
i 1
1
1154,36 2 32813,1
10
36
Exerciiul 15. Pentru datele din Exerciiul 8, s se calculeze SPR i SPT prin metoda
direct i apoi cu ajutorul formulelor (3.6.) i (3.7.). Care este procentul din SPT care este
explicat prin modelul de regresie? Ce informaii ofer valoarea coeficientului de determinare
cu privire la relaia dintre variabilele din problem?
Exerciiul 16. Pentru datele din Exerciiul 9, se cer:
a) Valorile pentru SPR, SPE i SPT , calculate prin metoda direct i apoi cu ajutorul
formulelor (3.3.), (3.6.) i (3.7.).
b) Comparai rezultatele obinute prin cele dou metode i explicai eventualele diferene
care pot s apar.
c) Calculai coeficientul de determinare i comentai semnificaia lui pe baza elementelor
teoretice explicate n Seciunea 3.
Exerciiul 17. Aceleai cerine ca la exerciiul anterior, pentru datele din Exerciiul 11.
Exerciiul 18. Se dau urmtoarele date:
x
50
75
100
140
160
180
25
45
70
95
120
a) Imaginai un exemplu practic pentru care datele din tabelul anterior ar putea fi
corespunztoare.
b) Stabilii variabila independent i pe cea dependent, conform cu semnificaiile
impuse de exemplul pe care l-ai ales.
c) Construii ecuaia estimat a regresiei pentru datele din enun i reprezentai-o grafic
n acelai sistem de coordonate cu diagrama scatter care se profileaz.
d) Calculai coeficientul de determinare i interpretai valoarea lui pe baza exemplului
concret pe care l-ai ales.
Exerciiul 19. Calculai coeficientul de determinare pentru ecuaia estimat a regresiei pe
care ai determinat-o la Exerciiul 10. Comentai rezultatul prin prisma semnificaiei lui r 2 .
ntrebri recapitulative
37
1.
Care sunt elementele de care dispunem iniial atunci cnd ne pregtim s calculm
coeficientul de determinare?
2.
3.
Cte feluri de erori, sau diferene, trebuie avute n vedere atunci cnd urmeaz s
discutm problema coeficientului de determinare? Care sunt?
4.
5.
6.
7.
Explicai avantajele i dezavantajele fiecreia dintre metodele de calcul pe care leai menionat ca rspuns la ntrebarea 6.
8.
9.
10.
38
c ntreg calculul s-a bazat pe datele din Tabelul 1.1., deci pe un eantion format din zece
dealeri. Haidei s ne gndim c n realitate firma de telefonie mobil are reprezentani n
foarte multe locuri i c n total exist 270 de magazine prin intermediul crora i distribuie
produsele destinate vnzrii: telefoane mobile, accesorii sau abonamente i alte servicii. ntro atare situaie alegerea unui eantion format din zece dealeri se poate face n foarte multe
moduri, mai exact n C10
270 adic un numr deloc de neglijat pe care nu v-a sftui s ncercai
sa-l calculai dac nu dispunei de un program special pe computer. Ne putem atepta, deci,
ca pentru un alt eantion datele din Tabelul 1.1. s arate mai mult sau mai puin diferit, la fel
de bine cum valorile rezultate dintr-un nou calcul pentru 0 i 1 pot fi de asemenea diferite
de cele determinate de noi n Seciunea 2. Mai grav, dac lucrm pe baza datelor provenite de
la 20 de eantioane diferite, de exemplu, n-ar fi de mirare s obinem tot attea valori pentru
parametrii estimai 0 i 1 . Ei, bine, toat povestea aceasta reprezint marea problem
care cere ajutorul instrumentelor statistice. Atta vreme ct nu dispunem de absolut toate
datele adic de ntreaga populaie i avem la ndemn doar o parte dintre ele adic
eantionul nu ne putem baza cu certitudine pe rezultatele pe care le-am obinut. Informaia
trunchiat va genera n mod sigur erori i problemele care apar sunt destul de numeroase.
Orice statistician poate mrturisi c lupta cu datele care urmeaz a fi utilizate n
analize este destul de spinoas. Se pot ntmpla dou lucruri: s-i fie puse la dispoziie, sau s
fie invitat s le culeag. Ambele variante creaz oarecari neplceri i este greu de spus care
situaie este de preferat. Dac datele i sunt furnizate pur i simplu, apare problema modului
n care au fost obinute. Sunt corecte? Sunt suficiente? Au fost colectate conform regulilor pe
care le impune statistica? Dac are posibilitatea s le culeag singur, atunci va ti ce are de
fcut pentru ca totul s se desfoare pe baze tiinifice, dar i n aceast situaie se va afla
fa n fa cu fragmente de informaie i nu cu date complete relativ la ntreaga populaie.
Revenind la problema valorilor care se pot obine pentru 0 i 1 din diferite
eantioane, este uor de neles faptul c se nate urmtoarea suspiciune: ct de mult ne putem
baza pe rezultatele pe care le-am obinut? Ct de semnificateive sunt, n sensul n care scopul
39
nostru este s caracterizm ntregul pe baza unei pri pe care o cunoatem? De exemplu,
valorile 0 1,136 i 1 11,43 pe care le-am calculat n Seciunea 2caracterizeaz ct de
ct fidel ecuaia de regresie pe ansamblul dealerilor firmei de telefonie mobil, sau se poate
ntmpla ca un alt eantion s ne conduc la rezultate complet diferite, ca de exemplu
0 12,6 i 1 135 , iar n realitate s fie vorba despre 0 4,4 i 1 5 ? Aceste ultime
valori s-ar referi la mrimile pe care le-am obine dac am avea acces la datele pentru
ntreaga populaie i care nu ar fi deloc apropiate de rezultatele pe care le-am menionat ca
provenind din dou eantioane diferite.
De obicei eantioanele se aleg uniform aleator i prin urmare exist o valoare de
probabilitate pe care o putei atribui posibilitii ca din aceast alegere s rezulte un eantion
anume. De asemenea, fiecrui eantion i vor corespunde ca urmare a calculului prezentat n
Seciunea 2 valori ferme ale parametrilor estimai 0 i 1 . Putem afirma, deci, c 0 i 1
se obin din calcule cu aceeai probabilitate cu care este ales eantionul pe baza cruia au fost
determinai. Dac, de exemplu, eantionul din Tabelul 1.1. apare cu probabilitate 0,014
(ipotetic vorbind) atunci cnd se aleg la ntmplare zece dealeri din totalul lor, atunci putem
spune c 0 1,136 i 1 11,43 apar cu probabilitate identic, adic tot 0,014.
Vom discuta un exemplu n care populaia are trei elemente, iar populaia are dou.
Desigur c din punct de vedere practic nu are nici un sens s aplicm instrumente statistice n
aceast situaie, dect dac din diferite motive nu avem acces la ntreaga informaie. Pentru
scopuri didactice, ns, exemplul este potrivit.
Exemplul 4.1. Considerm populaia a, b, c din care alegem uniform aleator un
eantion format cu doi itemi. Este uor de observat c exist trei posibiliti i anume: a , b,
1
de a fi aleas.
3
Pentru fiecare dintre cele trei posibiliti de alegere se vor obine valori ferme pentru 0 i
1 , pe care le vom nota astfel:
Eantionul a , b: 01 i 11
Eantionul a , c : 02 i 12
Eantionul b, c : 03 i 13
40
1
, cu aceeai probabilitate se vor nregistra
3
01 02
: 1
1
0
3
3
03
1
Tabloul 2:
11 12
: 1
1
1
3
3
13
1
0 i 1 sunt, de fapt, variabile aleatoare care pot lua diferite valori n funcie de eantionul
ales, iar aceste valori se pot ntlni cu aceeai probabilitate cu care eantionul utilizat n calcul
are anse s apar ca urmare a seleciei din ntreaga populaie. Problema care se contureaz
imediat este legat de natura valorilor pe care le pot lua aceste dou variabile aleatoare, n
sensul n care dorim s vedem:
Dac exist o tendin de grupare a lor n jurul unei valori medii;
n ce msur se realizeaz aceast grupare;
Ct de dispersate, sau mprtiate, sunt valorile fa de media pe care am menionat-o.
Exprimat n limbaj de specialitate, dorim ca 0 i 1 s ndeplineasc urmtoarele
proprieti:
1) S fie estimatori nedeplasai, adic media fiecreia dintre cele dou variabile aleatoare
s fie egal cu parametrul corespunztor care ar rezulta din calcul dac am utiliza, n
loc de eantion, ntreaga populaie. Aceast proprietate se scrie, formal, astfel:
M 0 0 i M 1. 1
2) Dispersia variabilelor 0 i 1 s fie cea mai mic posibil, adic estimatorii trebuie
s se mprtie, sau s se ndeprteze ct mai puin cu putin de la valorile medii
pomenite anterior.
41
H 0 : 1 11,5
H1 : 1 11,5
Urmeaz acum etapa n care va trebui s hotrm care ipotez este adevrat i pentru
asta vom folosi informaiile pe care le-am obinut deja pe baza eantionului disponibil n
Tabelul 1.1. Avem nevoie de o mrime pe care o numim eroarea standard a corficientului de
regresie, aceasta fiind tocmai rdcina ptrat a coeficientului de determinare r 2 . Pentru c
am precizat deja c voi prezenta doar metoda de calcul, cititorii vor trebui s tie doar faptul
c trebuie calculat mrimea:
s
1
se
(4.1.)
x i2 nx 2
i 1
17,69
1232 10 10 2
1,1614
1 s
43
afirma c suntem siguri n proporie de 90% de faptul c ipoteza H 0 este adevrat i vom
accepta c 1 11,5 .
Exemplul 4.2. Uitai pentru moment faptul c s-ar putea confirma cu anse 90%
valoarea 1 11,5 i haidei s readucem n discuie amnuntul c 1 11,43 a fost obinut
din unul dintre eantioanele posibile ale populaiei. Am discutat deja cu privire la
posibilitatea ca acest rezultat s fie, de fapt, foarte departe de adevr i c este posibil ca n
realitate 1 135 de exemplu. S testm aceast ipotez urmnd exact aceiai pai pe care
i-am prezentat anterior.
Fixm ipotezele:
H 0 : 1 135
H1 : 1 135
Vom calcula din nou limitele regiunii de acceptare din (4.2.) i (4.3.), singura mrime
care se modific fa de calculul precedent fiind 1 135 .
Limita superioar: 135 1,86 1,1614 132,84
Limita inferioar: 135 1,86 1,1614 137,16
44
Verificm acum dac valoarea 1 11,43 este situat n intervalul pe care l-am
obinut, adic:
1 11,43 137,16; 132,84
My 0 1x
nseamn c dac de exemplu 1 2 , atunci modificarea gu o unitate a lui x este
responsabil de modificarea cu dou uniti a lui My , ceea ce indic faptul c ntre x i
H 0 : 1 0
H1 : 1 0
Metoda pe care o vom utiliza mai departe, numit Testul F, se bazeaz tot pe verificarea
ipotezelor statistice i nu va fi aprofundat sub aspectmteoretic ci vor fi urmai doar paii de
45
lecru. Vom utiliza unele mrimi deja calculate i va trebui s mai determinm i altele, dup
cum urmeaz.
Cunoatem deja SPE 2503,49 i, cu ajutorul ei, calculm media ptratelor erorilor
din formula:
MPE
Obinem MPE
SPE
(4.4.)
n2
2503,49
312,936 . Calculm apoi media ptratelor erorilor rezultate din
8
SPR
(4.5.)
nr. var . indep.
MPR
(4.6.)
MPE
30309,61
96,855
312,936
S stabilim dac putem accepta H 0 i vom presupune c trebuie s fim siguri n proporie de
99%. nseamn c putem grei cu anse de 1%, adic 0,01.
Pentru 0,01 i pentru distribuia F cu un grad de libertate la numrtor i 8 grade
de libertate la numitor, obinem din tabelele specifice valoarea F0,01 11,26 . Ultimul pas n
rezolvarea problemei noastre este s comparm valorile F i F0,01 pe care tocmai le-am
determinat i s aplim urmtoarea regul de decizie:
Dac F F0,01 , acceptm H 0 .
46
s 2 M PE
1
1
n
(4.7.)
x i2 nx 2
i 1
Obinem, pentru exemplul nostru: s 2 1,349 . Trebuie s observai c (4.7.) este de fapt
1
(4.2.) ridicat la ptrat n ambii membri.
Pasul 2. Calculm raportul
1
.
s
1
1
11,43
9,84
s
1,1614
1
47
din tabelul
2
Respingem H 0 dac
1
t
s
2
1
1
t
s
2
1
n exemplul nostru se observ c este ndeplinit cea de-a doua relaie, pentru c 9,84 > 1,86.
n consecin, respingem H 0 i acceptm H1 care ne spune c 1 0 . Aceast concluzie o
considerm adevrat la un prag de semnificaie 0,10 .
n ncheierea acestei seciuni a dori s mai trec n revist nc o dat motivele pentru
care etapa de testare a semnificaiei parametrilor este necesar. Modificrile eantionului i a
dimensiunii acestuia ridic probleme, pentru c apar schimbri n valorile estimatorilor 0 i
1 . Problemele se traduc astfel:
48
Observaia
xi
yi
25
26
22
32
10
15
H 0 : 1 0
H1 : 1 0
la un prag de semnificaie 0,05
d) Pentru rezolvarea acestei probleme avei nevoie de determinarea prealabil a ecuaiei
estimate a regresiei?
e) Ce semnificaie considerai c are concluzia pe care ai obinut-o la punctul c)?
Exerciiul 21. Pentru datele de la Exerciiul 7, rspundei cerinelor urmtoare:
a) Calculai SPR, SPT i SPE.
b) Calculai MSR i MSE.
c) La un prag de semnificaie 0,05 , aplicai testul F pentru ipotezele:
H 0 : 1 0
H1 : 1 0
d) Exist vreo relaie ntre variabilele x i y din datele iniiale? Justificai rspunsul.
e) La un prag de semnificaie 0,05 , testai ipotezele:
H 0 : 1 2,5
H1 : 1 2,5
Exerciiul 22. Pentru datele de la Exerciiul 8, rspundei cerinelor urmtoare:
a) Calculai MSE, ca estimator al lui 2 .
b) Calculai s 2 i s .
1
1
49
c) Utilizai Testul t pentru a stabili dac ntre nivelul salariilor angajailor i vechime
exist o relaie. Efectuai testarea, separat, pentru praguri de semnificaie 0,1 ,
0,05 i 0,025 .
H 0 : 1 120
H1 : 1 120
e) La un prag de semnificaie 0,1 i apoi 0,05 , testai ipotezele:
H 0 : 0 486,5
H1 : 0 486,5
Exerciiul 23. Pentru datele din Exerciiul 10, testai dac ntre preul de vnzare a unei
locuine i suprafaa acesteia exist o relaie. Utilizai att Testul t ct i Testul F, pentru
pragurile de semnificaie 0,1 i 0,05 .
Exerciiul 24. Pentru datele din Exerciiul 12, rspundei urmtoarelor cerine:
a) Utilizai Testul F la un prag de semnificaie 0,1 i apoi 0,05 pentru a stabili
dac ntre preul biletului i numrul de pasageri exist sau nu vreo relaie.
b) Aceeai cerin, pentru aplicarea Testului t.
c) Comparai valorile lui
1
i t i gsii, dac exist, o relaie ntre ele.
s
2
1
50
51