Documente Academic
Documente Profesional
Documente Cultură
DESCRIPTIVA
ANUL II Semestrul III
Cluj-Napoca 2013
1
CUPRINS
2
I. INFORMAŢII GENERALE
3
Obiective
Disciplina Statistică descriptivă îşi propune dobândirea unor cunoştinţe privind definirea unei populaţii
statistice, a variabilelor statistice, obţinerea de informaţii cu privire la fenomenul supus cercetării,
organizarea datelor şi prezentarea acestora sub formă de serii statistice, evidenţierea structurii populaţiei
în raport cu variabilele observate, evidenţierea evoluţiei unui fenomen în timp sau spaţiu precum şi
reprezentarea grafică a datelor.
Competenţe profesionale
Competenţe transversale
Materiale bibliografice
ANDERSON D.R., SWEENEY D.J., WILLIAMS T.A. – Statistics for business and economics,
South-Western College Pub, 2008
ANDREI T., STANCU S. – Statistica – teorie si aplicatii, Ed. ALL, Bucuresti, 1995
BAILLY P., CARRERE C. - Statistiques descriptives : Cours, Ed. PUG, Grenoble, 2007
BRESSOUD E., KAHANE J.C., GILLET R. - Statistique descriptive : Applications avec Excel et la
calculatrice, Ed. Pearson Education, Paris, 2008
BUIGA A., DRAGOS C., LAZAR D., PARPUCEA I., MARE C. – Statistica descriptiva, Ed.
Mediamira, Cluj Napoca, 2009
DELMAS B. - Statistique descriptive pour l'économie et la gestion, Ed. Presses Universitaires du
Septentrion, Lille, 2009
JABA E. - Statistică descriptiva. Teste grila i probleme, Ed. Sedcom Libris Ia i, 2002
LETHIELLEUX M. - Statistique descriptive, Ed. Dunod, Paris, 2007
4
Materiale şi instrumente necesare pentru curs
Studenţi cu dizabilităţi
În vederea oferirii de şanse egale studenţilor afectaţi de dizabilităţi motorii sau intelectuale, titularul de
curs îşi manifestă disponibilitatea de a comunica cu studenţii prin intermediul sistemelor informatice
disponibile (spre exemplu: e-mail, website, blog, etc.). Astfel, studenţii cu dizabilităţi vor putea adresa
întrebări legate de tematica cursului pe adresa de email a titularului de curs, menţionată la începutul
acestui silabus, putând primi lămuririle necesare în maxim 48 de ore de la primirea mesajului.
5
MODULUL 1
Obiective
definirea unei populaţii statistice, a variabilelor statistice
obţinerea de informaţii cu privire la fenomenul supus cercetarii
organizarea datelor şi prezentarea acestora sub formă de serii statistice
evidenţierea structurii populaţiei în raport cu variabilele observate
evidenţierea evoluţiei unui fenomen în timp sau spaţiu
reprezentarea grafică a datelor
Concepte de bază
populaţie statistică, unitate statistică, volum, eşantion, variabilă statistică, observare statistică,
indicator statistic, serie statistică
observare statistică, serii statistice unidimensionale şi bidimensionale
reprezentarea grafică a datelor relativ la o variabilă cantitativă, la o variabilă calitativă şi la două
variabile
Rezultate aşteptate
Cunoaşterea şi stăpânirea noţiunilor statistice de bază, cunoaşterea tehnicilor de culegere, grupare şi
prezentare a datelor. Utilizarea indicatorilor statistici cu scopul evidenţierii variaţiei unei mărimi sau a
structurii populaţiei supuse studiului.
6
Sinteza
1. Concepte de bază
7
1.2. Variabila statistică
Variabila statistică reprezintă o însuşire sau o trăsătură comună tuturor unităţilor unei
populaţii. Nivelul înregistrat de o variabilă statistică la o unitate oarecare al populaţiei se
numeşte realizare sau starea variabile. [Florea I., 1998].
În general se notează cu majusculele de la sfârşitul alfabetului, X, Y, Z etc. Dacă se
notează cu X o variabilă statistică oarecare, atunci cu x1, x2, ..., xN se vor nota stările variabilei
respective.
Variabilele statistice se clasifică în raport cu natura, modul de exprimare şi modul de
variaţie.
a) După natura lor variabilele statistice pot fi atributive, de timp şi de spaţiu.
Variabila atributivă exprimă un atribut sau însuşire esenţială (alta, decât timpul sau
spaţiul) unităţilor populaţiei;
Variabila de timp ne arată timpul în care au luat fiinţă unităţile populaţiei sau
perioada de timp în care au existat (exista);
Variabila de spaţiu ne arată spaţiul în care există sau au luat naştere unităţile
populaţiei.
b) După modul de exprimare a stărilor deosebim:
Variabilă cantitativă este variabila ale cărei stări se exprimă prin valori numerice.
Se mai numeşte şi variabilă metrică.
Variabilă calitativă este variabila ale cărei stări se exprimă prin cuvinte sau coduri.
Se mai numeşte variabilă nominală (stările se exprimă prin cuvinte) sau variabilă
ordinală (stările se exprimă prin coduri).
c) După modul de variaţie variabila cantitativă poate fi:
Variabilă discretă este acea variabilă care, în intervalul său de definiţie înregistrează
cel mult valori raţionale, variaţia are loc în salturi.
Variabilă continuă este acea variabilă care poate lua orice valoare reală din intervalul
său de variaţie.
Exemple de variabile statistice relativ la populaţia formată din mulţimea consumatorilor
unui produs:
- vârsta: variabilă atributivă, cantitativă, continuă
X = { x1 = [15-20) [20-30) ... }
- frecvenţa de cumpărare: variabilă atributivă calitativă
Y = { y1 - foarte rar; y2 – rar, ... }
- număr de sortimente cumpărate relativ la produsul analizat: variabilă atributivă,
cantitativă, discretă:
Z = { z1 = 1; z2 = 2, ... }
- localizarea magazinelor de unde cumpără: variabilă de spaţiu, calitativă
S = { s1 – cartierul M sau s2 – strada P1, ... }
- data ultimei cumpărări a produsului analizat: variabilă de timp, cantitativă
T = { t1 = 27.01.2002; t2 = 24.02.2002, ... }
Variabila aleatoare
Variabila aleatoare este variabila care poate lua orice valoare din valorile unei mulţimi
finite sau infinite, cu o anumită probabilitate, rezultată dintr-o funcţie asociată variabilei, numită
lege de probabilitate.
Ca şi variabila statistică, variabila aleatoare în raport cu valorile sale poate fi discretă sau
continuă.
În timp ce o variabilă aleatoare înregistrează valori la întâmplare, variabila statistică
constituie o însuşire certă a unităţilor statistice din populaţie. Valorile unei variabile aleatoare
8
sunt probabile şi în strânsă legătură cu un anumit experiment. Stările unei variabile statistice nu
sunt probabile, ele cuantifică o trăsătură proprie fiecărei unităţi din populaţie.
9
1.4.1. Seria statistică de repartiţie
Conform definiţiei de mai sus, prin această serie se distribuie unităţile unei populaţii
statistice în raport cu una sau mai multe variabile.
Fie o serie statistică unidimensională având la bază variabila X, respectiv:
x x2 ... xi ... x R
X : 1 (1.1)
N1 N2 ... N i ... N R
Clasa (grupa) de unităţi în raport cu o variabilă reuneşte acele unităţi din cadrul
populaţiei care înregistrează aceeaşi stare a variabilei sau stările variabilei aparţinând unui
anumit interval de variaţie .
Ca urmare, în raport cu o variabilă statistică populaţia poate fi structurată într-un anumit
număr de clase.
De asemenea, relativ la seria statistică unidimensională având la bază variabila X, poate fi
formată cu frecvenţe relative, frecvenţe cumulate absolute sau relative.
Fie seria X formată cu frecvenţe relative:
x x 2 ... xi ... x R
X : 1 (1.2.)
f 1 f 2 ... f i ... f R
Pornind de la seria (1.1) se poate deduce seria formată cu frecvenţe absolute cumulate,
respectiv:
x x2 ... xi ... xR
X: 1 (1.3)
N(x1 ) N(x 2 ) ... N(x i ) ... N(x R )
unde: N(xi) reprezintă numărul de unităţi din populaţia studiată pentru care variabila
înregistrează valori ce nu depăşesc valoarea xi.
Pornind de la seria (1.1) sau (1.2) se poate deduce seria formată cu frecvenţe relative
cumulate, respectiv:
x1 x2 ... xi ... xR
X : (1.4)
FN ( x1 ) FN ( x 2 ) ... FN ( xi ) ... FN ( x R )
unde: FN(xi) - exprimă ponderea unităţii populaţiei studiate pentru care variabila a înregistrat
valori ce nu depăşesc valoarea x i.
FN(xi) = f1 + f2 + ... + fi
N ( xi )
Sau FN ( x i ) (.100) i 1, R
N
10
Seria statistică de repartiţie bidimensională este o construcţie ce redă distribuţia unei
populaţii în raport cu două variabile.
Astfel, fie populaţia statistică A studiată în raport cu variabilele X şi Y, rezultatele
observării se pot grupa într-un tabel de forma următoare:
unde:
- Nij - reprezintă numărul de unităţi pentru care, variabila X înregistrează starea xj şi variabila Y
înregistrează starea yi ;
- Ni. - numărul de unităţi pentru care Y = yi, indiferent de nivelul înregistrat de variabila X;
- N.j - numărul de unităţi pentru care X = xj, indiferent de nivelul înregistrat de variabila Y;
- N - numărul total de unităţi analizate.
y y2 ... yi ... yI
Y : 1
N 1. N 2. ... N i. ... N I .
y1 y2 ... yi ... yI
Y / X x j : j 1, J
N1 j N2 j ... N ij ... N Ij
x1 x2 ... x j ... x J
X / Y y i : i 1, I
N i1 N i .2 ... N ij ... N iJ
Conform definiţiei seria de variaţie redă variaţia unei mărimi, în timp, în spaţiu sau de la
o categorie la alta. Ca urmare, în continuare vom vorbi de serii cronologice (au la bază o
variabilă de timp), serii de spaţiu (au la bază o variabilă de spaţiu) şi serii categoriale (au la bază
variabile atributive). Cele mai des întâlnite sunt seriile cronologice şi seriile de spaţiu.
Seriile de variaţie au la bază mărimi absolute şi relative. După unii autori din cadrul
mărimilor absolute fac parte indicatorul de nivel şi diferenţa absolută a unei mărimi, iar din
cadrul mărimilor relative fac parte: indicatorul relativ de intensitate, indicele statistic şi diferenţa
relativă a unei mărimi.
Indicatorul de nivel (Y) este o mărime ce reflectă nivelul unui fenomen analizat. De
exemplu: producţia diferitelor produse, veniturile populaţiei, suprafaţa cultivată cu principalele
culturi, transportul, exportul, importul etc.
Diferenţa absolută a unei mărimi ( Y ) exprimă diferenţa dintre nivelul cercetat şi
nivelul bază de comparaţie al mărimii analizate. Se exprimă în aceeaşi unitate de măsură în care
este cuantificat fenomenul analizat şi ne arată cu cât s-a modificat acesta de la un nivel la altul.
Indicele statistic al unei mărimi ( I Y ) exprimă raportul dintre nivelul cercetat şi nivelul
bază de comparaţie al mărimii analizate. Ne arată de câte ori se modifică acea mărime, de la un
nivel la altul.
Diferenţa relativă a unei mărimi ( RY ) exprimă raportul dintre diferenţa absolută a
mărimii respective şi nivelul bază de comparaţie al acesteia. Ne arată cu cât la sută se modifică
mărimea de la un nivel la altul.
Indicatorul relativ de intensitate (d) se defineşte ca raport între doi indicatori de nivel de
natură diferită şi arată gradul de răspândire a fenomenului cuantificat de indicatorul de la
numărător în raport cu fenomenul cuantificat de indicatorul de la numitor. De exemplu:
producţia diferitelor culturi / ha, densitatea populaţiei, producţia principalelor produse / locuitor,
rata şomajului etc.
Greutatea specifică (g) reflectă structura fenomenului analizat în raport cu stările
variabile X, de la baza seriei.
Seriile cronologice
Seria cronologică reflectă evoluţia în timp a unei mărimi.
Valorile variabilei ca funcţie de timp pot fi fixate la un anumit moment de timp sau să se
refere la un interval de timp.
Seria cronologică de momente este o serie de observaţii ordonate în timp, exprimând
stocuri [Trebici V., 1985]. De exemplu, volumul populaţiei, număr de universităţi, bănci,
instituţii, fonduri fixe, numărul salariaţilor, întreprinderile mici şi mijlocii din diferite domenii de
activitate, unităţile de cazare turistică etc. Într-o astfel de serie însumarea mărimii analizate nu
are sens din punct de vedere al conţinutului, aceasta fiind permisă din considerente de calcul,
ajustări etc.
Seria cronologică de intervale este o serie de observaţii ordonate în timp exprimând
fluxuri. De exemplu: născuţii vii, divorţurile, decesele, producţia diferitelor culturi sau produse,
venituri, cheltuieli, producţia industrială, agricolă, exportul, importul etc.Într-o astfel de serie are
sens însumarea mărimii analizate.
12
Fie o serie cronologică de momente sau de intervale ce reflectă evoluţia în timp a
nivelului unei mărimi Y,
0 1 2 ... t ... T
Y : (1.6)
y 0 y1 y 2 ... yt ... yT
Pornind de la această serie se pot deduce seriile formate cu diferenţe absolute, indici şi
diferenţe relative. În funcţie de modul de raportare a stărilor variabilei timp t, mărimile de mai
sus se pot calcula cu bază fixă (t / t0) (baza de comparaţie rămâne aceeaşi) sau cu bază în lanţ (t /
t-1) (baza de comparaţie se schimbă, fiind considerată cea precedentă nivelului comparat).
0 1 2 ... t ... T
ty/ t0 : (1.7)
1/ 0
0 y 2/0
y ... t/0
y ... Ty/ 0
t y/ 0 y (t ) y (0)
0 1 2 ... t ... T
ty/ t 1 : 1/ 0 2 /1 t / t 1 T / T 1
(1.8)
y y ... y ... y
t y/ t 1 y (t ) y (t 1)
Între cele două tipuri de diferenţe absolute cu baza fixă şi cu bază în lanţ, există relaţii de
legătură ce ne permit exprimarea unora în funcţie de celelalte. În acest context, însumând
diferenţele absolute cu baza în lanţ se obţin diferenţele absolute cu baza fixă.
t y/ 0 1y/ 0 2y/ 1 3y/ 2 ... t y/ t 1
13
y (t )
I yt / 0 ( x100)
y (0)
y (t )
I ty / t 1 ( x100)
y(t 1)
0 1 2 ... t ... T
R yt / t0 : (1.11)
1/ 0
0 Ry R 2/0
y ... R yt / 0 ... R Ty / 0
t y/ 0 y (t ) y (0) y (t )
R ty / 0 1 I yt / 0 1
y( 0) y (0 ) y (0)
0 1 2 ... t ... T
R yt / t 1 : 1/ 0 2 /1 t / t 1 T / T 1
(1.12)
Ry R y ... R y ... R y
ty/ t 1
R yt / t 1 I ty / t 1 1 sau I yt / t 1 .100 100
y (t 1)
0 1 2 ... t ... T
g y : (1.13)
g0 g1 g2 ... g t ... g T
14
y (t )
g (t ) T
y (t )
t 1
Seria statistică de spaţiu este o construcţie statistică ce reflectă variaţia în spaţiu a unei
mărimi. Seria de spaţiu prezintă o importanţă din ce în ce mai mare, datorită dezvoltării
sistemului informaţional, a necesităţii comparaţiilor internaţionale şi a comparaţiilor între
regiunile unei ţări.
În cadrul Anuarului Statistic al României există capitole distincte de „Statistică
teritorială” şi „Statistică internaţională”. În capitolul de „Statistică teritorială” sunt cuprinse
informaţii privind: populaţia, forţa de muncă, condiţii de muncă, veniturile populaţiei,
cheltuielile şi consumul populaţiei, locuinţe, asistenţă socială, sănătate, învăţământ, cultură,
sport, conturi naţionale, rezultate şi performanţe ale întreprinderilor, agricultură, silvicultură,
industrie, transporturi, poştă, telecomunicaţii, turism, finanţe, justiţie şi starea infracţională, pe
cele 7 regiuni şi Bucureşti.
La baza seriei de spaţiu se găsesc atât mărimi absolute (indicator de nivel, diferenţa
absolută), cât şi mărimi relative (indicator relativ de intensitate, indicele statistic, diferenţa
relativă).
Fie seria statistică Z, de forma următoare:
s s1 s 2 ... s i ... s R
Z : 0 (1.14)
Z (1) Z (2) Z (3) ... Z (i ) ... Z ( R)
unde:
si – este o stare a variabilei ce exprimă spaţiul, i 1, R ;
Z(i) – exprimă o mărime (indicator de nivel sau relativ de intensitate).
Plecând de la seria de forma (1.15) se pot deduce seriile formate cu:
- diferenţe absolute cu bază fixă:
s s1 s2 ... si ... sR
sZ/ s0 : 0 s1 / s0 s2 / s0 si / s0
(1.15)
s R / s0
0 Z Z ... Z ... Z
sZi / s 0 Z (i ) Z (0)
- indicii statistici cu bază fixă
s s1 s2 ... si ... sR
I Zs / s0 : 0 s1 / s0 s2 / s0 si / s0
s R / s0
(1.16)
0 IZ IZ ... I Z ... I Z
Z (i )
I Zsi / s0 .(100)
Z (0)
- diferenţe relative cu bază fixă
s s1 s2 ... si ... sR
RZs / s0 : 0 (1.17)
0 RZ
s1 / s0
RZs2 / s0
... RZsi / s0 ... RZsR / s0
si / s0 sZi / s0
IZ I Zsi / s0 100
Z (0 )
15
2. Observarea, sistematizarea şi prezentarea seriilor statistice
17
observării şi atunci observarea este pe bază de document sau intermediarul poate fi o altă
persoană decât observatorul, caz în care avem observare prin interogare.
Suportul pentru culegerea datelor îl reprezintă chestionarul.
În condiţiile în care cercetarea populaţiei presupune elaborarea unei serii care are la bază
o variabilă cantitativă continuă sau o variabilă cantitativă discretă, dar care în populaţia
considerată înregistrează un număr prea mare de stări, clasele nu se mai pot stabili cu ajutorul
stărilor variabilei. Pentru asemenea cazuri, gruparea unităţilor populaţiei în clase se face cu
ajutorul intervalelor de grupare (variaţie), fiecare interval cuprinzând un număr oarecare de
valori ale variabilei. Ca urmare, pentru o serie continuă, clasele se definesc cu ajutorul
intervalelor de grupare.
18
Două probleme se pun în cazul elaborării unei serii care are la bază o variabilă cantitativă
continuă:
determinarea lungimii intervalelor de variaţie;
stabilirea formei de scriere a intervalelor de variaţie.
Determinarea lungimii intervalelor de variaţie conduce la două situaţii:
serii construire cu intervale de lungime egală;
serii construite cu intervale de lungime diferite.
Stabilirea numărului de intervale de variaţie trebuie să asigure satisfacerea următoarelor
condiţii:
- informaţia care se pierde în urma operaţiei de grupare să nu fie prea mare, iar
populaţia să nu fie prea fărâmiţată în raport cu variabilele de grupare;
- media aritmetică a fiecărei grupe (în raport cu valorile înregistrate) să fie cât mai
aproape de centrul intervalului de variaţie respectiv;
- să nu existe grupe vide;
- reprezentarea grafică a seriei rezultate să permită conturarea unei regularităţi a
fenomenului de studiat din cadrul populaţiei. Trebuie remarcat că acest lucru nu este
posibil nici în cazul unui număr mic de intervale deoarece se pierd prea multe date,
nici în cazul unui număr prea mare de intervale, populaţia fărâmiţându-se prea tare.
Statisticianul american H.A. Struges a stabilit pentru cazul în care populaţia în raport cu
variabila X este normală, următoarea expresie:
xmax xmin
lx (2.1)
1 3,322 lg N
(1+3,322 LgN, având semnificaţia de „număr de intervale”), pentru celelalte cazuri rezultatul
fiind orientativ, servind la determinarea cu aproximaţie a lungimii intervalelor de variaţie în
cazul în care acestea vor fi de lungime egală. În expresia de calcul a lungimii intervalelor
intervine valoarea maximă şi cea minimă a variabilei, cât şi volumul populaţiei. În urma stabilirii
lungimii intervalelor. Se elaborează seria de intervale de lungime egală după cum urmează:
x ; (x l ) ... xmin (k 1)lx ; (xmin klx ) ... xmin (R 1)lx ; (xmin R lx )
X : min min x
N1 Nk NR
19
Pentru elaborarea şi prezentarea seriilor statistice se apelează la pachete de programe
statistice cum ar fi: S.P.S.S. (Statistical Package for the Social Sciences), STATISTICA, S.A.S.
(Statistical Analysis System), STATGRAPHICS, etc.
Reprezentarea grafică a unei serii ne dă o imagine geometrică (în plan sau spaţiu) cu
privire la forma statică sau evoluţia dinamică a fenomenului cuantificat de seria respectivă.
Graficul asociat unei serii constituie o imagine spaţială a fenomenului de cercetat,
permiţând evidenţierea rapidă a structurii, dinamicii şi tendinţei de dezvoltare a acestuia.
Reprezentările grafice sunt folosite atât în scopul cunoaşterii populaţiei în cauză, cât şi pentru
popularizarea unor rezultate din diverse domenii de activitate.
Elaborarea completă şi corectă în acelaşi timp a unui grafic presupune elucidarea
următoarelor elemente: titlul graficului, scara de reprezentare, reţeaua graficului, semnele
convenţionale şi notele.
Titlul graficului trebuie să fie scurt, clar şi semnificativ pentru conţinutul fenomenului
reliefat prin seria considerată.
Scara de reprezentare reuneşte mulţimea tuturor punctelor cotate. În cazul în care
variabila înregistrează valori mici, gradarea scării începe în principiu de la zero, dacă variabila
înregistrează valori mari se consideră o altă origine stabilită cu aproximaţie. Pentru a nu încărca
prea mult desenul, se recomandă reprezentarea pe scară doar a valorilor dispuse la un anumit
interval convenabil ales. Distanţele dintre două puncte cotate consecutive se numeşte intervalul
graficului. Când intervalele sunt egale atunci avem scări uniforme, în caz contrar avem scări
neuniforme.
Reţeaua graficului permite identificarea cu uşurinţă în plan sau în spaţiu a punctelor
corespunzătoare valorilor înregistrate de variabilele în cauză. Sistemul axelor rectangulare (în
plan sau spaţiu) constituie cele mai uzuale reţele în reprezentarea grafică a seriilor statistice.
Semnele convenţionale se pot materializa într-o reprezentare grafică prin inscripţii, fie
printr-o legendă. Inscripţia trebuie să fie scurtă şi semnificativă şi plasată cât mai bine în raport
cu elementul din grafic pe care îl explicitează. Legenda se foloseşte pentru a explicita folosirea
semnelor, culorilor sau diverselor haşuri folosite în graficul în cauză. Legenda se plasează
înafara graficului, în colţul din stânga sau dreapta jos.
În cazul graficelor complexe, pentru o înţelegere mai bună, sunt necesare unele explicaţii,
care se dau sub formă de note. Notele generale privesc în ansamblu graficul şi se plasează chiar
sub titlul graficului. Notele speciale privesc porţiuni din grafic şi sunt legate de acestea prin
diverse semne de trimitere. Notele se plasează în partea de jos a diagramei, în colţul din stânga
sub reţea.
În continuare se vor prezenta principalele tehnici de construire a graficelor utilizate în
reprezentarea seriilor statistice ce descriu fenomenele social-economice.
Histograma
Graficul specific seriilor care au la bază o variabilă continuă (de intervale) este
histograma. Aceasta se construieşte într-un sistem de axe rectangulare după cum urmează: pe
abscisă se trec intervalele de variaţie, iar pe ordonată se trasează scara frecvenţelor. Scara
frecvenţelor se construieşte în conformitate cu respectarea principiului proporţionalităţii între
frecvenţe şi segmentele delimitate pe scara ordonatelor. Pentru fiecare interval de variaţie a seriei
(xi-1 – xi) se construieşte un dreptunghi a cărui bază este chiar lungimea intervalului, iar cealaltă
latură se determină din condiţia proporţionalităţii ariei dreptunghiului cu mărimea indicatorului
în clasa respectivă.
20
Latura necunoscută a dreptunghiului, notată cu Li se determină din următoarea relaţie:
Li . li = k . Ni (2.2)
unde:
li = latura cunoscută a dreptunghiului corespunzător intervalului (xi-1 - xi);
Li = latura necunoscută a dreptunghiului corespunzător intervalului (xi-1 - xi);
Ni = frecvenţa absolută a clasei „i”;
k = un coeficient de proporţionalitate care se alege în raport cu scara de reprezentare.
Din relaţia (2.2) se deduce Li:
N
Li k i , i 1,R
li
unde: li = xi - xi-1, adică diferenţa dintre limita superioară şi cea inferioară a intervalului de
variaţie.
Mulţimea tuturor dreptunghiurilor astfel determinate, formează histograma ataşată seriei.
Poligonul frecvenţelor
Grupa Populaţia
de vârstă (ani)
0–4 1147065
5–9 1330733
10 – 14 1737153
15 – 19 1701881
20 – 24 1978835
25 – 29 1792822
30 – 34 1698268
35 – 39 1335039
21
Distributia populatiei Romaniei sub 40 ani pe grupe de varsta
populatia
0–4 5–9 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39
grupa de varsta (ani)
Diagramele de structură
Punerea în evidenţă sub formă grafică a structurii unei populaţii statistice este posibilă
apelând la diagramele de structură. În acest sens se prezintă: dreptunghiul, pătratul, cercul şi
semicercul de structură. Aceste tipuri de grafice permit reprezentarea grafică a seriilor
unidimensionale construite cu mărimi de structură( frecvenţe relative, greutate specifică).
Cel mai des folosit este cercul de structură denumit şi diagrama sectorială (piechart).
Cercul de structură
Exemplu
Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând distribuţia voturilor
electoratului pentru Senat (după redistribuire) la alegerile din 3 noiembrie 1996:
22
Formaţiunea
Voturi
4,90%
5,60%
7,70%
37% CDR
PDSR
USD
16,10% UDMR
PRM
PUNR
28,70%
Acest tip de grafic utilizează benzile (barele), pentru a reprezenta distribuţia unei
populaţii în raport cu o variabilă cantitativă discretă sau calitativă. Benzile au aceeaşi lăţime
(bază), iar lungimea (înălţimea) lor este direct proporţională cu frecvenţa clasei reprezentate.
Numărul benzilor este egal cu numărul claselor în care este împărţită populaţia studiată. De
asemenea se pot lua în considerare o variabilă sau două.
În reprezentări se utilizează benzi simple sau benzi grupate. Poziţia benzilor poate fi
orizontală sau verticală.
Exemplu
Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând nivelul
PNB/loc în $ calculat pe baza puterii de cumpărare în România şi alte ţări est-europene, în 1998
23
PNB/loc ($) in 1998
14000
12197
12000
9624 9832
10000
8000 7543
6153
6000
4683
4000
2000
0
Bulgaria Cehia Polonia România Slovacia Ungaria
Cronograma (historiograma)
0 1 2 ... t ... T
Y :
y0 y1 y2 ... yt ... yT
unde: t 0,T , reprezintă momentele (sau perioadele) de timp care se reprezintă pe axa
absciselor, iar mărimile yt se reprezintă pe axa ordonatelor. Fiecărei perechi de valori (t, yt),
t 0, T îi corespunde un punct în planul axelor rectangulare. Unind prin segmente de dreaptă
punctele consecutive, astfel determinate, se obţine ceea ce se numeşte cronogramă.
În acelaşi sistem de axe pot fi reprezentate una sau mai multe serii cronologice, care pot fi
exprimate în aceeaşi unitate de măsură sau în unităţi de măsură diferite. Cronogramele asociate
unor serii cronologice ne permit compararea fenomenelor surprinse de asemenea serii şi
sesizarea perioadelor critice în evoluţia acestora.
Exemplu.
Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând numărul total ta
autoturisme înscrise în circulaţie la sfârşitul anului în România în perioada 1994-1999.
24
Anul 1994 1995 1996 1997 1998 1999
înmatriculate
3500000
numar autoturisme in circulatie
3000000
2500000
2000000
1500000
1000000
500000
0
1993 1994 1995 1996 1997 1998 1999 2000
anul
Norul statistic
Exemplu
Un produs a fost lansat simultan pe 13 pieţe. Pe aceste pieţe, produsul a fost propus la preţuri
diferite (P), veniturile consumatorilor (V) fiind şi ele diferite. Pentru fiecare piată s-a înregistrat
un anumit nivel al cererii (C), rezultatele fiind sintetizate în tabelul următor:
25
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13
Crt.
Cerere 15,4 3,2 4,9 10,5 8,0 5,1 7,6 11,3 14,0 6,4 13,2 8,8 12,1
(C)
Preţ 1,4 5,1 2,5 1,7 1,8 3,4 2,1 1,6 3,6 3,5 1,9 1,8 1,9
(P)
18
16
14
12
cerere
10
0
0 1 2 3 4 5 6
pret
Cartograma şi cartodiagrama
P2. Să se extragă din Anuarul Statistic sau alte surse informaţionale o serie statistică
bidimensională ce redă distribuţia unei populaţii în raport cu două variabile atributive,
relativ la care se cere:
26
1. denumirea populaţiei ce a fost supusă observării şi volumul acesteia;
2. unitatea statistică;
3. caracterizarea variabilelor statistice în raport cu care a fost studiată populaţia;
4. caracterizarea seriei statistice în raport cu toate criteriile cunoscute;
5. elaborarea seriei bidimensionale formată cu frecvenţe relative, interpretare;
6. extragerea repartiţiilor unidimensionale marginale şi a celor condiţionate;
7. pornind de la o repartiţie marginală deduceţi celelalte serii statistice posibile, interpretare.
P3. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie statistică de repartiţie,
având la bază o variabilă de spaţiu, relativ la care se cere:
1. denumirea populaţiei statistice şi volumului ei;
2. unitatea statistică;
3. caracterizarea seriei după toate criteriile cunoscute;
4. deducerea seriei formată cu frecvenţe relative;
5. interpretare.
P4. Din Anuarul Statistic sau alte surse informaţionale extrageţi două serii cronologice având la
bază indicatorul de nivel, una de momente, alta de intervale şi deduceţi seriile formate cu
diferenţe absolute, indici statistici, diferenţe relative, cu bază fixă şi cu bază în lanţ
(interpretări).
P5. Daţi 5 exemple de serii cronologice având la bază indicatorul relativ de intensitate.
P6. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie de spaţiu formată cu
indicator de nivel sau indicator relativ de intensitate şi deduceţi seriile formate cu diferenţe
absolute, indici şi diferenţe relative, calculate cu bază fixă. Interpretare.
P7. Extrageţi 5 exemple de serii de spaţiu ce conţin informaţii importante pentru domeniul
economic.
P8. Luand ca exemplu o populaţie statistică studiată în raport cu un anumit număr de variabile
(stabilite în raport cu obiectivul studiului), se cere:
1. elaborarea tuturor seriilor statistice de repartiţie unidimensionale
2. elaborarea a trei serii statistice de repartiţie bidimensionale ( una are la baza două
variabile calitative, una are la bază o variabila calitativă şi o variabilă cantitativă, una
are la bază două variabile cantitative)
3. reprezentarea grafică a: histogramei, poligonului frecvenţei, cercului de structură,
diagramei prin benzi sau coloane, norul statistic, cronograma şi cartograma.
Bibliografie:
1. Buiga, A., Metodologie de sondaj şi analiza datelor în studiile de piaţă, Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2001;
2. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A., Statistică I, Ed. Presa Universitară
Clujeană, Cluj-Napoca, 2003;
3. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Ed. Continental,
Cluj-Napoca, 1998.
27
MODULUL 2
Obiective
cunoaşterea şi înţelegerea modului de calcul precum şi a semnificaţiei parametrilor statistici.
ilustrarea trăsăturilor esenţiale care caracterizează fenomenele social - economice
cunoaşterea şi măsurarea variaţiei unei mărimi în raport cu nivelul mediu al acesteia
Concepte de bază
valoare medie, mediană, modală
parametrii de structură
variaţie, abatere medie, dispersie
parametrii concentrării
asimetrie şi boltire
Rezultate aşteptate
Sinteza
Parametrii din această grupă au menirea de a evidenţia poziţia în jurul căreia se grupează
ansamblul valorilor unei variabile de la baza unei serii. Această poziţie exprimată printr-un număr se
numeşte poziţie centrală. Ea poate fi evidenţiată prin:
- valoarea medie X ;
- valoarea mediană M e X ;
- valoarea modală M o X .
28
A. Valoarea medie
Valoarea medie reprezintă principalul parametru care caracterizează tendinţa centrală a unei
repartiţii statistice.
Prin definiţie, valoarea medie X a variabilei X este parametrul care lasă invariantă funcţia
determinantă, adică:
G x1 , x2 ,..., x R G X , X ,..., X . (2.0)
Determinarea, pe această cale, a valorii medii X , este destul de anevoioasă. Utilizarea acesteia
presupune stabilirea conţinutului (semnificaţiei) şi a formei analitice a funcţiei determinante G, pentru
fiecare caz în parte. Dar, valoarea medie X poate fi definită ca un raport a două mărimi din care se
deduce aceeaşi expresie pentru X ca şi din (2.0).
Există, aşadar, două modalităţi echivalente de definire a valorii medii, criteriul relaţiei
determinante a lui Boiarski-Kisini şi criteriul raportului, ultima fiind mai accesibilă. Criteriul raportului
presupune raportarea volumului fenomenului cercetat la volumul populaţiei. Acesta presupune
cuantificarea volumului fenomenului în funcţie de natura lui. Pentru a exemplifica cele prezentate mai
sus, se consideră populaţia familiilor dintr-o localitate, cercetată în raport cu numărul de copii. Datele
rezultate din observare se prezintă ca o serie de repartiţie de forma:
xi
X :
N i i .1, R
R
G x1 , x2 ,..., x R xi N i
i 1
29
semnificând numărul total de copii din localitatea respectivă. Pentru a găsi numărul mediu de copii pe
familie se particularizează relaţia (2.0) după cum urmează
R R
x N X N
i 1
i i
i 1
i
de unde rezultă:
x
i 1
i Ni
X R
N i 1
i
La acelaşi rezultat se putea ajunge pornind de la faptul că numărul mediu de copii pe familie se
poate exprima ca un raport între numărul total de copii şi numărul de familii din localitatea respectivă,
adică:
Nr . total de copii
X (2.1)
Nr . de familii
În acest exemplu, fenomenul fiind de natură demografică, volumul acestuia se cuantifică prin
numărul total de copii la nivelul populaţiei statistice considerate. Aceasta este în directă concordanţă cu
natura şi semnificaţia variabilei în raport cu care se face cercetarea statistică.
Cunoaşterea “naturii” parametrului valoare medie, conduce la o definiţie mai completă şi plină de
semnificaţie.
Pentru a înţelege semnificaţia valorii medii X , trebuie subliniat faptul că, în general, variaţia
unui fenomen, de orice natură, şi în particular variaţia unei variabile X în raport cu care este cercetată o
populaţie, este determinată de acţiunea simultană a două categorii de factori: factori esenţiali şi factori
neesenţiali.
În categoria factorilor esenţiali intră acei factori care acţionează asupra tuturor unităţilor
populaţiei în mod continuu şi în acelaşi sens, determinând, în principal, nivelul de dezvoltare a variabilei
pentru fiecare unitate componentă din populaţie.
Factorii esenţiali se conjugă în acţiunea lor cu factorii neesenţiali, care, în general, au un caracter
aleator, sunt numeroşi şi neuniform răspândiţi printre unităţile populaţiei.
Fiecare din factorii consideraţi neesenţiali acţionează numai asupra unui anumit număr de unităţi
din populaţie. Ca urmare, aceştia pot contribiu fie la creşterea nivelului variabilei (pentru unele unităţi din
populaţie), fie la scăderea nivelului variabilei (pentru alte unităţi din populaţie).
La rândul lor factorii esenţiali nu acţionează cu aceeaşi intensitate asupra tuturor unităţilor din
cadrul populaţie considerate, determinând, în acest fel, variaţia neuniformă a variabilei respective în
cadrul populaţiei.
30
În consens cu cele subliniate mai sus, se poate afirma că parametrul valoarea medie a unei serii
statistice care are la bază variabila X, constituie acel nivel pe care l-ar putea înregistra variabila în cadrul
populaţiei cercetate în condiţiile în care factorii neesenţiali nu s-ar fi manifestat, iar factorii esenţiali ar fi
acţionat asupra unităţilor din populaţie cu aceeaşi intensitate.
Parametrul valoarea medie, calculat pentru o serie statistică, pune în evidenţă ceea ce este comun,
general şi esenţial sub aspectul nivelului de dezvoltare al variabilei, în raport cu care este studiată o
populaţie.
În raport cu natura variabilei ce stă la baza seriei, cât şi a formei de prezentare a indicatorilor cu
care aceasta este construită, există mai multe posibilităţi de calcul a valorii medii.
Funcţia determinată G, sub forma sa cea mai generală, are următoarea expresie analitică:
1
R K K
G x1 , x 2 ,..., x R xi f i (2.2)
i 1
Pentru diverse valori ale lui k, în strictă concordanţă cu conţinutul şi semnificaţia funcţiei G, se
întâlnesc mai multe tipuri de medii:
În caz concret, valoarea medie reală X este aceea care se obţine prin indicatorul (mediu) rezultat
fie prin aplicarea criteriului relaţiei determinante, fie criteriului raportului.
1. Media aritmetică
Acesta este indicatorul cel mai utilizat în calculul parametrului valoarea medie a unei serii
statistice, aşa cum rezultă din practica statistică.
Se consideră acum două serii statistice de repartiţie, una formată din frecvenţe absolute, iar
cealaltă din frecvenţe relative:
xi
X : (2.3)
N i i .1, R
31
xi
X : (2.4)
f i i .1, R
xi N i
X ; X xi f i
N j
'
xi .N i
X
Nj
xi 1 xi
X :
fi i .1, R
xi xi 1
Folosind notaţiile: xi'
2
R
X xi' f i
i 1
Relaţia ne arată că media aritmetică a unei serii de intervale se reduce la media aritmetică a unei
serii discrete în care clasele sunt reprezentate prin mijloacele intervalelor de variaţie.
2. Media armonică
Se consideră o serie de forma:
x
X : i (2.5)
N i i 1, R
În cazul unei serii discrete de forma (2.5), media armonică notată cu X 1 se defineşte prin:
32
R
N
i 1
i
X 1 R
(2.6)
1
i 1 xi
Ni
N
i 1
i
X 1 R
(2.8)
1
i 1 x i'
Ni
3. Media geometrică
Pentru o serie care are la bază variabila discretă X, formată cu frecvenţe absolute, media
geometrică notată cu X g (sau X o ) este definită prin expresia:
Din (2.9), pentru media geometrică ponderată exprimată cu frecvenţe relative se deduce:
1/ N
N1 N2 NR R N R
Ni / N
R
f
Xg N
x
1
x 2 ... x R x i i xi xi i (2.10)
i 1 i 1 i 1
Dacă variabila X, de la baza seriei este de variaţie continuă, atunci relaţiile de calcul pentru
diversele variante de medie geometrică, rămân variabile cu singura modificare că valorile xi,
i 1, R , se înlocuiesc cu mijloacele intervalelor de variaţie, calculate conform formulei:
33
xi 1 xi
xi' , i 1, R (2.11)
2
B. Valoarea mediană
Valoarea mediană, notată cu M e este acea valoare a variabilei cantitative X care împarte
repartiţia în două părţi egale, respectiv:
N
FN (M e ) 1 / 2 sau N ( M e ) (2.12)
2
Calculul valorii mediane se face diferenţiat, după cum seria are la bază o variabilă discretă sau
continuă.
Pentru o repartiţie discretă, calculul medianei nu implică probleme deosebite şi nici un volum
mare de calcule.
Se consideră o repartiţie cu frecvenţe absolute:
x x2 ... xi ... xR
X : 1 . (2.13)
N1 N 2 ... N i ... N R
În calculul valorii mediane a unei serii discrete, pot apărea două situaţii:
a) volumul N al populaţiei este un număr impar;
b) volumul N al populaţiei este un număr par.
În ambele cazuri, calculul medianei presupune, în prima fază, determinarea rangului medianei,
notat cu rM e , conform următoarei relaţii:
1 R (2.14)
rM e Ni N (M e )
2 i1
a) Dacă volumul populaţiei N este un număr impar, rangul medianei este un număr zecimal a
N
cărui parte întreagă indică numărul de unităţi din populaţie pentru care variabila X a
2
înregistrat valori mai mici ca mediana. Ca urmare, M e trebuie să fie valoarea imediat următoare
N
celei de rang adică:
2
M e x N
(2.15)
1
2
b) Dacă volumul populaţiei este un număr par, rangul medianei este un număr întreg şi ca urmare
la mijlocul seriei nu se mai află o valoare a variabilei X cu care să coincidă mediana ci se găsesc
două valori, mediana calculându-se în acest caz ca media aritmetică a acestora. Relaţia de calcul
a medianei, în acest caz, este:
x N x N
2 1
2
Me (2.16)
2
Pentru o repartiţie continuă, calculul valorii mediane presupune verificarea egalităţii (2.12) şi ca
urmare, trebuie cunoscută densitatea de repartiţie f(x). Determinarea funcţiei f(x) implică un
34
volum mare de calcule şi deci, din acest motiv, în activitatea practică f(x) este aproximat. Acest
lucru va conduce la o expresie aproximativă de calcul a valorii mediane, care necesită un volum
redus de calcule.
Pentru acesta se consideră o repartiţie continuă în raport cu variabila X, şi anume:
x x1 x1 x 2 ... x i 1 x i ... x R 1 x R
X : 0 . (2.17)
N1 N2 ... Ni ... N R
unde intervalele xi-1-xi, i 1, R pot fi de lungime egală sau neegală. Calcularea rangului medianei
va permite stabilirea intervalului în care se află valoarea mediană, interval numit şi interval
median. Se cumulează frecvenţele absolute din aproape în aproape până ce este îndeplinită
inegalitatea:
1
N 1 N 2 ... N i N
2
Ultima frecvenţă Ni cumulată, ne permite să indicăm intervalul median x i 1 x i .
Formula aproximativă de calcul a medianei:
N ( M e ) N ( xi 1 )
M e xi 1 xi xi 1 (2.18)
Ni
C. Valoare modală
Valoarea modală Mo(X) a unei repartiţii reprezintă aceea valoare a variabilei X căreia îi
corespunde frecvenţa cea mai mare.
Acest parametru se mai numeşte modul, valoare dominantă, sau modă se notează cu Mo.
Mod de calcul:
a) Pentru o serie de repartiţie discretă, dată sub forma
x x ... x i ... x R
X : 1 2 . (2.19)
f 1 f 2 ... f i ... f R
valoarea modală se citeşte direct din serie, nefiind nevoie de nici o tehnică sau formulă de calcul.
În cazul acestui tip de serie, valoarea modală va fi acea valoare a variabilei X pentru care
frecvenţa este cea mai mare.
b) Pentru serii de repartiţie continue, respectiv:
35
x x1 x1 x 2 ... x i 2 x i 1 x i 1 x i x i x i 1 ... x R 1 x R
X : 0 (2.20)
f1 f2 ... f i 1 fi f i 1 ... fR
Modala nu poate fi determinată direct.
Intervalul căruia îi corespunde frecvenţa cea mai mare, se numeşte intervalul modal şi va conţine
modala. Să presupunem că intervalul modal este xi-1-xi.
O serie poate avea o singură valoare modală, caz în care seria se numeşte unimodală. Dacă o
serie are mai multe valori modale, atunci se numeşte plurimodală. O serie plurimodală
evidenţiază faptul că populaţia în cauză este neomogenă. Calculul valorii modale, în asemenea
cazuri, presupune o delimitare mai riguroasă a obiectului observării cât şi a populaţiei care
urmează să fie studiată. O altă cale, care poate duce la eliminarea unui asemenea neajuns, o
constituie comasarea a două câte două sau trei câte trei intervale etc., până se ajunge la o serie
unimodală.
În cazul unei serii simetrice valoarea modală coincide cu valoarea medie şi cu mediana.
Pentru serii uşor asimetrice, K. Pearson a stabilit următoarea relaţie între cei trei parametri:
Mo X 3 X Me
unde X este media aritmetică a variabilei X.
Calculul valorii modale reprezintă un deosebit interes pentru activitatea practică. Având în
vedere că semnificaţia acestui parametru – indică acea valoare a variabilei înregistrată de cele
mai multe unităţi din populaţie – se poate afla: ora la care sunt solicitate cele mai multe
convorbiri telefonice, ora de vârf privind transportul în comun, mărimea cea mai solicitată la
încălţăminte etc.
Dacă valoarea modală este identică cu valoarea medie, atunci se poate afirma că valoarea medie
se bucură de o mai mare reprezentativitate.
Dacă, în plus, avem M e M o X , ţinând seama că valoarea mediană nu este influenţată de
valorile extreme ale variabilei, se poate afirma că mediana reprezintă un grad de
reprezentativitate mai mare decât valoarea medie.
36
2.2. Parametrii de structură
Frecvente sunt cazurile când este necesară studierea structurii unei populaţii în raport cu o
variabilă sau alta. Parametrii statistici, în forma cea mai generală, folosiţi în caracterizarea
structurii unei populaţii poartă denumirea de valori quantile.
Valorile quantile ale unei serii de repartiţie unidimensionale sunt acele mărimi înregistrate de
variabila X, care împart seria în n părţi egale (mai precis împarte populaţia în n părţi egale). În
acest caz se vor calcula p quantile (p = n-1).
Pentru o serie continuă, a cărei densitate de probabilitate f(x) este cunoscută, următoarea egalitate
este satisfăcută de cele p quantile:
q1 q2 xR
1
f ( x)dx f ( x)dx ... f ( x)dx (2.22)
x1 q1 q n 1
n
q p x[ rq p 1] (2.27)
37
În cazul seriilor care au la bază o variabilă continuă, conform definiţiei, cele n-1
quantile trebuie să satisfacă relaţia (2.22). Determinarea quantilelor din asemenea egalităţi ar
presupune cunoaşterea densităţii de probabilitate f(x). Ori în activitatea practică f(x) se
aproximează prin diverse procedee, implicând un volum exagerat de calcule.
În vederea găsirii unor formule aproximative de calcul a quantilei de ordin
p( p 1, n 1) se consideră o serie de variaţie continuă, ale cărei intervale de variaţie nu trebuie
să fie neapărat egale ca lungime:
x x1 x1 x 2 ... x i 1 x i ... x R 1 x R
X : 0 . (2.28)
N1 N2 ... Ni ... N R
Cunoscând rangul, se poate identifica intervalul în care se află quantila de ordinul p, numit şi
intervalul quantilei de ordinul p ( p 1, n 1) . Cumulând frecvenţele pe clase până la egalarea s-
au depăşirea rangului, conform inegalităţii:
1 R
N 1 N 2 ... N i p N i (2.29’)
n i 1
38
Valorile quartile reprezintă acel caz particular al valorilor quantile pentru care n=4. Cele
trei quartile, care se obţin, notate: Q1, Q2 şi Q3 sunt acei parametri de structură care împart
populaţia în patru părţi egale.
În raport cu mediana, quartila întâi Q1, se numeşte quartila mică (inferioară), quartila a
doua Q2 coincide cu mediana şi se numeşte quartila mijlocie, iar quartila a treia Q3 se numeşte
quartila mare (superioară).
Cunoscându-se cele trei quartile, rezultă următoarea structură a populaţiei în raport cu
variabila X:
x Q1 Q1 Q2 Q2 Q3 Q3 X max
X : min (2.32)
25% 25% 25% 25%
ceea ce semnifică o structurare a populaţiei supusă studiului în patru parţi egale.
Aceasta înseamnă că 25% din unităţile popupaţiei înregistrează valori pentru variabila X
mai mici decât quartila mică, 25% din unităţile populaţiei înregistrează valori, în raport cu
aceeaşi variabilă X, cuprinse între quartila mică şi cea mijlocie, 25% vor avea valori cuprinse
între quartila mijlocie şi quartila mare, iar restul 25% din unităţile populaţiei vor avea valorile
pentru variabila X cuprinse între quartila mare şi valoarea maximă a lui X.
39
- parametrii variaţiei în raport cu valoarea mediană.
dx M X X (2.33)
x i 1
i X Ni
dx R
(2.34)
N
i 1
i
Dacă seria are la bază o variabilă continuă şi se cunoaşte f(x), atunci abaterea medie liniară se
calculează astfel:
xR
dx x X f ( x)dx (2.35)
x1
după cum seria în cauză este formată cu frecvenţe absolute sau relative, unde:
x i 1 x i
x i' , i 1, R
2
este mijlocul intervalului “i”.
Acest parametru serveşte caracterizării sintetice a gradului de reprezentativitate a valorii medii,
arătând cu cât se abate în medie orice valoare a variabilei X de la valoarea medie X , într-un
sens sau altul.
Sub forma relativă, acest indicator poartă denumirea de coeficient simplu de variaţie şi se
calculează conform relaţiei:
dx
Vx 100 (2.37)
X
Coeficientul simplu de variaţie (Vx) arată cu cât se abate în medie orice valoare a variabilei X de
la valoarea medie echivalentă cu 1 sau 100%. Calculat pentru două serii diferite, se poate aprecia
gradul de reprezentativitate a celor două medii. Se apreciază mai reprezentativă acea valoare
medie pentru care coeficientul simplu de variaţie este mai mic.
40
Parametrul abaterea medie liniară, în forma absolută sau relativă, prezintă unele deficienţe
deoarece nu este suficient de sensibil la abaterile mici, adăugându-se şi unele inconveniente de
natură teoretică, generate de exprimarea abaterilor în valoarea absolută.
Înlăturarea acestor deficienţe se poate realiza apelând la un nou parametru privind măsurarea
variaţiei, numit abatarea medie pătratică.
x M (X X )2 (2.38)
Un calcul intermediar în aflarea acestui parametru, îl constituie calcularea pătratului abaterii
medii pătratice, care se numeşte dispersie sau varianţă şi are următoarea expresie de calcul:
x2 M ( X X ) 2 D 2 ( X ) (2.39)
V(x) reprezintă o altă notaţie pentru varianţă, pe lângă σ2x .
Varianţa fiind un calcul intermediar în aflarea abaterii medii pătratice, în cele ce urmează se va
prezenta modul de calcul al acesteia.
Relaţia de calcul a varianţei se particularizează în raport cu tipul seriei. În cazul unei serii care
are la bază o variabilă X discretă, conform definiţiei, varianţa are expresia:
R
(x i X )2 Ni
i 1
x2 R
(2.40)
N i 1
i
În cazul unei serii care are la bază o variabilă X continuă, varianţa se calculează conform
următoarei relaţii:
xR
x X
2
x2 f ( x) dx (2.41)
x1
41
Coeficientul de variaţie a lui Pearson calculat pentru două sau mai multe serii, poate fi folosit în
aprecieri comparative privind gradul de reprezentativitate a valorii medii calculate.
Deoarece gradul de reprezentativitate a valorii medii este în raport invers cu mărimea
coeficientului de variaţie a lui Pearson, se poate afirma, în cazul mai multor serii, că este mai
reprezentativă valoarea medie a acelei serii pentru care Vx este mai mic.
În concluzie, trebuie reţinut că parametrul abaterea medie pătratică sub formă absolută σx şi sub
formă relativă Vx sunt indicatori fundamentali utilizaţi în măsurarea variaţiei unei variabile.
Atât abaterea medie liniară, cât şi abaterea medie pătratică constituie o măsură a variaţiei medii,
primul o medie de ordinul unu, iar al doilea o medie de ordinul doi (d x x ) .
Abaterea interquartilă
Abaterea interquartilă, prin definiţie, este media aritmetică simplă a segmentelor Me – Q1 şi Q3 –
Me, respectiv:
M e Q1 Q3 M e Q3 Q1
Q (2.43)
2 2
şi arată cu cât se abat în medie, în plus sau în minus, de la mediană, cele 50% din valorile
variabilei cuprinse între Q1 şi Q3.
Forma relativă a acestui indicator notat cu Qr:
Q Q Q1
Qr 100 3 100 (2.44)
Me 2 Me
se numeşte coeficient de variaţie interquartilic şi arată cu cât se abat în medie de la mediană
(considerată egală cu 100), valorile variabilei înregistrate pentru cele 50% din unităţile populaţiei
cuprinse între Q1 şi Q3.
Ca atare, se apreciază că împrăştierea unităţilor în cadrul populaţiei studiate este cu atât
mai mare, în raport cu variabila de studiat, cu cât abaterea interquartilă în valoarea absolută
(2.43) sau relativă (2.44) este mai mare.
Abaterea interquantilă
Pentru acest parametru, sub formă absolută, avem:
qn 1 M e M e q1 qn 1 q1
q (2.45)
2 2
iar sub formă relativă denumită şi coeficient de variaţie interquantilic este:
q q q
qr 100 n 1 1 100 (2.46)
Me 2 Me
Cu cât abaterea interquantilică (relativă sau absolută) este mai mică, cu atât valoarea mediană
este mai reprezentativă.
42
2.4. Parametrii concentrării
Energia informaţională
Acest parametru a fost introdus de Acad. Octav Onicescu. Prin definiţie:
R
E fi 2
i 1
unde s-a notat cu E energia informaţională. Este un parametru utilizat în cazul în care seria are la
bază o variantă nenumerică.
În cazul unei populaţii caracterizată de un grad de concentrare maxim, va exista o clasă
care va avea frecvenţa relativă egală cu 1, iar celelalte vor avea frecvenţele relative 0 şi ca
urmare: Emax = 1.
Dacă populaţia este caracterizată de o concentrare minimă, atunci:
x x2 ... xR
X : 1
1 / R 1 / R ... 1 / R
iar
1 1
Emin R 2
R R
Se observă că:
1
E 1
R
Forma relativă a acestui parametru, notată cu Er, se deduce astfel:
R
1 2 1
E
R
f
i 1
i
R
Er
1 1
1 1
R R
de unde:
0 Er 1
Referitor la populaţia dată, studiată în raport cu o variabilă X, se calculează Er, iar dacă:
- Er se apropie de 1, atunci populaţia respectivă este caracterizată de un grad înalt de
concentrare;
- Er se apropie de 0, populaţia în cauză se caracterizează printr-o concentrare minimă.
3
M XX
3
(2.47)
X3
sau într-o formă echivalentă:
3
M XX
3
2 3
M X X
Calculând valoarea acestui parametru, în funcţie de semnul ei, avem următoarele cazuri:
3
1. α 3 = 0, ceea ce înseamnă că M X X = 0, adică suma tuturor abaterilor cu semnul minus
este egală cu suma tuturor abaterilor cu semnul plus, ridicate la puterea a treia. Ca urmare în
acest caz se poate spune că seria este simetrică.
3
2. α 3 > 0, ceea ce înseamnă că M X X > 0. Aceasta este echivalent cu faptul că pe total
suma abaterilor cu semnul plus de la valoarea medie este mai mare decât suma abaterilor cu
semnul minus şi ca urmare seria prezintă o asimetrie pozitivă.
3
3. α 3 < 0, deci M X X < 0. Aceasta înseamnă că pe total, suma abaterilor cu semnul minus
este mai mare decât suma abaterilor cu semnul plus de la valoarea medie. O astfel de serie se
spune că reprezintă o asimetrie negativă.
44
2.5.2. Parametrii boltirii
Aprecierea boltirii unei serii este utilă în caracterizarea gradului de reprezentativitate a valorii
medii cât şi pentru compararea reprezentativităţii a două sau mai multe valori medii ce reprezintă
serii diferite.
4
Parametrul M X X dă o caracterizare numerică sub formă absolută a gradului de boltire a
unei serii. Sub formă relativă, gradul de boltire se măsoară cu parametrul:
B4
M X X
4
(2.48)
X4
Pentru a înţelege semnificaţia boltirii unei serii, se consideră două serii statistice care au la bază
variabilele X şi Y, iar
X Y; X Y
Mai presupunem, în plus, că cele două distribuţii au formă de clopot pentru care α 3X = α 3Y ,
adică ambele sunt simetrice. Deşi s-ar părea că cele două serii nu au nimic care să le
deosebească, totuşi reprezentându-le grafic rezultă două curbe de forma:
X Y X Y
unde graficul lui X este mai înalt, iar al celeilalte mai plat. Ca urmate, se observă că cele două
serii nu sunt caracterizate de aceeaşi boltire.
Boltirea unei serii este utilă pentru a da o caracetrizare mai exactă reprezentativităţii valorii
medii.
În cazul exemplului prezentat mai sus, atât mediile cât şi abaterile medii pătratice sunt egale şi ca
urmare, coeficientul de variaţie al lui Pearson este acelaşi pentru cele două serii. Deci rezultă că
ambele valori medii prezintă acelaşi grad de reprezentativitate. Cu toate acestea, graficele celor
două serii contrazic concluzia dedusă în urma comparării celor doi coeficienţi de variaţie.
Valoarea medie cea mai reprezentativă în seria în care cele mai multe unităţi ale populaţiei
cercetate au înregistrat valori, mai apropiate de valoarea medie. Pentru o astfel de serie,
45
împrăştierea faţă de valoarea medie fiind mică, graficul are o formă mai ascuţită în cazul seriei X
şi mai plată în cazul seriei Y.
Nivelul boltirii pentru o serie oarecare dată se măsoară cu ajutorul parametrului B4, a cărui
expresie de calcul este dată de relaţia (2.48). Valoarea lui B4 pentru o distribuţie normală este
egală cu 3. Pentru orice altă curbă corespunzătoare unei serii date şi aproximată cu un clopot,
raportul între momentul centrat de ordinul patru şi pătratul momentului centrat de ordinul al
doilea, este un număr diferit de 3, curba respectivă fiind mai ascuţită sau mai plată decât curba
normală a lui Gauss.
Comparând gradul de boltire al unei serii oarecare şi gradul de boltire al clopotului lui Gauss,
Fisher a stabilit următoarea expresie de calcul al coeficientului boltirii, notat cu B4’:
'
B
M X X
4
Teme de control
Această parte se referă la proiectul pe care studentii trebuie să îl facă pentru această
disciplină. Este vorba de alegerea unei teme statistice si realizarea proiectului prin utilizarea
cunostintelor acumulate în cadrul acestei parti, folosind repartitiile clasice .
Bibliografie:
1. Buiga, A., Metodologie de sondaj şi analiza datelor în studiile de piaţă, Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2001;
2. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A., Statistică I, Ed. Presa Universitară
Clujeană, Cluj-Napoca, 2003;
3. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Ed. Continental,
Cluj-Napoca, 1998
46
MODULUL 3
Obiective
Însuşirea conceptelor de corelaţie si regresie si utilizarea lor în economie
Cunoaşterea posibilităţilor de cuantificare a intensităţii legăturii dintre diversele mărimi
economice
Însuşirea metodelor de stabilire a unei legături funcţionale între variabile
Concepte de bază
Corelaţia dintre variabile, coeficienţi de asociere, coeficient de corelaţie
Corelaţia rangurilor, coeficienţii lui Kendall si Spearman
Metoda celor mai mici pătrate, regresia liniară simplă
Regresia liniară multiplă, regresii neliniare: hiperbolică, parabolică, exponenţială
Rezultate aşteptate
După parcurgerea acestui modul se cere studentului să stăpânească noţiunile de corelaţie şi regresie, să
poată identifica existenţa unei eventuale legături între două mărimi. De asemenea să ştie măsura
intensitatea legăturii dintre variabile, fie ele cantitative sau calitative. Se urmăreşte şi cunoaşterea
metodelor de modelare funcţională a legăturilor.
Sinteza
Ne propunem abordarea unor metode statistice caracteristice studiului seriilor multidimensionale.
Scopul acestora este de a identifica şi utiliza eventualele legături care se pot manifesta între două sau mai
multe variabile. Prezinta interes: existenţa legăturii, intensitatea acesteia, forma funcţională a legăturii,
parametrii şi reprezentativitatea ei privind fenomenul cercetat. Problematica legăturilor dintre variabile
este foarte curent întâlnită în economie. Spunem că salariul unui angajat este în funcţie de productivitatea
muncii sale, vechimea în muncă, responsabilitatea activităţii sale, etc ; sau cererea dintr-un produs este în
funcţie de preţul produsului, venitul consumatorilor, etc. De fiecare dată, atât în teoria economică, cât şi în
aplicaţii se întâlneşte expresia “fie funcţia cererii…”. În realitatea economică însă, această funcţie nu se
dă, nu se cunoaşte, ci trebuie estimată pornind de la o bază de date. Această problemă de estimare a unei
funcţii şi alte probleme colaterale ei fac obiectul acestui capitol.
47
Pentru a putea aborda studiul legăturilor dintre variabile trebuie să ştim în primul rând dacă există
sau nu o legătură între variabilele studiate (sau între fenomenele pe care acestea le reprezintă) şi care este
natura acestora. Putem clasifica legăturile dinte variabile astfel :
1. Legătura nulă. Semnifică lipsa oricărei legături între două sau mai multe fenomene sau
variabile care cuantifică fenomenele. De exemplu, o legătură nulă se manifestă între înălţimea unui
angajat şi salariul acestuia sau între produsul intern brut al unei ţări şi vârsta primului ministru. Din punct
de vedere statistic, spunem că între două variabile X şi Y există o legătură nulă, sau nu există legătură,
dacă cov( x, y ) 0 .
3. Legătura statistică. Se mai numeşte şi stocastică sau probabilistă. Este tipul de legătură cel
mai des întâlnită în ştiinţele sociale, deci şi în economie. Fiecărei valori xi a variabilei X îi corespunde o
distribuţie de valori ale variabilei Y. Matematic, o astfel de legătură se exprimă sub forma y f (x ) ,
unde am notat prin componenta aleatoare reziduală, datorată acţiunii asupra lui Y a celorlalţi factori
decât X. Deşi s-ar putea spune că prin luarea în considerare a tuturor factorilor care influenţează variabila
Y, legătura este intrinsec deterministă, în ştiinţele economice vom întâlni aproape întotdeauna un număr
foarte mare de factori, care nu pot fi identificaţi şi cuantificaţi în totalitatea lor. Asfel, funcţia care îl
explicitează pe Y are două componente: una determnistă, f ( x1 , x2 ,..., xn ) , cuprinzând variabilele
cuantificabile de care depinde Y, şi una aleatoare, , cuprinzând variabilele ce nu au putut fi cuantificate.
Sudiul legăturilor dintre variabile s-a dezvoltat într-o disciplină aparte, numită
econometrie. În capitolul de faţă nu ne propunem deci decât o introducere în această
problematică, fără a aborda elemente de inferenţă statistică specifice acestor legături. În cele ce
urmează vom prezenta câteva aspecte legate de variabile şi fenomenele reprezentate de acestea,
probleme atât de natura aparatului statistic utilizat, cât şi de aplicabilitatea lui în contextul
economic.
Analiza legăturii dintre variabilele unei repartiţii multidimensionale presupune abordarea
următoarelor probleme, care se pot constitui şi în etape ce trebuie parcurse în demersul statistic
necesar:
1. Organizarea rezultatelor observării populaţiei sau eşantionului în raport cu variabilele
cercetate
2. Analiza statistică a existenţei legăturii
3. Analiza statistică a intensităţii legăturii sau a gradului de asociere dintre variabilele
observate
4. Formularea unor ipoteze cu privire la forma matematică a legăturii
5. Estimarea parametrilor funcţiei de regresie
6. Analiza reprezentativităţii funcţiei de regresie
Aceste etape pot fi parcurse integral sau parţial, în funcţie de natura variabilelor. Pentru
variabilele calitative nu vor fi parcurse (în statistica descriptivă) decât primele trei, deoarece
posibilităţile de prelucrare sunt mai reduse. În schimb, toate cele şase etape pot fi parcurse în
cazul variabilelor cantitative.
48
3.1. Organizarea rezultatelor observării populaţiei sau eşantionului în raport cu variabilele
cercetate
În studiul analizei existenţei legăturii vom folosi atât elemente de statistică deja abordate
în capitolele anterioare, cum ar fi tabelele şi graficele, cât şi parametri (coeficienţi) specifici
acestui capitol. Deoarece prezintă particularităţi distincte, vom aborda separat problematica
subcapitolului în funcţie de tipul variabilelor.
Aşa cum s-a văzut în capitolul anterior, dacă dispunem de o repartiţie bidimensională,
putem descompune varianţa totală a variabilei de explicat Y ca sumă a varianţelor datorate
variabilei explicative X şi respectiv celorlalţi factori, adică:
Y2 Y2 / X Y2 / X
Dacă nu există legătură, adică X nu are nici o influenţă asupra lui Y, mediile condiţionate Y / X
vor fi identice, iar dispersia lor va fi nulă: Y2 / X 0 .
Putem reţine deci ca regulă de decizie în statistica descriptivă:
1) Dacă Y2 / X 0 nu există legătură între variabile
2) Dacă Y2 / X 0 există legătură între variabile
3.3. Analiza statistică a intensităţii legăturii sau a gradului de asociere dintre variabilele
observate
50
Coeficientul de corelaţie a rangurilor al lui Spearman
Raportul de corelaţie
Folosind regula de adunare a varianţelor descompunem varianţa totală a variabilei de explicat
Y ca sumă a varianţelor datorate variabilei explicative X şi respectiv celorlalţi factori, adică:
Y2 Y2 / X Y2 / X
Varianţa explicită Y2 / X este cu atât mai mare cu cât mediile condiţionate Y / X sunt mai
diferite între ele. Ceea ce le face să difere este numai influenţa lui X, deoarece am împărţit
populaţia în grupe având ca unic criteriu valorile lui X. Este firesc deci să folosim varianţa
explicită ca o mărime absolută a intensităţii legăturii dintre X şi Y şi ponderea varianţei
explicite în varianţa totală ca o mărime relativă. Raportul de corelaţie are expresia:
Vexp V
RYX 1 rez
Vtot Vtot
sau sub forma ei matematică:
Y2 / X Y2 / X
RYX 1
Y2 Y2
Pentru a-i găsi limitele ne raportăm la cele două situaţii extreme:
- dacă nu există legătură între X şi Y, mediile condiţionate Y / X sunt egale între ele,
deci Y2 / X 0 şi RYX 0
- dacă legătura este de intensitate maximă, nu există influenţe ale altor factori decât X
asupra lui Y, nu există variaţie în cadrul grupelor, deci Y2 / X 0 şi RYX 1 .
În consecinţă, raportul de corelaţie aparţine intervalului RYX [0 ; 1] . Interpretarea intensităţii
legăturii pe baza acestui coeficient se va face astfel:
- dacă RYX 0 legătura este nulă
- dacă RYX [0 ; 0,3) legătura este de intensitate slabă
- dacă RYX [0,3 ; 0,7) legătura este de intensitate medie
- dacă RYX [0,7 ; 1] legătura este de intensitate puternică.
Dacă între două variabile (ambele cantitative !) se constată existenţa unei legături de o anumită
intensitate, ne punem problema posibilităţii modelării legăturii printr-un model matematic. O primă etapă
51
în acest demers este formularea unei ipoteze cât mai verosimile cu privire la forma legăturii. În acest
scop, pe baza tabelului de corelaţie construim norul statistic şi linia poligonală a mediilor condiţionate ale
variabilei dependente.
Y / x4
Y / x3
Y / x2
Y / x1
x1 x2 x3 x4
Y f ( X 1 , X 2 ,..., X n )
unde f ( X 1 , X 2 ,..., X n ) reprezintă funcţia de regresie care aproximează cel mai bine forma
legăturii, iar o variabilă aleatoare numită reziduală, care însumează efectul altor factori
decât cei luaţi în calcul.
52
M Y Y ( X 1 , X 2 ,..., X n ) M ( 2 ) minimă
2
Regresia liniară
În ipoteza în care legătura dintre Y şi factorii săi de influenţă X 1 , X 2 ,..., X n este liniară,
ecuaţia de regresie va fi de forma:
Y ( X 1 , X 2 ,..., X n ) a0 a1 X 1 a 2 X 2 a n X n
Condiţiile de minim constau în anularea celor (n+1) derivate parţiale ale funcţiei
G ( a0 , a1 ,.., a n ) în raport cu necunoscutele a0 , a1 ,..., a n , ceea ce conduce la următorul sistem de
ecuaţii:
G (a0 , a1 ,..., a n )
2 M Y (a0 a1 X 1 ... a n X n ) 0
a0
G (a0 , a1 ,..., a n ) 2 M Y (a0 a1 X 1 ... a n X n ) X j 0
a j
j 1, n
sau într-o formă echivalentă:
M a0 a1 X 1 ... a n X n M (Y )
j 1, n
M a0 a1 X 1 ... a n X n X n M (Y ) X j
de unde rezultă:
Prin rezolvarea acestui sistem liniar de ecuaţii în raport cu necunoscutele a0 , a1 ,..., a n , se obţin
valorile parametrilor ecuaţiei de regresie. Astfel, legătura statistică dintre Y şi X 1 , X 2 ,..., X n
53
este modelată prin aproximare cu o legătură funcţională. Pentru cazul cu doi factori X 1 şi X 2 ,
ecuaţia de regresie se scrie:
Y ( X 1 , X 2 ) a0 a1 X 1 a 2 X 2
iar sistemul de ecuaţii devine:
a0 a1 M ( X 1 ) a 2 M ( X 2 ) M (Y )
2
a0 M ( X 1 ) a1M ( X 1 ) a 2 M ( X 1 X 2 ) M (YX 1 )
2
a0 M ( X 2 ) a1M ( X 1 X 2 ) a2 M ( X 2 ) M (YX 2 )
Prin substituţia lui a 0 din prima ecuaţie şi înlocuirea lui în celelalte, obţinem:
a1 M ( X12 ) [M ( X1 )]2 a2 M ( X1 X 2 ) M ( X1 )M ( X 2 ) M (YX1) M (Y )M ( X1 )
a1M ( X1 X 2 ) M ( X1 )M ( X 2 ) a2 M ( X 22 ) [M ( X 2 )]2 M (YX2 ) M (Y )M ( X 2 )
mij M [ X i M ( X i )] [ X j M ( X j )] M ( X i X j ) M ( X i )M ( X j )
54
m11 m12 m m12
Y ( X 1 , X 2 ) M (Y ) 10 X 1 M ( X 1 )
m21 m22 m20 m22
m10 m11
X 2 M ( X 2 ) 0
m20 m21
(3 )
M 00 Y ( X 1 , X 2 ) M (Y ) M 01(3) X 1 M ( X 1 ) M 02(3) X 2 M ( X 2 ) 0
Pentru cazul mai general al legăturii liniare dintre Y şi X 1 , X 2 ,..., X n , matricea de variaţie şi
covariaţie este:
Matricea de variaţie şi covariaţie M ( n1) este simetrică în raport cu prima diagonală. Elementele
mii de pe diagonala principală sunt varianţele variabilelor Y , X 1 , X 2 ,..., X n , iar elementele
mij , i j reprezintă covarianţele dintre variabilele corespunzătoare.
55
m11 Y ( X ) M (Y ) m10 X 1 M ( X 1 ) 0
m10 m
Y (X ) X 1 M (Y ) 10 M ( X 1 )
m11 m11
de unde rezultă coeficienţii:
m10
a 0 M (Y ) M ( X1)
m11
m10
a1 X1
m11
Regresia parabolică
În economie sunt numeroase exemplele în care legătura dintre fenomene şi deci
variabilele care le cuantifică nu este liniară. Dacă Y reprezintă recolta la hectar dintr-un
produs agricol, iar X cantitatea de îngrăşăminte, ne vom da seama chiar şi intuitiv că o
anumită creştere a lui X nu provoacă aceeaşi creştere a lui Y pe tot intervalul de variaţie al
celor două variabile. La valori mari ale cantităţii de îngrăşăminte, acestea provoacă saturaţie
sau chiar nocivitate, ducând la o stagnare, respectiv diminuare a producţiei. Alte exemple pot
fi: legătura dintre vechimea în muncă şi mărimea salariului, dintre cheltuielile cu publicitatea
şi volumul vânzărilor, etc.
Determinarea parametrilor funcţiei parabolice de regresie se poate face fie aplicând
direct funcţiei metoda patratelor minime, fie prin reducerea la cazul liniar prezentat anterior.
În ambele cazuri vom exemplifica pentru parabola de ordinul doi.
Y ( X ) a0 a1 X a 2 X 2
Din condiţia de minimizare a expresiei:
G (a0 , a1 , a2 ) M Y Y ( X )
2
56
G (a0 , a1 , a 2 )
0
a 0
G (a0 , a1 , a 2 )
0
a1
G (a0 , a1 , a 2 )
0
a 2
2 M Y (a0 a1 X a 2 X 2 ) 0
2
2 M Y (a0 a1 X a 2 X ) X 0
2
2 M Y (a0 a1 X a 2 X ) X 0
2
a0 a1M ( X ) a2 M ( X 2 ) M (Y )
2 3
a0 M ( X ) a1M ( X ) a 2 M ( X ) M (YX )
2 3 4 2
a0 M ( X ) a1M ( X ) a 2 M ( X ) M (YX )
Y ( X ) a0 a1 X a2 X 2
facem substituţiile:
X X1
X 2 X2
57
Y ( X 1 , X 2 ) a0 a1 X 1 a 2 X 2
care reprezintă un model liniar cu doi factori. Elementele matricei de variaţie şi covariaţie vor
arăta astfel:
m00 M (Y 2 ) ( M (Y )) 2 Y2
m01 m10 M (YX ) M (Y ) M ( X ) cov(Y , X )
m11 M ( X 2 ) ( M ( X )) 2 X2
m12 M ( X 3 ) M ( X ) M ( X 2 ) cov( X , X 2 )
m22 M ( X 4 ) (M ( X 2 )) 2 X2 2
Problema regresiei neliniare pentru cazul unei parabole de gradul doi se reduce astfel la o
problemă de regresie liniară, care se rezolvă conform cazului liniar. În cazul mai general, dacă
ecuaţia de regresie este un polinom de gradul n:
Y ( X ) a0 a1 X a 2 X 2 ... an X n
efectuând substituţiile:
X X 1 ; X 2 X 2 ; ... ; X n X n
Regresia exponenţială
Y (X ) a b X
se încearcă aducerea la forma liniară. Mai întâi se logaritmează ecuaţia:
lg Y ( X ) lg a X lg b
58
iar apoi se fac substitiţiile:
Z ( X ) lg Y ( X )
a0 lg a
a1 lg b
Z ( X ) a0 a1 X
Regresia hiperbolică
1
Y (X ) a b
X
se face substituţia:
1
X1
X
Y ( X 1 ) a bX 1
m00 M (Y 2 ) ( M (Y )) 2 Y2
1 1 1
m01 m10 M Y M (Y ) M cov Y ,
X X X
2
1 1 2
m11 M 2 M 1 / X
X X
59
Alte tipuri de regresie
În practica economică se întâlnesc frecvent şi alte tipuri de funcţii (unele chiar funcţii
compuse). Principiul de lucru pentru estimarea parametrilor va rămâne însă întotdeauna
acelaşi: încercarea de a aduce funcţia la o formă liniară.
Foarte des întâlnite sunt funcţiile de producţie. Forma generală a acestora este:
Y ( X 1 , X 2 ,..., X n ) a X 1m1 X 2m2 ... X nmn
Printr-o astfel de funcţie se defineşte o legătură între nivelul producţiei Y şi factorii de care
aceasta depinde: productivitatea muncii, calificarea forţei de muncă, gradul de înzestrare cu
capital fix, etc. Determinarea parametrilor se face prin reducere la cazul liniar prin
logaritmare:
lg Y ( X 1 , X 2 ,..., X n ) lg a m1 lg X 1 ... m n lg X n
Z ( X 1 , X 2 ,..., X n ) lg Y ( X 1 , X 2 ,..., X n )
X i ' lg X i , i 1, n
Coeficientul de corelaţie
Construcţia lui este similară cu a raportului de corelaţie, cu deosebirea că varianţa în fiecare grupă
este calculată folosind suma patratelor abaterilor faţă de valorile ajustate prin funcţia de regresie şi nu faţă
de media grupei. Ca urmare, coeficientul de corelaţie va fi specific fiecărei funcţii în parte. Expresia lui
de calcul (admisă aici fără demonstraţie) este:
det M
rYX 1
m00 M 00
rYX [0 ; 1]
Interpretarea acestui coeficient în funcţie de valorile pe care le poate lua este următoarea:
- dacă rYX [0 ; 0,3] funcţia nu este reprezentativă pentru modelarea legăturii dintre variabile
60
- dacă rYX (0,3 ; 0,7] funcţia are o reprezentativitate medie pentru modelarea legăturii dintre
variabile
- dacă rYX (0,7 ; 1] funcţia este foarte reprezentativă pentru modelarea legăturii dintre
variabile
Aceste limite nu trebuie interpretate foarte rigid. Valorile coeficienţilor este bine să fie comparate cu ale
altor coeficienţi, ai altor funcţii. Pentru aceeaşi repartiţie de exemplu, pentru funcţiile de regresie alese ca
fiind posibilecalculăm coeficienţii de corelaţie şi îl reţinem pe cel mai mare, considerând acea funcţie ca
fiind cea mai reprezentativă.
În cazul regresiei liniare simple, formula coeficientului poate fi adusă la o formă echivalentă mai
simplă:
m00 m01
M ( 2)
m10 m11
Prin corelaţie simplă am studiat legătura liniară dintre doi factori neglijând influenţa celorlalţi
factori, care acţionează în acelaşi timp asupra variabilei endogene. În corelaţia multiplă am
măsurat influenţa simultană a două sau mai multe variabile exogene asupra celei endogene. Ne
punem însă problema de a măsura influenţa unei variabile independente asupra celei dependente,
presupunând celelalte variabile la un nivel constant.
Fără a recurge la demonstraţii, vom da modul de calcul al coeficienţilor de corelaţie parţială
pentru două cazuri:
a) Cazul unei variabile dependente Y şi două variabile independente X1 şi X2:
- corelaţia dintre Y şi X1, neglijând influenţa lui X2:
rYX1 rYX 2 rX 1 X 2
rYX1 X 2
1 r 1 r
2
YX 2
2
X1X 2
Problema 1
X [ 30 ; 50 ] ( 50 ; 70 ] ( 70 ; 90 ] Total
( 600 ; 800 ] 2 7 8 17
( 400 ; 600 ] 3 10 5 18
[ 200 ; 400 ] 14 2 1 17
Total 19 19 14 52
Se cere:
1) Pe baza unui grafic adecvat să se emită ipoteze privind forma posibilă a funcţiei de regresie.
2) În ipoteza unei forme liniare a dependenţei dintre Y şi X, să se calculeze parametrii funcţiei de
regresie.
3) Să se studieze reprezentativitatea funcţiei de regresie pentru modelarea legăturii dintre cele două
variabile.
4) Care este valoarea medie a volumului vânzărilor pentru un nivel al cheltuielilor cu publicitatea de
55 milioane lei ?
5) Aceleaşi cerinţe de la punctele 2, 3 şi 4 pentru o formă parabolică a dependenţei dintre Y şi X.
62
Problema 2
Un produs a fost lansat simultan pe 13 pieţe. Pe aceste pieţe, produsul a fost propus la preţuri
diferite (P), veniturile consumatorilor (V) fiind şi ele diferite. Pentru fiecare piată s-a înregistrat
un anumit nivel al cererii (C), rezultatele fiind sintetizate în tabelul următor:
Se cere:
1) Să se formuleze ipoteze cu privire la forma legăturii dintre cerere (C) şi preţ (P). Pentru
formele funcţiilor de regresie reţinute ca fiind posibile, să se calculeze parametrii funcţiilor şi
reprezentativitatea acestora.
2) Similar pentru legătura dintre cerere şi venit.
3) Să se calculeze parametrii funcţiei care modelează legătura liniară multiplă dintre cerere şi
factorii săi e influenţă. Analizaţi reprezentativitatea acestei funcţii în raport cu reprezentativitatea
funcţiilor de regresie simple. Care va fi valoarea estimată a cererii pe o piaţă unde preţul de
vânzare va fi 3,2 iar venitul mediu al consumatorilor de 550 ?
63
Bibliografie
64
MODULUL 4
ANALIZA SI PREVIZIUNEA SERIILOR DE TIMP
Obiective
Intelegerea si aplicarea metodelor de calcul a indicilor factoriali in analiza dinamicii indicatorilor
economici;
Cuantificarea dinamicii medii a unui indicator;
Cunoasterea si utilizarea metodelor cantitative de previziune. Metoda clasica de descompunere a
unei serii de timp.
Concepte de baza
Indice al variatiei integrale, indice factorial, indice al pretului;
Nivel mediu al unei serii de timp, indice mediu, ritm mediu, diferenta medie absoluta;
Serie de timp, model dinamic, functii de tendinta, coeficientii sezonalitatii, ciclicitate
Medii mobile, previziune, erori de previziune, netezire exponentiala.
Rezultate asteptate
Studentul intelege notiunile de indice factorial, nivel mediu, indice mediu, ritm mediu si stapaneste
modalitatile de calcul a acestora. Utilizeaza metode cantitative in previziune; in acest sens, identifica
componentele prezente intr-o serie de timp, modeleaza si extrapoleaza tendinta, utilizeaza adecvat o
medie mobila, modeleaza componenta sezoniera si ciclica, utilizeaza metoda netezirii exponentiale in
netezire si previziune.
Sinteza
Dintre exprimările sub formă relativă un loc deosebit de important îl ocupă indicele statistic. În
practică variaţia totală a variabilei Z este datorată variaţiei unor alte variabile a căror evoluţie între două
stări j şi k influenţează evoluţia lui Z. Avem de a face, aşadar, cu Z de forma Z f ( X 1 , X 2 , , X m ) .
Un astfel de model este un model de tip determinist în care cei m factori determină în totalitate nivelul
lui Z . In cazul unui astfel de model se pot distinge trei categorii de indici:
65
Z (k ) f X 1 (k ), X 2 (k ),, X m (k )
I Zk / j
Z ( j ) f X 1 ( j ), X 2 ( j ), , X m ( j )
3) indici ai variaţiei partiale ale lui Z sau indici factoriali: I Zk // Xj i - ne arată de câte ori s-a modificat
Z în starea k faţă de starea j sub influenţa exclusivă a factorului X i .
Indicii factoriali de tip Laspeyres. Acest indice este cel mai cunoscut şi utilizat în practica
economică. Mai poartă şi denumirea de indicele preţurilor. Dacă se consideră un coş de r produse sau
r
bunuri, volumul valoric al acestora Z se va calcula după relaţia: Z pq i i . Indicele factorial al
i 1
r
r pi (k )
pi ( k ) q i ( j ) p ( j) p ( j) q ( j)
i 1
i i
I Zk // pj (L ) i 1
r
i
r
pi ( j )qi ( j )
i 1
p ( j )q ( j )
i 1
i i
k/ j
p ( j )q (k )
i 1
i i
I Z /q ( L) r
p ( j )q ( j )
i 1
i i
unde p i ( j ) şi p i (k ) sunt preţurile din perioada de bază şi perioada curentă, q i ( j ) sunt cantităţile din
perioada de bază, iar k i măsoară importanţa1 produsului sau bunului i în coşul indicelui la momentul
bază de comparaţie.
Pentru cazul general, când Z depinde de m factori de influenţă, iar forma funcţiei f este
oarecare, Florea (1986) deduce o regulă pentru elaborarea indicilor factoriali de tip „Laspeyres”.
Indicii factoriali de tip Paasche. Acest indice a apărut tot ca un indice al preţurilor, indicele factorial
de preţ de tip Paasche avand expresia:
r
k/ j
p (k )q (k )
i 1
i i
I Z/p (P) r
,
p ( j )q ( k )
i 1
i i
66
iar cel factorial al cantităţilor (volumului fizic), expresia:
r
k/ j
p ( k )q ( k )
i 1
i i
I Z /q ( P) r
p (k )q ( j )
i 1
i i
I Zk // pj ( F ) I Zk // pj (L) I Zk // pj (P)
I Zk // qj ( F ) I Zk // qj ( L) I Zk // qj ( P)
Indicii factoriali generaţi prin Metoda Drumului Factorilor (MDF). Indicele factorial al unei
variabile Z f X 1 , , X m , în raport cu factorul X i , obţinut prin MDF este dat de relaţia (Florea,
1989):
f ' X i X 1 , , X m
I Zk // Xj i exp dX i
Pj ,Pk f X 1 , , X m
unde P , P
j k reprezintă porţiunea arcului din drumul factorilor cuprins între punctele
Pj X 1 ( j ),, X m ( j ) şi Pj X 1 (k ),, X m (k ) , acest drum fiind descris de ecuaţiile parametrice
X 1 X 1 ( ), , X m X m ( ) , fiind în general un parametru legat de timp.
Luna j Luna k
Single 80 30 110 35
Double 50 40 60 40
Apartament 20 50 25 45
Volumul valoric al încasărilor din închirierea camerelor (Z) se va calcula după relaţia:
3
Z X iYi . Indicii factoriali de tip Laspeyres vor fi:
i 1
67
3
k/ j
X
i 1
i (k )Yi ( j )
110 30 60 40 25 50
I Z/X (L) 3
1,287 volumul valoric al încasărilor a
80 30 50 40 20 50
X
i 1
i ( j )Yi ( j )
crescut în luna k faţă de luna j de 1,287 ori sub influenţa modificării numărului de camere închiriate.
3
X i ( j )Yi ( k )
80 35 50 40 20 45
I Zk // Xj ( L) i 1
3
1,055 volumul valoric al încasărilor a
80 30 50 40 20 50
X
i 1
i ( j )Yi ( j )
crescut în luna k faţă de luna j de 1,055 ori sub influenţa modificării tarifului practicat.
2. Se consideră mărimea Z ca fiind profitul brut al unei societăţi şi factorii X - veniturile totale
respectiv Y - cheltuielile totale ale aceleaşi societăţi. Modelul care leagă cele trei mărimi va fi de forma:
Z X Y . In doi ani consecutivi variabilele X şi Y au înregistrat valorile:
Anul
Variabila t 1 t
X (mld lei) 10 12
Y (mld. Lei) 8 9
X (t ) Y (t 1) 12 8
- I Zt //t X1 (L ) 2 profitul brut a crescut în anul t faţă de anul
X (t 1) Y (t 1) 10 8
t 1 de 2 ori sub influenţa modificării veniturilor totale;
t / t 1 X (t 1) Y (t ) 10 9
- I Z / Y ( L) 0,5 profitul brut a scăzut în anul t faţă de anul
X (t 1) Y (t 1) 10 8
t 1 de 0,5 ori sub influenţa modificării cheltuielilor totale.
4.1.3. Indicii factoriali de tip Laspeyres, Paasche şi Fisher prin prisma abordării
axiomatice
Abordarea axiomatică se bazează pe stabilirea unor seturi de proprietăţi pe care un indice statistic
trebuie să le verifice (Buiga & all, 2003).
68
4.1.4. Principalii indici utilizaţi în economie
t/0
p (t )q (0)
i i n
p i (0) q i (0) p i (t ) n
I Z/p (L) i 1
n
n
k i (0) I tp/i 0
i 1 p i (0) i 1
pi (0)qi (0)
i 1
p (0)q (0)
i 1
i i
Ponderile k i (0) sunt obţinute prin Ancheta Integrată în Gospodării şi rezultă din
structura cheltuielilor medii lunare efectuate de o gospodărie pentru cumpărarea mărfurilor şi
plata serviciilor necesare satisfacerii nevoilor de trai; aceste ponderi se actualizează la intervale
de câţiva ani. Preţurile corespunzătoare celor n mărfuri şi servicii din coşul indicelui se culeg
lunar, în urma unei cercetări selective organizate de Institutul National de Statistică.
Indicii bursieri. Principalii indici bursieri se diferenţiază prin mai multe elemente: eşantionarea,
respectiv alegerea titlurilor din coşul indicelui, reprezentativitate, modul de calcul utilizat şi natura
variabilelor luate în calcul. Cei mai cunoscuţi şi urmăriţi indici bursieri, cu excepţia familiei de indici
Dow Jones se calculeaza ca si indici Laspeyres.
În derularea activităţii lor, frecvent agenţii economici sunt puşi în situaţia de a anticipa viitorul, iar
apoi de a lua decizii în consecinţă. Oamenii de afaceri sunt nevoiţi să previzioneze anual cifra de afaceri
şi alte elemente necesare întocmirii unui plan de afaceri, investitorii sunt interesaţi de profitul viitor
degajat de investiţie, respectiv guvernele de previziunea consumului sau a cheltuielilor guvernamentale
etc.. Obţinerea rapidă de previziuni utilizând modele cantitative de previziune este la îndemâna analiştilor,
urmare şi a softurile de statistică accesibile şi uşor de exploatat.
69
4.2.1. Indicatori medii specifici seriilor cronologice
a) Nivelul mediu (valoarea medie). Nivelul mediu reprezintă nivelul teoretic atins de indicator în
condiţiile în care evoluţia sa ar fi constantă în timp, factorii ce-i determină evoluţia ar acţiona cu aceeaşi
intensitate pe întreaga perioadă de timp analizată.
Modul de determinare a volumului fenomenului diferă după cum seria este de intervale respectiv de
momente.
y1 y 2 ... y n
Y
n
Pentru serii cronologice de momente nivelul mediu este definit de următoarea relaţie:
tn
y (t )dt
t1
Y tn
.
dt
t1
Daca se aproximează evoluţia indicatorului y(t ) ca fiind liniară între două momente consecutive de
timp, rezulta:
T1 T T2 T Tn1 T
y1 y2 1 ... y n1 n 2 y n n 1
Y 2 2 2 2
T1 T2 ... Tn 1
y1 y
y 2 .... y n 1 n
Y 2 2
n 1
yt I y yt 1 t , t 2, 3,..., n
70
Utilizând metoda celor mai mici pătrate pentru estimarea parametrului I y , se obţine următoarea expresie
de calcul a indicelui mediu:
y
t2
t 1 yt
Iy n
2
y
t 2
t 1
O alta expresie de calcul, adecvată pentru indicatori ce evoluează aproximativ exponenţial este
urmatoarea:
yn
I y n1
y1
y
t 2
t yt 1
t 2
t / t 1
y
y
n 1 n 1
sau echivalent:
y n y1
y .
n 1
O serie cronologică este o secvenţă de observaţii asupra unei variabile, ordonate după
parametrul timp. Frecvent, măsurătorile asupra variabilei sunt efectuate la intervale egale de timp, seria
cronologică fiind prezentată sub forma:
1 2 ... t ... n
Y :
y1 y 2 ... yt ... y n
71
În abordarea tradiţională, fluctuaţiile din seriile cronologice sunt privite ca o rezultantă a
suprapunerii următoarelor componente: tendinţa T, componenta ciclică C, sezonieră S respectiv reziduală
E. Primele trei componente sunt considerate deterministe, sistematice, determinate de factori cu acţiune
continuă asupra fenomenului, în timp ce componenta reziduală are caracter aleator fiind efectul acţiunii
unor factori imprevizibili, accidentali.
aditiv: Y T C S E sau
multiplicativ: Y T C S E respectiv
o combinaţie mixtă a componentelor seriei.
- previziunea evoluţiei fiecărei componente, iar apoi compunerea acestora în scopul obţinerii de
previziuni privind evoluţia fenomenului Y. Principiul de la baza acestei tehnici este “descompune
pentru a modela iar apoi recompune”.
Cele mai uzuale funcţii utilizate pentru modelarea tendinţei indicatorilor din economie sunt redate în
tabelul 1..
liniară t y/ t 1 yt yt 1
Tt a bt
parabolă T a bt cX (2)
y
t / t 1
t y/ t 1 ty1 / t 2
unde X t ²
Tt a bt ct 2
hiperbolă T a bX tty/ t 1 ty t (t 1) y t 1
1
Tt a b 1
t unde X
t
Tt a b t
72
Z t ln Tt ;
unde
A ln a; B ln b
putere Z A bX
Tt a t b unde
Z t ln Tt ;
A ln a; X ln t
logaritmică T a bX
Tt a b ln t unde X ln t
curba logistică
a
Tt ,
1 e bct
a, c 0
cronograma seriei iniţiale sau a valorilor netezite sugerează funcţiile candidate, numite şi linii
posibile de tendinţa;
cea mai adecvată funcţie pentru modelarea tendinţei poate fi considerată aceea pentru care se
2
realizează minimul sumei pătratelor reziduurilor min y
t
t Tt ;
este adecvată tendinţa liniară atunci când diferenţele absolute cu baza în lanţ t y/ t 1 y t yt 1
sunt aproximativ constante. De asemenea, precizări specifice în acest sens pentru parabolă,
exponenţială respectiv hiperbolă găsim în tabelul 1.
Tt a bt
se utilizează metoda celor mai mici pătrate, expresiile de calcul a parametrilor a, b sunt deci următoarele:
n
(t t )( y
t 1
t Y)
b n
,
2
(t t )
t 1
a Y bt ,
sau echivalent
73
M (tY ) M (t ) M (Y )
b ,
M (t 2 ) [M (t )]2
a Y bt .
Seria prezintă o tendinţă de creştere atunci când b > 0 respectiv de descreştere dacă b < 0.
Cu excepţia curbei logistice, celelalte funcţii neliniare din tabelul1 pot fi aduse la o formă liniarizată
prin anumite substituţii, respectiv prin aplicarea operaţiei de logaritmare în cazul funcţiei exponenţiale şi
a funcţiei putere.
Indicele lunar al preţului producţiei industriale pentru piaţa internă, în perioada ianuarie 1999 – iunie
2000 baza de comparaţie 1996, a avut o tendinţă crescătoare:
Luna 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
(t)
Indice 3.7 3.8 4.1 4.3 4.5 4.8 4.9 5.1 5.3 5.5 5.6 5.8 6.0 6.2 6.3 6.5 6.6 7.0
(y t)
Cronograma seriei sugerează prezenţa unei tendinţe liniare, peste care se suprapune o componentă
aleatoare de amplitudine redusă:
yt a bt t , t 1, 2,...,18.
M (tY ) M (t ) M (Y )
b
M (t 2 ) M (t )
2
a M (Y ) bM (t ).
74
Exemplificăm din calculele intermediare:
1 2 18
M (t ) 9 .5
18
12 2 2 18 2
M (t 2 ) 117,2
18
rezultând
Tt 3.55 0.19t ,
În general, este adecvat un model aditiv atunci când amplitudinea oscilaţiilor este aproximativ
constantă respectiv multiplicativ dacă amplitudinea creşte sau scade în timp. Frecvent în practică este
mai adecvat modelul multiplicativ.
Perioada componentei sezoniere, notată cu p, reprezintă numărul unităţilor de timp din cadrul
unui ciclu sezonier. Majoritatea seriilor sezoniere din domeniul economic au durata unui ciclu de un an, p
fiind egal cu 4 în cazul datelor trimestriale respectiv 12 în cazul datelor lunare. Prin extensie pot fi
studiate şi fenomene cu durata unui ciclu mai mică de un an.
75
4.2.4.2. Mediile mobile
Pentru eliminarea componentei sezoniere (desezonalizarea seriei) se aplică datelor o medie mobilă de
ordin p egal cu perioada componentei sezoniere.
Mediile mobile de ordin p, notate în continuare MM(p), sunt definite de următoare relaţii:
desezonalizarea seriei iar apoi estimarea tendinţei pornind de la valorile desezonalizate (vezi
4.2.3.);
modelarea tendinţei pornind de la mediile anuale.
yij TC ij S j ij
metoda se întâlneşte în literatură şi sub denumire de metoda raportării la mediile mobile şi constă în
următoarele:
aceasta justificându-se prin necesitatea eliminării efectului aleator din S ij . Pentru a nu fi afectaţi
de valorile extreme, uneori înainte de calculul mediei, aceste valori se elimină, sau în loc de
medie se ia valoarea mediană a estimaţiilor S ij ;
determinarea componentei sezoniere S j , etapă ce constă într-o corecţie adusă indicilor medii I j
astfel încât media lor să fie 1:
1 p
S j I j / I i j 1, 2,..., p .
p i 1
yij TC ij S ij ij
Datele privind evoluţia trimestrială a producţiei de bere din ţara noastră (zeci mii hl) în perioada
1996-2001 sunt indicate mai jos
An/Trim. I II III IV
77
Figura 2. -- -- Producţia de bere; -- -- MM(4); ---- Tendinţa
0.5 y1 y2 y3 y4 0.5 y5
y3
4
0.5 124.1 263.2 252.4 124.5 0.5 130.1
191.8
4
0.5 y2 y3 y 4 y5 0.5 y6
y4
4
0.5 263.2 252.4 124.5 130.1 0.5 280.2
194.7
4
Datele observate au fost numerotate aici în ordine cronologică y1, y2, ..., y24.
t MM(4) t MM(4)
1 - 13 261.7
2 - 14 259.4
3 191.8 15 258.3
78
4 194.7 16 267.7
5 197.8 17 284.5
6 202.2 18 299.7
7 208.9 19 309.8
8 214.9 20 310.2
9 229.2 21 308.4
10 245.0 22 306.0
11 250.8 23 -
12 257.1 24 -
Seria mediilor mobile prezentată grafic relevă o uşoară tendinţă de creştere a producţiei de bere.
Vom considera tendinţa liniară:
Tt a bt t ,
originea de măsurare a timpului trimestrul II al anului 1996, unitatea de măsură un trimestru. Astfel,
pentru trimestrul III 1996 avem t = 1 ş.a.m.d:
t 1 2 3 ... 19 20
M (tZ ) M (t )M ( Z )
b ,
M (t 2 ) M (t )
2
a M ( Z ) bM (t ).
Calcule intermediare:
Tendinţa producţiei de bere în perioada ianuarie 1996 – iunie 2000 este estimată prin:
Tt 180.44 6.9 t .
79
Cum amplitudinea oscilaţiilor creşte uşor în timp, cronograma seriei sugerează luarea în considerare a
unui model multiplicativ:
Datele sunt disponibile pentru 6 ani şi sunt prezente aici 4 sezoane. Ţinând seama de notaţiile
specifice, yij reprezintă nivelul producţiei de bere în anul i trimestrul j. Astfel, spre exemplu
y13 y1996; III 252.4 sau y34 y1998;IV 185.0 . Mediile mobile din tabelul anterior vor fi transpuse
într-un tabel analog cu cel de prezentare a datelor observate:
An/Trim. I II III IV
yij
Rapoartele S ij 100 , respectiv mediile acestora pentru fiecare sezon sunt indicate în tabelul
yij
urmator
80
Sj 65.6 131.4 134.0 68.8 Media 100
y 21 130.1
S 21 100 100 65.8 , ş.a.m.d.
y 21 197.8
Cum era de aşteptat, aceste rapoarte între datele observate şi mediile mobile sunt mai mici decât 1 pentru
trimestrele I şi IV, când nivelul producţiei a fost sistematic mai mic (sub tendinţă).
S 21 S 31 S 41 S 51
I1 65.5, I 2 130.9,
4
S13 S 23 S 33 S 43
I3 133.5, I 4 68.4.
4
Valoarea medie a acestor indici este 99.6, astfel că este necesară o corecţie astfel încât media să
fie 100:
I1 65.5
S1 100 100 65.6, S 2 131.4, S 3 134.0, S 4 68.8 .
99.6 99.6
Urmare a caracterului sezonier specific producţiei de bere, în trimestrul I producţia a fost mai
mică în medie cu 34.4% decât valorile corespunzătoare de pe tendinţă. În trimestrul II producţia a fost în
medie mai mare de 1.314 ori decât valorile de pe tendinţă. Analog se interpretează S3 şi S4.
Pentru separarea componentei ciclice se poate utiliza metoda comparării cu tendinţa. Spre exemplu
în cazul modelului multiplicativ:
Y T S C E ,
se estimează tendinţa printr-o funcţie elementară. Dacă seria prezintă sezonalitate se porneşte de
la datele desezonalizate sau de la mediile anuale;
se elimină componenta sezonieră din datele observate, iar apoi se utilizează medii mobile în
scopul eliminării şi a componentei aleatoare rezultând valorile netezite y t (astfel y t T C );
se calculează indicii de ciclicitate Ct prin raportare la tendinţă:
81
yt
Ct
Tt
b) Componenta aleatoare:
yij
ij în cazul modelului multiplicativ, respectiv
Tij C ij S j
Yˆ Tˆ Cˆ Sˆ respectiv Yˆ Tˆ Cˆ Sˆ .
1 p
- eroarea medie pătratică: MSE y h yˆ h 2
p h1
1 p
- eroarea medie absolută: MAE y h yˆ h
p h 1
1 p y h yˆ h
- eroarea medie absolută exprimată procentual: MAPE
p h1 yˆ h
Tabelul următor conţine previziunile, datele reale respectiv erorile de previziune privind nivelul
producţiei de bere.
82
2002 I 339.14 0.656 217.9 203.2 -14.7
Prezentăm modul de obţinere a rezultatelor anterioare pentru trim. III an 2001. Valorile tendinţei
respectiv a componentei sezoniere sunt:
T (21) = 180.44 + 6.9 21 = 325.34 respectiv S 3 = 1.34.
Modelul de descompunere considerat a fost cel multiplicativ, astfel că valoarea previzionată este:
y 325.34 1.34 435.95
Tt = 3.55 + 0.19t
previziunile respectiv erorile de previziune pentru perioada Iulie - Decembrie 2000 sunt indicate mai jos:
Luna I A S O N D
Pentru luna Iulie 2000 avem t = 19, extrapolarea tendinţei conduce la:
y19 = T19 =3.55 + 0.19 19 = 7.16
e19 = y19 - y19 = 0.24.
83
Varianta simplă a acestei tehnici, în care previziunile sunt obţinute ca o medie ponderată a datelor
reprezentând trecutul:
n 1
yˆ n (h) c (1 c) j y n j , c 0,1
j 0
Atunci când cronograma seriei nu oferă indicii foarte clare privind prezenţa respectiv forma
tendinţei, este indicat a se utiliza în prealabil o tehnică de netezire ce atenuează amplitudinea fluctuaţiilor
aleatoare din serie, scopul fiind evidenţierea tendinţei. Tehnicile de netezire general utilizate sunt mediile
mobile sau tehnicii netezirii exponenţiale.
1.1. Indicele lunar al preţului producţiei industriale pentru piaţa internă, în perioada ianuarie 1999 – iunie
2000 baza de comparaţie 1996, a avut o tendinţă crescătoare:
Luna (t) 1 2 3 4 5 6 7 8 9
Indice (yt) 3.7 3.8 4.1 4.3 4.5 4.8 4.9 5.1 5.3
Luna (t) 10 11 12 13 14 15 16 17 18
Indice (yt) 5.5 5.6 5.8 6.0 6.2 6.3 6.5 6.6 7.0
b) previziunea indicelui lunar al preţului producţiei industriale pentru urmatoarele doua luni.
1.2. Datele de mai jos redau evoluţia vânzărilor dintr-un produs pe o perioadă de 10 luni consecutive:
Luna F M A M I I A S O N
Vânzări 20 32 40 47 52 60 62 63 65 67
1.3. Populaţia României a crescut în perioada 1980-1988 într-un ritm destul de accelerat, după cum arată
şi datele de mai jos:
84
An 1980 1981 1982 1983 1984 1985 1986 1987 1988
Nr. pop. 22.20 22.35 22.48 22.55 22.62 22.72 22.82 22.94 23.15
(mil. Loc.)
c) previziunea populaţiei României pentru urmatorii cinci ani. Comparatii cu valorile reale.
Datele privind evoluţia trimestrială a producţiei de bere din ţara noastră (zeci mii hl) în perioada 1996-
2001 sunt indicate in tabelul următor:
An/Trim. I II III IV
Nr. pop. (mii loc.) 475.5 520 580.3 629.7 715.7 736.3
3.2. Numărul navelor utilizate în transportul mărfurilor în perioada 1991-2000 a înregistrat următoarea
evoluţie:
85
An 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Nr. nave 269 267 256 250 255 289 283 231 203 192
Se cere: calculul numărului mediu anual de nave utilizate in transportul marfurilor, in perioada
considerata.
4.3. Fondul de locuinţe din ţara noastră a înregistrat o creştere lentă după 1990:
An 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Fond de 7659 7683 7710 7749 7782 7811 7837 7860 7883 7907
loc. (mii)
Problema 5. Cantitatile cumparate q respectiv preturile unitare de cumparare (mii lei) p, pentru 3 produse
aflate in consumul populatiei, in doua luni consecutive, au fost:
q p q p
Produs 1 8 kg 30 10 kg 35
86
Produs 2 20 buc 70 18 buc 67
Se cere: indicii factoriali ai pretului respectiv ai cantitatii prin toate metodele cunoscute.
Comparati rezultatele obtinute.
1 2 3 4 5 6 7 8 9 10
luna
X 22,23 22,24 22,34 23,21 24,7 26,85 28,7 29,1 28,3 28,3
Y 3,86 3,87 3,98 4,52 4,1 4,53 4,91 5,28 6,18 6,2
W 0,396 0,395 0,419 0,437 0,357 0,406 0,455 0,487 0,5 0,5
Se cere: a) Relaţia matematică ce exprimă legătura dintre numărul total de şomeri (Z) şi X, Y, W
b) indicii exprimând variaţia integrală a numărului total de şomeri, calculaţi cu bază fixă;
c) indicii factoriali de tip Laspeyres, Paasche, Fisher aferenţi fiecărui factor care influenţează numărul
total de şomeri, în ultima luna faţă de prima luna.
Bibliografie
1. Buiga A., Dragos C., Lazar D., Parpucea I., Statistica I, Presa Universitara Clujeana, 2003.
2. Florea I., Parpucea I., Buiga A., [1998] , Statistică descriptivă. Teorie şi aplicaţii, Editura Continental,
Alba Iulia, 1998.
3. Florea I., Parpucea I., Buiga A., Lazar D., [2000] , Statistică inferenţială, Presa Universitară Clujeană,
Cluj Napoca, 2000.
4. Melard G., Methodes des prevision a court terme, Ed. de Universite de Bruxelles, 1990.
87