Documente Academic
Documente Profesional
Documente Cultură
SUPORT DE CURS
ANUL II
Semestrul 3
Cluj – Napoca
2009
I. Informaţii generale
2
1.2. Condiţionări şi cunoştinţe prerechizite
Cursul este structurat pe patru module de învăţare, corespunzând celor mai utilizate
capitole din statistica descriptivă: concepte de bază, parametrii repartiţiei unidimensionale,
analiza legăturilor dintre variabilele unei repartiţii multidimensionale, respectiv analiza şi
previziunea seriilor de timp.
3
sursele bibliografice recomandate. În situaţia în care nu veţi reuşi să accesaţi anumite
materialele bibliografice, sunteti invitaţi să contactaţi tutorii disciplinei.
În suportul de curs sunt precizate atât referinţele biblografice obligatorii, cât şi cele
facultative. Sursele bibliografice au fost astfel stabilte încât să ofere posibilitatea adâncirii
nivelului de analiză şi, implicit, înţelegerea fiecărei noţiuni.
1. Buiga, A., Metodologie de sondaj şi analiza datelor în studiile de piaţă, Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2001;
2. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Statistică descriptivă - curs universitar, Ed.
Mediamira, Cluj-Napoca, 2009;
3. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Ed. Continental, Cluj-Napoca,
1998.
4
1.8. Calendar al cursului
5
1.12. Strategii de studiu recomandate:
Date fiind caracteristicile învăţământului la distanţă, se recomandă studenţilor o
planificare foarte riguroasă a secvenţelor de studiu individual, coroborată cu secvenţe de
dialog cu tutorii şi respectiv titularul de disciplină. Lectura fiecărui modul şi rezolvarea la
timp a lucrărilor de evaluare garantează nivele înalte de înţelegere a conţinutului tematic şi
totodată sporesc şansele promovării cu succes a acestei discipline.
6
MODULUL 1
Obiective
• definirea unei populaţii statistice, a variabilelor statistice;
• obţinerea de informaţii cu privire la fenomenul supus cercetarii;
• organizarea datelor şi prezentarea acestora sub formă de serii statistice;
• evidenţierea structurii populaţiei în raport cu variabilele observate;
• evidenţierea evoluţiei unui fenomen în timp sau spaţiu;
• reprezentarea grafică a datelor.
Concepte de bază
• populaţie statistică, unitate statistică, volum, eşantion, variabilă statistică, observare
statistică, indicator statistic, serie statistică;
• observare statistică, serii statistice unidimensionale şi bidimensionale;
• reprezentarea grafică a datelor relativ la o variabilă cantitativă, la o variabilă calitativă
şi la două variabile.
Rezultate aşteptate
Cunoaşterea şi stăpânirea noţiunilor statistice de bază, cunoaşterea tehnicilor de culegere,
grupare şi prezentare a datelor. Utilizarea indicatorilor statistici cu scopul evidenţierii variaţiei
unei mărimi sau a structurii populaţiei supuse studiului.
Sinteza
1. Concepte de bază
1.1. Populaţia statistică
7
statistică comportă o definiţie precisă, care să excludă prin posibilitate de interpretare diferită
de către observatori şi astfel orice eroare ce poate prejudicia valoarea investigaţiei.
În exemplele citate mai sus, unităţile statistice sunt: persoana, gospodăria,
consumatorul, societatea producătoare sau concurentă, societatea distribuitoare, angajatul etc.
Se notează cu minusculele corespunzătoare majusculei ce simbolizează populaţia
statistică, respectiv ai, bi etc..
Volumul populaţiei reprezintă numărul unităţilor statistice care alcătuiesc populaţia
statistică, Acesta poate fi finit sau infinit, în funcţie de tipul populaţiei care poate fi la fel
finită sau infinită.
Se notează cu N, iar pentru o populaţie A, avem:
A : {a1, a2, ..., aN}
Eşantion reprezintă o submulţime a unei populaţii statistice, constituită după criterii
bine stabilite. În raport cu procedeul de formare a eşantionului avem eşantioane aleatoare şi
eşantioane dirijate.
Eşantionul aleator este format din unităţile statistice care rezultă printr-un procedeu
aleator: procedeul tragerii la sorţi, tabelul cu numere întâmplătoare, procedeul extragerilor
sistematice.
Eşantionul dirijat este constituit pe baza unor informaţii auxiliare existente la nivelul
populaţiei studiate sau lăsând liber pe anchetator să aleagă unităţile respectând doar realizarea
structurii eşantionului în funcţie de criteriile stabilite.
Se notează cu n.
Majoritatea studiilor au ca suport datele provenite de la nivel de eşantion, de aici
importanţa constituirii acestuia şi implicit, apelarea la inferenţa statistică, pentru a estima
parametrii la nivelul populaţiei univers.
Variabila statistică reprezintă o însuşire sau o trăsătură comună tuturor unităţilor unei
populaţii. Nivelul înregistrat de o variabilă statistică la o unitate oarecare al populaţiei se
numeşte realizare sau starea variabile. [Florea I., 1998].
În general se notează cu majusculele de la sfârşitul alfabetului, X, Y, Z etc. Dacă se
notează cu X o variabilă statistică oarecare, atunci cu x1, x2, ..., xN se vor nota stările variabilei
respective.
Variabilele statistice se clasifică în raport cu natura, modul de exprimare şi modul de
variaţie.
a) După natura lor variabilele statistice pot fi atributive, de timp şi de spaţiu.
• Variabila atributivă exprimă un atribut sau însuşire esenţială (alta, decât timpul
sau spaţiul) unităţilor populaţiei;
• Variabila de timp ne arată timpul în care au luat fiinţă unităţile populaţiei sau
perioada de timp în care au existat (exista);
• Variabila de spaţiu ne arată spaţiul în care există sau au luat naştere unităţile
populaţiei.
b) După modul de exprimare a stărilor deosebim:
• Variabilă cantitativă este variabila ale cărei stări se exprimă prin valori numerice.
Se mai numeşte şi variabilă metrică.
• Variabilă calitativă este variabila ale cărei stări se exprimă prin cuvinte sau
coduri. Se mai numeşte variabilă nominală (stările se exprimă prin cuvinte) sau
variabilă ordinală (stările se exprimă prin coduri).
8
c) După modul de variaţie variabila cantitativă poate fi:
• Variabilă discretă este acea variabilă care, în intervalul său de definiţie
înregistrează cel mult valori raţionale, variaţia are loc în salturi.
• Variabilă continuă este acea variabilă care poate lua orice valoare reală din
intervalul său de variaţie.
Exemple de variabile statistice relativ la populaţia formată din mulţimea
consumatorilor unui produs:
- vârsta: variabilă atributivă, cantitativă, continuă
X = { x1 = [15-20) [20-30) ... }
- frecvenţa de cumpărare: variabilă atributivă calitativă
Y = { y1 - foarte rar; y2 – rar, ... }
- număr de sortimente cumpărate relativ la produsul analizat: variabilă atributivă,
cantitativă, discretă:
Z = { z1 = 1; z2 = 2, ... }
- localizarea magazinelor de unde cumpără: variabilă de spaţiu, calitativă
S = { s1 – cartierul M sau s2 – strada P1, ... }
- data ultimei cumpărări a produsului analizat: variabilă de timp, cantitativă
T = { t1 = 27.01.2002; t2 = 24.02.2002, ... }
Variabila aleatoare
Variabila aleatoare este variabila care poate lua orice valoare din valorile unei mulţimi
finite sau infinite, cu o anumită probabilitate, rezultată dintr-o funcţie asociată variabilei,
numită lege de probabilitate.
Ca şi variabila statistică, variabila aleatoare în raport cu valorile sale poate fi discretă
sau continuă.
În timp ce o variabilă aleatoare înregistrează valori la întâmplare, variabila statistică
constituie o însuşire certă a unităţilor statistice din populaţie. Valorile unei variabile aleatoare
sunt probabile şi în strânsă legătură cu un anumit experiment. Stările unei variabile statistice
nu sunt probabile, ele cuantifică o trăsătură proprie fiecărei unităţi din populaţie.
9
Seriile statistice se clasifică în raport cu mai multe criterii, astfel:
1. În raport cu numărul variabilelor
• Serii statistice unidimensionale, au la bază o singură variabilă;
• Serii statistice multidimensionale, care au la bază două sau mai multe variabile.
2. După natura variabilelor deosebim:
• Serii atributive, care au la bază variabile atributive;
• Serii cronologice (de timp sau istorice), care au la bază variabile de timp;
• Serii de spaţiu sau teritoriale, care au la bază o variabilă de spaţiu.
3. După modul de exprimare a stărilor variabilei deosebim:
• Serii calitative, care au la bază variabile calitative;
• Serii cantitative, care au la bază variabile cantitative şi care după modul de variaţie
a variabilei pot fi: discrete (când variabila este discretă) şi continue (când variabila
este continuă).
4. În raport cu natura indicatorului din care este alcătuită seria, avem:
• Serii de frecvenţă sau serii de distribuţie (repartiţie);
• Serii de variaţie.
Seria statistică redând distribuţia populaţiei în raport cu una sau mai multe variabile
constituie o descompunere a acesteia într-un număr R de clase. O astfel de serie este formată
în exclusivitate din frecvenţe (absolute cumulate sau necumulate, relative cumulate sau
necumulate) şi de aceea se numesc serie de frecvenţă, de distribuţie sau de repartiţie.
Prescurtat se mai foloseşte şi denumirea de repartiţie statistică sau distribuţie statistică.
Seria statistică ce redă variaţia unei mărimi în timp, în spaţiu sau de la o categorie la
alta se numeşte serie de variaţie.
Conform definiţiei de mai sus, prin această serie se distribuie unităţile unei populaţii
statistice în raport cu una sau mai multe variabile.
Fie o serie statistică unidimensională având la bază variabila X, respectiv:
⎛x x2 ... xi ... x R ⎞
X : ⎜⎜ 1 ⎟ (1.1)
⎝ N1 N2 ... N i ... N R ⎟⎠
Clasa (grupa) de unităţi în raport cu o variabilă reuneşte acele unităţi din cadrul
populaţiei care înregistrează aceeaşi stare a variabilei sau stările variabilei aparţinând unui
anumit interval de variaţie .
Ca urmare, în raport cu o variabilă statistică populaţia poate fi structurată într-un
anumit număr de clase.
De asemenea, relativ la seria statistică unidimensională având la bază variabila X,
poate fi formată cu frecvenţe relative, frecvenţe cumulate absolute sau relative.
Fie seria X formată cu frecvenţe relative:
⎛ x x 2 ... xi ... x R ⎞
X : ⎜⎜ 1 ⎟⎟ (1.2.)
⎝ f1 f 2 ... f i ... f R ⎠
10
- fi - ne arată ponderea unităţilor din populaţie care au înregistrat pentru variabila X
starea xi:
N
fi = i i = 1, R
N
unde:
- Nij - reprezintă numărul de unităţi pentru care, variabila X înregistrează starea xj şi variabila
Y înregistrează starea yi ;
- Ni. - numărul de unităţi pentru care Y = yi, indiferent de nivelul înregistrat de variabila X;
- N.j - numărul de unităţi pentru care X = xj, indiferent de nivelul înregistrat de variabila Y;
- N - numărul total de unităţi analizate.
11
Din seria bidimensională se pot extrage serii unidimensionale de forma următoare:
⎛ x1 x2 ... xj ... xJ ⎞
X : ⎜⎜ ⎟
⎝ N .1 N .2 ... N . j ... N . J ⎟⎠
⎛y y 2 ... y i ... y I ⎞
Y : ⎜⎜ 1 ⎟
⎝ N1. N 2. ... N i. ... N I . ⎟⎠
⎛ y1 y2 ... yi ... yI ⎞
Y / X = x j : ⎜⎜ ⎟ ∀j = 1, J
⎝ N1 j N2 j ... N ij ... N Ij ⎟⎠
⎛ x1 x2 ... x j ... x J ⎞
X / Y = y i : ⎜⎜ ⎟ ∀i = 1, I
⎝ N i1 N i .2 ... N ij ... N iJ ⎟⎠
Conform definiţiei seria de variaţie redă variaţia unei mărimi, în timp, în spaţiu sau de
la o categorie la alta. Ca urmare, în continuare vom vorbi de serii cronologice (au la bază o
variabilă de timp), serii de spaţiu (au la bază o variabilă de spaţiu) şi serii categoriale (au la
bază variabile atributive). Cele mai des întâlnite sunt seriile cronologice şi seriile de spaţiu.
Seriile de variaţie au la bază mărimi absolute şi relative. După unii autori din cadrul
mărimilor absolute fac parte indicatorul de nivel şi diferenţa absolută a unei mărimi, iar din
cadrul mărimilor relative fac parte: indicatorul relativ de intensitate, indicele statistic şi
diferenţa relativă a unei mărimi.
Indicatorul de nivel (Y) este o mărime ce reflectă nivelul unui fenomen analizat. De
exemplu: producţia diferitelor produse, veniturile populaţiei, suprafaţa cultivată cu
principalele culturi, transportul, exportul, importul etc.
Diferenţa absolută a unei mărimi ( ∆ Y ) exprimă diferenţa dintre nivelul cercetat şi
nivelul bază de comparaţie al mărimii analizate. Se exprimă în aceeaşi unitate de măsură în
care este cuantificat fenomenul analizat şi ne arată cu cât s-a modificat acesta de la un nivel la
altul.
12
Indicele statistic al unei mărimi ( I Y ) exprimă raportul dintre nivelul cercetat şi nivelul
bază de comparaţie al mărimii analizate. Ne arată de câte ori se modifică acea mărime, de la
un nivel la altul.
Diferenţa relativă a unei mărimi ( RY ) exprimă raportul dintre diferenţa absolută a
mărimii respective şi nivelul bază de comparaţie al acesteia. Ne arată cu cât la sută se
modifică mărimea de la un nivel la altul.
Indicatorul relativ de intensitate (d) se defineşte ca raport între doi indicatori de nivel
de natură diferită şi arată gradul de răspândire a fenomenului cuantificat de indicatorul de la
numărător în raport cu fenomenul cuantificat de indicatorul de la numitor. De exemplu:
producţia diferitelor culturi/ha, densitatea populaţiei, producţia principalelor produse/locuitor,
rata şomajului etc.
Greutatea specifică (g) reflectă structura fenomenului analizat în raport cu stările
variabile X, de la baza seriei.
Seriile cronologice
Seria cronologică reflectă evoluţia în timp a unei mărimi.
Valorile variabilei ca funcţie de timp pot fi fixate la un anumit moment de timp sau să
se refere la un interval de timp.
Seria cronologică de momente este o serie de observaţii ordonate în timp, exprimând
stocuri [Trebici V., 1985]. De exemplu, volumul populaţiei, număr de universităţi, bănci,
instituţii, fonduri fixe, numărul salariaţilor, întreprinderile mici şi mijlocii din diferite domenii
de activitate, unităţile de cazare turistică etc. Într-o astfel de serie însumarea mărimii analizate
nu are sens din punct de vedere al conţinutului, aceasta fiind permisă din considerente de
calcul, ajustări etc.
Seria cronologică de intervale este o serie de observaţii ordonate în timp exprimând
fluxuri. De exemplu: născuţii vii, divorţurile, decesele, producţia diferitelor culturi sau
produse, venituri, cheltuieli, producţia industrială, agricolă, exportul, importul etc.Într-o astfel
de serie are sens însumarea mărimii analizate.
Fie o serie cronologică de momente sau de intervale ce reflectă evoluţia în timp a
nivelului unei mărimi Y,
⎛0 1 2 ... t ... T ⎞
Y : ⎜⎜ ⎟ (1.6)
⎝ y0 y1 y2 ... y t ... yT ⎟⎠
Pornind de la această serie se pot deduce seriile formate cu diferenţe absolute, indici şi
diferenţe relative. În funcţie de modul de raportare a stărilor variabilei timp t, mărimile de mai
sus se pot calcula cu bază fixă (t/t0) (baza de comparaţie rămâne aceeaşi) sau cu bază în lanţ
(t/t-1) (baza de comparaţie se schimbă, fiind considerată cea precedentă nivelului comparat).
⎛0 1 2 ... t ... T ⎞
∆t y/ t0 : ⎜⎜ ⎟ (1.7)
⎝0 ∆ y
1/ 0
∆2y/ 0 ... ∆ty/ 0 ... ∆Ty/ 0 ⎟⎠
∆ty/ 0 = y (t ) − y (0)
13
- diferenţe absolute cu bază în lanţ
⎛0 1 2 ... t ... T ⎞
∆t y/ t −1 : ⎜⎜ t / t −1
⎟
T / T −1 ⎟ (1.8)
⎝− ∆y ∆ y ... ∆ y ... ∆ y ⎠
1/ 0 2 /1
∆ty/ t −1 = y (t ) − y (t − 1)
Între cele două tipuri de diferenţe absolute cu baza fixă şi cu bază în lanţ, există relaţii
de legătură ce ne permit exprimarea unora în funcţie de celelalte. În acest context, însumând
diferenţele absolute cu baza în lanţ se obţin diferenţele absolute cu baza fixă.
y (t )
I yt / 0 = ( x100)
y ( 0)
y (t )
I yt / t −1 = ( x100)
y (t − 1)
y (1) y (2) y (t ) y (t )
I 1y / 0 .I y2 / 1 . ... .I yt / t −1 = . . ... . = = I yt / 0
y (0) y (1) y (t − 1) y (0)
14
• Împărţind doi indici succesivi cu bază fixă se obţine un indice cu bază în lanţ:
y (t ) y (t − 1) y (t )
I yt / 0 : I yt −1 / 0 = : = = I yt / t −1
y (0) y (0) y (t − 1)
Indicele statistic ne arată de câte ori se modifică fenomenul analizat. Este mărimea cel
mai des folosită în caracterizarea evoluţiei fenomenelor din economie.
Având ca bază de referinţă o serie cronologică de forma (1.7) se pot elabora serii
formate cu:
- diferenţe relative cu bază fixă
⎛0 1 2 ... t ... T ⎞
R yt / t0 : ⎜⎜ ⎟ (1.11)
1/ 0
⎝ 0 Ry R 2/0
y ... R yt / 0 ... R Ty / 0 ⎟⎠
∆ty/ 0 y (t ) − y (0) y (t )
R t/0
y = = = − 1 = I yt / 0 − 1
y (0) y (0) y (0)
⎛0 1 2 ... t ... T ⎞
R yt / t −1 : ⎜⎜ t / t −1
⎟
T / T −1 ⎟ (1.12)
⎝ − Ry
1/ 0 2 /1
Ry ... R y ... R y ⎠
t / t −1
∆t y/ t −1
R y = = I yt / t −1 − 1 sau I yt / t −1 .100 − 100
y (t − 1)
⎛0 1 2 ... t ... T ⎞
g y : ⎜⎜ ⎟ (1.13)
⎝ g0 g1 g2 ... g t ... g T ⎟⎠
y (t )
g (t ) = T
∑ y(t )
t =1
Seria statistică de spaţiu este o construcţie statistică ce reflectă variaţia în spaţiu a unei
mărimi.
Seria de spaţiu prezintă o importanţă din ce în ce mai mare, datorită dezvoltării
sistemului informaţional, a necesităţii comparaţiilor internaţionale şi a comparaţiilor între
regiunile unei ţări.
În cadrul Anuarului Statistic al României există capitole distincte de „Statistică
teritorială” şi „Statistică internaţională”. În capitolul de „Statistică teritorială” sunt cuprinse
15
informaţii privind: populaţia, forţa de muncă, condiţii de muncă, veniturile populaţiei,
cheltuielile şi consumul populaţiei, locuinţe, asistenţă socială, sănătate, învăţământ, cultură,
sport, conturi naţionale, rezultate şi performanţe ale întreprinderilor, agricultură, silvicultură,
industrie, transporturi, poştă, telecomunicaţii, turism, finanţe, justiţie şi starea infracţională, pe
cele 7 regiuni şi Bucureşti.
La baza seriei de spaţiu se găsesc atât mărimi absolute (indicator de nivel, diferenţa
absolută), cât şi mărimi relative (indicator relativ de intensitate, indicele statistic, diferenţa
relativă).
Fie seria statistică Z, de forma următoare:
⎛ s s1 s 2 ... s i ... s R ⎞
Z : ⎜⎜ 0 ⎟⎟ (1.14)
⎝ Z (1) Z (2) Z (3) ... Z (i ) ... Z ( R ) ⎠
unde:
si – este o stare a variabilei ce exprimă spaţiul, i = 1, R ;
Z(i) – exprimă o mărime (indicator de nivel sau relativ de intensitate).
Plecând de la seria de forma (1.15) se pot deduce seriile formate cu:
- diferenţe absolute cu bază fixă:
⎛s s1 s2 ... si ... sR ⎞
∆sZ/ s0 : ⎜⎜ 0 ⎟
s R / s0 ⎟ (1.15)
⎝ 0 ∆Z ∆Z ... ∆ Z ... ∆ Z ⎠
s1 / s0 s 2 / s0 si / s0
∆sZi / s0 = Z (i ) − Z (0)
- indicii statistici cu bază fixă
⎛s s1 s2 ... si ... s R ⎞
I Zs / s0 : ⎜⎜ 0 ⎟ (1.16)
⎝ 0 IZ
s1 / s0 s 2 / s0
IZ si / s 0
... I Z ... I ZsR / s0 ⎟⎠
Z (i )
I Zsi / s0 = .(100)
Z ( 0)
- diferenţe relative cu bază fixă
⎛s s1 s2 ... si ... sR ⎞
RZs / s0 : ⎜⎜ 0 ⎟ (1.17)
⎝ 0 RZ
s1 / s0
RZ s 2 / s0
... RZ si / s 0
... RZsR / s0 ⎟⎠
∆si / s0
I Zsi / s0 = Z = I Zsi / s0 − 100
Z (0)
16
Pentru asigurarea unor date, rezultate din observare, valide şi pertinente se impun
câteva precizări. În primul rând, observarea statistică presupune urmărirea şi înregistrarea
unui număr mare de unităţi statistice, ceea ce implică un volum mare de muncă. În al doilea
rând, pentru ca cercetarea populaţiei să-şi atingă scopul, trebuie precizate care sunt variabilele
în raport cu care este studiată populaţia. Variabilele statistice ce urmează să fie urmărite şi
înregistrate la nivelul fiecărei unităţi din populaţie, trebuie să fie esenţiale şi să prezinte
interes din punct de vedere al studiului întreprins. În al treilea rând, trebuie stabilite criterii
exacte pentru delimitarea corectă a unităţilor statistice care alcătuiesc populaţia. Şi nu în
ultimul rând, dacă observarea şi înregistrarea datelor este făcut de mai multe persoane este
necesar ca acestea să se alinieze unei metodologii unitare pentru a asigura corectitudinea
necesară datelor rezultate.
Observarea statistică, ca primă etapă într-un studiu de cercetare presupune:
specificarea unităţilor statistice care trebuie să fie urmărite şi înregistrate, alegerea variabilelor
statistice care caracterizează cel mai bine populaţia şi care răspund obiectivului urmărit,
înregistrarea stărilor variabilelor statistice considerate.
Atingerea scopului cercetării statistice presupune rezolvarea următoarelor probleme
care să asigure o pregătire ştiinţifică a observării statistice:
- delimitarea populaţiei supuse observării;
- definirea unităţilor statistice de observat;
- timpul şi locul unde va avea loc observarea;
- programul observării;
- alegerea purtătorilor de informaţie;
- pregătirea persoanelor ce urmează să facă observarea.
Fiecăreia din aceste probleme trebuie să i se acorde importanţa cuvenită, fiindcă
fiecare dintre ele conduce la o pregătire cât mai completă a observării, de rezultatele căreia
depinde corectitudinea celorlalte etape a cercetării statistice.
Delimitarea populaţiei supuse observării faţă de alte populaţii statistice cu care aceasta
se află în legătură se realizează prin evidenţierea însuşirilor şi trăsăturilor comune ce
caracterizează populaţia supusă studiului.
Definirea unităţilor statistice de observat presupune claritate şi precizie pentru a nu da
loc confuziilor. În momentul observării trebuie cunoscut exact care sunt unităţile statistice ce
trebuie înregistrate în raport cu variabilele de studiat.
Stabilirea timpului şi a locului unde va avea loc observarea are importanţă din punct
de vedere a comparabilităţii datelor rezultate din observare. Noţiunea de timp a observării are
în statistică două accepţiuni:
- momentul sau perioada la care se referă datele înregistrate (timpul de referinţă);
- durata observării.
Locul observării reprezintă punctul din spaţiu în care se derulează procesul supus
cercetării (incinta unei întreprinderi, a unui magazin, o localitate în cazul în care populaţia o
reprezintă familiile etc.).
În cadrul programului observării statistice trebuie stabilite variabilele statistice care
urmează să fie studiate în populaţia de cercetat. Alegerea şi definirea variabilelor statistice
trebuie să fie în consens cu natura populaţiei şi obiectivul cercetării statistice întreprinse.
Variabilele statistice care fac parte din programul cercetării trebuie să surprindă aspectele
esenţiale, să expliciteze fenomenul sau procesul studiat, să permită prelucrarea şi
generalizarea acestora la nivelul întregii populaţii.
Alegerea purtătorilor de informaţie se face în funcţie de volumul datelor ce urmează a
fi înregistrate. Purtătorii de informaţie reprezintă suporţii materiali pe care se înregistrează
datele din observarea unităţilor statistice.
17
Observarea statistică se poate desfăşura în diverse forme în raport cu: natura
proceselor social-economice de studiat, obiectivul cercetării, formele de organizare cât şi
posibilităţile practice de urmărire şi înregistrare a unităţilor statistice din populaţie.
După cum se ştie, în raport cu gradul de cuprindere a populaţiei considerate avem:
observarea totală şi observarea parţială. Observarea totală permite înregistrarea, în raport cu
variabilele statistice a tuturor unităţilor statistice din populaţie, implicând un volum mare de
muncă, antrenează, de obicei, un număr de persoane şi durează mult timp. Ca urmare se
crează condiţii pentru apariţia de erori de observare, ceea ce va conduce la micşorarea
eficienţei observării. Forma cea mai frecventă de observare totală o constituie recensământul
populaţiei. Observarea totală se practică şi în domeniul controlului tehnice de calitate, în cazul
produselor de înaltă tehnicitate , aşa cum ar fi: televizoare, maşini de spălat, frigidere,
automobile etc. Este necesară o observare totală în acest caz, deoarece constatarea
defecţiunilor de către cumpărători ar implica cheltuieli mult mai mari cu remedierea acestora
în comparaţie cu organizarea unei observări totale a loturilor de produse ce urmează a fi
scoase pe piaţă.
În cazul altor produse, unde cheltuielile legate de remedierea defectelor sunt
nesemnificative, este suficientă realizarea unor observări parţiale prin care să se asigure că
rebuturile nu depăşesc un anumit procent admis. O astfel de observare, care include doar o
parte din unităţile populaţiei supuse studiului corespunde observării parţiale. Observarea
parţială constituie o alternativă la observarea totală în cazul populaţiilor infinite sau chiar dacă
sunt finite prin observare are loc distrugerea acestora. Având la bază procedeul observării
parţiale se pot evalua rezervele de ţiţei, cărbune sau alte minerale, se poate evalua masa de
material lemnos din fondul silvic a unei zone sau la nivelul întregii ţări. În general, observarea
parţială se recomandă în toate cazurile în care se consideră mai avantajoasă decât observarea
totală.
Eşantionul, ca rezultat al observării parţiale, presupune respectarea cu stricteţe a
principiului reprezentativităţii, în conformitate cu care fiecare unitate statistică din populaţie
generală să aibă aceeaşi şansă de a face parte din eşantion. Asigurarea respectării principiului
reprezentativităţii în formarea eşantionului de observat permite acestora o structură foarte
apropiată cu cea a populaţiilor din care sunt formate. Aceasta ne asigură, cu o anumită
probabilitate dinainte fixată, că rezultatele obţinute la nivelul eşantionului pot fi extinse la
nivelul întregii populaţii. În raport cu legea de probabilitate urmată de variabilele urmărite în
populaţia generală sunt două tipuri de eşantioane: eşantioane de volum mare şi eşantioane de
volum redus.
Observarea statistică în raport cu procedeul folosit este de două feluri:
- observarea directă;
- observarea indirectă.
Observarea directă presupune o observare nemijlocită a unităţilor din populaţie, care
sunt prevăzute pentru cercetare. Acest mod de observare se realizează printr-un contact direct
cu unităţile statistice, fie prin măsurare, fie prin interogare, dacă unităţile sunt persoane. Acest
procedeu permite observatorului perceperea nemijlocită a fenomenelor luate în studiu în
vederea măsurării nivelelor înregistrate de variabilele considerate.
Observarea indirectă presupune un intermediar între unităţile care urmează să fie
supuse observării şi observator. Intermediarul poate fi un document special conceput în
vederea observării şi atunci observarea este pe bază de document sau intermediarul poate fi o
altă persoană decât observatorul, caz în care avem observare prin interogare.
Suportul pentru culegerea datelor îl reprezintă chestionarul.
18
2.2. Sistematizarea şi prezentarea datelor statistice
19
Determinarea lungimii intervalelor de variaţie conduce la două situaţii:
• serii construire cu intervale de lungime egală;
• serii construite cu intervale de lungime diferite.
Stabilirea numărului de intervale de variaţie trebuie să asigure satisfacerea
următoarelor condiţii:
- informaţia care se pierde în urma operaţiei de grupare să nu fie prea mare, iar
populaţia să nu fie prea fărâmiţată în raport cu variabilele de grupare;
- media aritmetică a fiecărei grupe (în raport cu valorile înregistrate) să fie cât mai
aproape de centrul intervalului de variaţie respectiv;
- să nu existe grupe vide;
- reprezentarea grafică a seriei rezultate să permită conturarea unei regularităţi a
fenomenului de studiat din cadrul populaţiei. Trebuie remarcat că acest lucru nu
este posibil nici în cazul unui număr mic de intervale deoarece se pierd prea multe
date, nici în cazul unui număr prea mare de intervale, populaţia fărâmiţându-se
prea tare.
Statisticianul american H.A. Struges a stabilit pentru cazul în care populaţia în raport
cu variabila X este normală, următoarea expresie:
xmax − xmin
lx = (2.1)
1 + 3,322 lg N
(1+3,322 LgN, având semnificaţia de „număr de intervale”), pentru celelalte cazuri rezultatul
fiind orientativ, servind la determinarea cu aproximaţie a lungimii intervalelor de variaţie în
cazul în care acestea vor fi de lungime egală. În expresia de calcul a lungimii intervalelor
intervine valoarea maximă şi cea minimă a variabilei, cât şi volumul populaţiei. În urma
stabilirii lungimii intervalelor. Se elaborează seria de intervale de lungime egală după cum
urmează:
⎛[x ; (x + l )) ... [xmin + (k −1)lx ; (xmin + klx )) ... [xmin + (R −1)lx ; (xmin + R lx ))⎞
X : ⎜⎜ min min x ⎟⎟
⎝ N1 Nk NR ⎠
20
2.3. Reprezentări grafice
Reprezentarea grafică a unei serii ne dă o imagine geometrică (în plan sau spaţiu) cu
privire la forma statică sau evoluţia dinamică a fenomenului cuantificat de seria respectivă.
Graficul asociat unei serii constituie o imagine spaţială a fenomenului de cercetat,
permiţând evidenţierea rapidă a structurii, dinamicii şi tendinţei de dezvoltare a acestuia.
Reprezentările grafice sunt folosite atât în scopul cunoaşterii populaţiei în cauză, cât şi pentru
popularizarea unor rezultate din diverse domenii de activitate.
Elaborarea completă şi corectă în acelaşi timp a unui grafic presupune elucidarea
următoarelor elemente: titlul graficului, scara de reprezentare, reţeaua graficului, semnele
convenţionale şi notele.
Titlul graficului trebuie să fie scurt, clar şi semnificativ pentru conţinutul fenomenului
reliefat prin seria considerată.
Scara de reprezentare reuneşte mulţimea tuturor punctelor cotate. În cazul în care
variabila înregistrează valori mici, gradarea scării începe în principiu de la zero, dacă variabila
înregistrează valori mari se consideră o altă origine stabilită cu aproximaţie. Pentru a nu
încărca prea mult desenul, se recomandă reprezentarea pe scară doar a valorilor dispuse la un
anumit interval convenabil ales. Distanţele dintre două puncte cotate consecutive se numeşte
intervalul graficului. Când intervalele sunt egale atunci avem scări uniforme, în caz contrar
avem scări neuniforme.
Reţeaua graficului permite identificarea cu uşurinţă în plan sau în spaţiu a punctelor
corespunzătoare valorilor înregistrate de variabilele în cauză. Sistemul axelor rectangulare (în
plan sau spaţiu) constituie cele mai uzuale reţele în reprezentarea grafică a seriilor statistice.
Semnele convenţionale se pot materializa într-o reprezentare grafică prin inscripţii, fie
printr-o legendă. Inscripţia trebuie să fie scurtă şi semnificativă şi plasată cât mai bine în
raport cu elementul din grafic pe care îl explicitează. Legenda se foloseşte pentru a explicita
folosirea semnelor, culorilor sau diverselor haşuri folosite în graficul în cauză. Legenda se
plasează înafara graficului, în colţul din stânga sau dreapta jos.
În cazul graficelor complexe, pentru o înţelegere mai bună, sunt necesare unele
explicaţii, care se dau sub formă de note. Notele generale privesc în ansamblu graficul şi se
plasează chiar sub titlul graficului. Notele speciale privesc porţiuni din grafic şi sunt legate de
acestea prin diverse semne de trimitere. Notele se plasează în partea de jos a diagramei, în
colţul din stânga sub reţea.
În continuare se vor prezenta principalele tehnici de construire a graficelor utilizate în
reprezentarea seriilor statistice ce descriu fenomenele social-economice.
Histograma
Graficul specific seriilor care au la bază o variabilă continuă (de intervale) este
histograma. Aceasta se construieşte într-un sistem de axe rectangulare după cum urmează: pe
abscisă se trec intervalele de variaţie, iar pe ordonată se trasează scara frecvenţelor. Scara
frecvenţelor se construieşte în conformitate cu respectarea principiului proporţionalităţii între
frecvenţe şi segmentele delimitate pe scara ordonatelor. Pentru fiecare interval de variaţie a
seriei (xi-1 – xi) se construieşte un dreptunghi a cărui bază este chiar lungimea intervalului, iar
cealaltă latură se determină din condiţia proporţionalităţii ariei dreptunghiului cu mărimea
indicatorului în clasa respectivă.
Latura necunoscută a dreptunghiului, notată cu Li se determină din următoarea relaţie:
Li . li = k . Ni (2.2)
unde:
21
li = latura cunoscută a dreptunghiului corespunzător intervalului (xi-1 - xi);
Li = latura necunoscută a dreptunghiului corespunzător intervalului (xi-1 - xi);
Ni = frecvenţa absolută a clasei „i”;
k = un coeficient de proporţionalitate care se alege în raport cu scara de reprezentare.
Din relaţia (2.2) se deduce Li:
N
Li = k i , i = 1, R
li
unde: li = xi - xi-1, adică diferenţa dintre limita superioară şi cea inferioară a intervalului de
variaţie.
Mulţimea tuturor dreptunghiurilor astfel determinate, formează histograma ataşată
seriei.
Poligonul frecvenţelor
Este o reprezentare grafică a seriilor statistice având la bază o variabilă atributivă
cantitativă continuă şi formată cu frecvenţe absolute sau relative, simple sau cumulate.
Trasarea acesteia presupune realizarea în prealabil a histogramei. Poligonul
frecvenţelor se obţine unind prin segmente de dreaptă mijloacele laturilor superioare ale
dreptunghiurilor, din care este alcătuită histograma.
Poligonul frecvenţelor este un grafic important pentru aproximarea formei distribuţiei
populaţiei studiate, cât şi pentru compararea a două distribuţii pe aceeaşi diagramă.
Exemplu
Din Anuarul Statistic al României din anul 2000, am extras o serie de repartiţie
reprezentând populaţia României sub 40 de ani pe grupe de vârstă .
Grupa Populaţia
de vârstă (ani)
0–4 1147065
5–9 1330733
10 – 14 1737153
15 – 19 1701881
20 – 24 1978835
25 – 29 1792822
30 – 34 1698268
35 – 39 1335039
0–4 5–9 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39
22
Diagramele de structură
Punerea în evidenţă sub formă grafică a structurii unei populaţii statistice este posibilă
apelând la diagramele de structură. În acest sens se prezintă: dreptunghiul, pătratul, cercul şi
semicercul de structură. Aceste tipuri de grafice permit reprezentarea grafică a seriilor
unidimensionale construite cu mărimi de structură( frecvenţe relative, greutate specifică).
Cel mai des folosit este cercul de structură denumit şi diagrama sectorială (piechart).
Cercul de structură
Exemplu
Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând
distribuţia voturilor electoratului pentru Senat (după redistribuire) la alegerile din 3 noiembrie
1996:
Formaţiunea
Politică CDR PDSR USD UDMR PRM PUNR
Voturi
Obţinute (%) 37,0 28,7 16,1 7,7 5,6 4,9
Chart Title
PUNR
PRM
UDMR
CDR
USD
PDSR
23
Diagramele prin benzi (barchart)
Acest tip de grafic utilizează benzile (barele), pentru a reprezenta distribuţia unei
populaţii în raport cu o variabilă cantitativă discretă sau calitativă. Benzile au aceeaşi lăţime
(bază), iar lungimea (înălţimea) lor este direct proporţională cu frecvenţa clasei reprezentate.
Numărul benzilor este egal cu numărul claselor în care este împărţită populaţia studiată. De
asemenea se pot lua în considerare o variabilă sau două.
În reprezentări se utilizează benzi simple sau benzi grupate. Poziţia benzilor poate fi
orizontală sau verticală.
Exemplu
Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând
nivelul PNB/loc în $ calculat pe baza puterii de cumpărare în România şi alte ţări est-
europene, în 1998
Ţara Bulgaria Cehia Polonia România Slovacia Ungaria
PNB/loc ($) 4683 12197 7543 6153 9624 9832
14000
12197
12000
9624 9832
10000
8000 7543
6153
6000
4683
4000
2000
0
Bulgaria Cehia Polonia România Slovacia Ungaria
Cronograma (historiograma)
⎛ 0 1 2 ... t ... T ⎞
Y : ⎜⎜ ⎟⎟
⎝ y0 y1 y2 ... yt ... yT ⎠
unde: t = 0, T , reprezintă momentele (sau perioadele) de timp care se reprezintă pe axa
absciselor, iar mărimile yt se reprezintă pe axa ordonatelor. Fiecărei perechi de valori (t, yt),
24
t = 0, T îi corespunde un punct în planul axelor rectangulare. Unind prin segmente de dreaptă
punctele consecutive, astfel determinate, se obţine ceea ce se numeşte cronogramă.
În acelaşi sistem de axe pot fi reprezentate una sau mai multe serii cronologice, care
pot fi exprimate în aceeaşi unitate de măsură sau în unităţi de măsură diferite. Cronogramele
asociate unor serii cronologice ne permit compararea fenomenelor surprinse de asemenea serii
şi sesizarea perioadelor critice în evoluţia acestora.
Exemplu.
Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând
numărul total ta autoturisme înscrise în circulaţie la sfârşitul anului în România în perioada
1994-1999.
3500000
3000000
numar autoturisme in circulatie
2500000
2000000
1500000
1000000
500000
0
1993 1994 1995 1996 1997 1998 1999 2000
anul
25
-dacă însă frecvenţele sunt prea mari, pentru marcarea lor pe grafic se pot utiliza
diagrame areale prin cercuri ale căror arii trebuie să fie proporţionale cu rădăcina
pătrată a frecvenţelor pe care le reprezintă.
În cazul în care cele două variabile X şi Y sunt continue, întrucât la intersecţia a două
intervale se formează o rubrică (căsuţă), frecvenţele diferite de zero se reprezintă în interiorul
acestei rubrici, fie prin puncte, fie prin diagrame areale cu respectarea unuia din cele două
moduri de elaborare mai sus amintite.
Exemplu
Un produs a fost lansat simultan pe 13 pieţe. Pe aceste pieţe, produsul a fost propus la
preţuri diferite (P), veniturile consumatorilor (V) fiind şi ele diferite. Pentru fiecare piată s-a
înregistrat un anumit nivel al cererii (C), rezultatele fiind sintetizate în tabelul următor:
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13
Crt.
Cerere 15,4 3,2 4,9 10,5 8,0 5,1 7,6 11,3 14,0 6,4 13,2 8,8 12,1
(C)
Preţ 1,4 5,1 2,5 1,7 1,8 3,4 2,1 1,6 3,6 3,5 1,9 1,8 1,9
(P)
18
16
14
12
10
cerere
0
0 1 2 3 4 5 6
pret
Cartograma şi cartodiagrama
26
Probleme propuse
P1. Daţi 5 exemple de populaţii statistice a căror cercetare ar prezenta interes şi pentru fiecare
populaţie selectată precizaţi:
- denumirea populaţiei, a unităţii statistice şi volumul acesteia;
- scopul cercetării statistice;
- variabilele statistice în raport cu care s-ar face observarea statistică a populaţiei.
P2. Să se extragă din Anuarul Statistic sau alte surse informaţionale o serie statistică
bidimensională ce redă distribuţia unei populaţii în raport cu două variabile atributive,
relativ la care se cere:
1. denumirea populaţiei ce a fost supusă observării şi volumul acesteia;
2. unitatea statistică;
3. caracterizarea variabilelor statistice în raport cu care a fost studiată populaţia;
4. caracterizarea seriei statistice în raport cu toate criteriile cunoscute;
5. elaborarea seriei bidimensionale formată cu frecvenţe relative, interpretare;
6. extragerea repartiţiilor unidimensionale marginale şi a celor condiţionate;
7. pornind de la o repartiţie marginală deduceţi celelalte serii statistice posibile,
interpretare.
P3. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie statistică de repartiţie,
având la bază o variabilă de spaţiu, relativ la care se cere:
1. denumirea populaţiei statistice şi volumului ei;
2. unitatea statistică;
3. caracterizarea seriei după toate criteriile cunoscute;
4. deducerea seriei formată cu frecvenţe relative;
5. interpretare.
P4. Din Anuarul Statistic sau alte surse informaţionale extrageţi două serii cronologice având
la bază indicatorul de nivel, una de momente, alta de intervale şi deduceţi seriile formate
cu diferenţe absolute, indici statistici, diferenţe relative, cu bază fixă şi cu bază în lanţ
(interpretări).
P5. Daţi 5 exemple de serii cronologice având la bază indicatorul relativ de intensitate.
P6. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie de spaţiu formată cu
indicator de nivel sau indicator relativ de intensitate şi deduceţi seriile formate cu
diferenţe absolute, indici şi diferenţe relative, calculate cu bază fixă. Interpretare.
P7. Extrageţi 5 exemple de serii de spaţiu ce conţin informaţii importante pentru domeniul
economic.
P8. Luând ca exemplu o populaţie statistică studiată în raport cu un anumit număr de variabile
(stabilite în raport cu obiectivul studiului), se cere:
1. elaborarea tuturor seriilor statistice de repartiţie unidimensionale
2. elaborarea a trei serii statistice de repartiţie bidimensionale ( una are la baza două
variabile calitative, una are la bază o variabila calitativă şi o variabilă cantitativă, una
are la bază două variabile cantitative)
3. reprezentarea grafică a: histogramei, poligonului frecvenţei, cercului de structură,
diagramei prin benzi sau coloane, norul statistic, cronograma şi cartograma.
Bibliografie:
2. Buiga, A., Metodologie de sondaj şi analiza datelor în studiile de piaţă, Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2001;
3. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A., Statistică I, Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2003;
4. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Ed. Continental, Cluj-Napoca,
1998.
27
MODULUL 2
PARAMETRII REPARTIŢIILOR EMPIRICE UNIDIMENSIONALE
Obiective
• cunoaşterea şi înţelegerea modului de calcul precum şi a semnificaţiei parametrilor
statistici.
• ilustrarea trăsăturilor esenţiale care caracterizează fenomenele social - economice
• cunoaşterea şi măsurarea variaţiei unei mărimi în raport cu nivelul mediu al acesteia
Concepte de bază
• valoare medie, mediană, modală
• parametrii de structură
• variaţie, abatere medie, dispersie
• parametrii concentrării
• asimetrie şi boltire
Rezultate aşteptate
Sinteza
A. Valoarea medie
28
(
G (x1 , x 2 ,..., x R ) = G X , X ,..., X . ) (2.0)
R
G ( x1 , x 2 ,..., x R ) = ∑ xi N i
i =1
semnificând numărul total de copii din localitatea respectivă. Pentru a găsi numărul mediu de
copii pe familie se particularizează relaţia (2.0) după cum urmează
R R
∑ xi ⋅ Ni = ∑ X ⋅ Ni
i =1 i =1
de unde rezultă:
R
∑x i ⋅ Ni
X = i =1
R
∑N i =1
i
29
Pentru a înţelege semnificaţia valorii medii X , trebuie subliniat faptul că, în general,
variaţia unui fenomen, de orice natură, şi în particular variaţia unei variabile X în raport cu
care este cercetată o populaţie, este determinată de acţiunea simultană a două categorii de
factori: factori esenţiali şi factori neesenţiali.
În categoria factorilor esenţiali intră acei factori care acţionează asupra tuturor
unităţilor populaţiei în mod continuu şi în acelaşi sens, determinând, în principal, nivelul de
dezvoltare a variabilei pentru fiecare unitate componentă din populaţie.
Factorii esenţiali se conjugă în acţiunea lor cu factorii neesenţiali, care, în general, au
un caracter aleator, sunt numeroşi şi neuniform răspândiţi printre unităţile populaţiei.
Fiecare din factorii consideraţi neesenţiali acţionează numai asupra unui anumit număr
de unităţi din populaţie. Ca urmare, aceştia pot contribiu fie la creşterea nivelului variabilei
(pentru unele unităţi din populaţie), fie la scăderea nivelului variabilei (pentru alte unităţi din
populaţie).
La rândul lor factorii esenţiali nu acţionează cu aceeaşi intensitate asupra tuturor
unităţilor din cadrul populaţie considerate, determinând, în acest fel, variaţia neuniformă a
variabilei respective în cadrul populaţiei.
În consens cu cele subliniate mai sus, se poate afirma că parametrul valoarea medie a
unei serii statistice care are la bază variabila X, constituie acel nivel pe care l-ar putea
înregistra variabila în cadrul populaţiei cercetate în condiţiile în care factorii neesenţiali nu s-
ar fi manifestat, iar factorii esenţiali ar fi acţionat asupra unităţilor din populaţie cu aceeaşi
intensitate.
Parametrul valoarea medie, calculat pentru o serie statistică, pune în evidenţă ceea ce
este comun, general şi esenţial sub aspectul nivelului de dezvoltare al variabilei, în raport cu
care este studiată o populaţie.
În raport cu natura variabilei ce stă la baza seriei, cât şi a formei de prezentare a
indicatorilor cu care aceasta este construită, există mai multe posibilităţi de calcul a valorii
medii.
Funcţia determinată G, sub forma sa cea mai generală, are următoarea expresie
analitică:
1
⎛ R K ⎞K
G (x1 , x 2 ,..., x R ) = ⎜ ∑ xi ⋅ f i ⎟ (2.2)
⎝ i =1 ⎠
1. Media aritmetică
30
Acesta este indicatorul cel mai utilizat în calculul parametrului valoarea medie a unei serii
statistice, aşa cum rezultă din practica statistică.
Se consideră acum două serii statistice de repartiţie, una formată din frecvenţe absolute, iar
cealaltă din frecvenţe relative:
⎛ xi ⎞
X : ⎜⎜ ⎟⎟ (2.3)
⎝ N i ⎠ i =.1, R
⎛ xi ⎞
X : ⎜⎜ ⎟⎟ (2.4)
⎝ f i ⎠ i =.1, R
∑ xi N i
X= ; X = ∑ xi f i
∑Nj
Dacă seria este de intevale, construită cu frecvenţe absolute avem:
'
∑ xi .N i
X=
∑Nj
Fie o serie de repartiţie, care are la bază o variabilă continuă X, respectiv,
⎛ xi −1 − xi ⎞
X : ⎜⎜ ⎟⎟
⎝ f i ⎠i =.1, R
xi + xi −1
Folosind notaţiile: = xi'
2
unde x i' reprezintă mijlocul intervalului “i”, obţinem relaţia:
R
X = ∑ xi' ⋅ f i
i =1
2. Media armonică
Se consideră o serie de forma:
⎛x ⎞
X : ⎜⎜ i ⎟⎟ (2.5)
⎝ N i ⎠ i =1, R
În cazul unei serii discrete de forma (2.5), media armonică notată cu X −1 se defineşte prin:
31
R
∑N
i =1
i
X −1 = R
(2.6)
1
∑
i =1 x i
⋅ Ni
∑N
i =1
*
R
X −1 = R
= R
(2.7)
1 1
∑
i =1 xi
⋅N* ∑
i =1 xi
care reprezintă formula mediei armonice simple.
În cazul unei serii care are la bază o variabilă continuă X, respectiv,
⎛x − x ⎞
X : ⎜⎜ i −1 i ⎟⎟
⎝ Ni ⎠i =1, R
procedând ca la media aritmetică, pentru media armonică rezultă:
R
∑N
i =1
i
X −1 = R
(2.8)
1
∑ '
i =1 x i
⋅ Ni
3. Media geometrică
Pentru o serie care are la bază variabila discretă X, formată cu frecvenţe absolute, media
geometrică notată cu X g (sau X o ) este definită prin expresia:
Din (2.9), pentru media geometrică ponderată exprimată cu frecvenţe relative se deduce:
1/ N
⎛ R N⎞ R R
⋅ x 2 2 ... x R R = ⎜⎜ ∏ xi i ⎟⎟ = ∏ xi = ∏ xi i
N1 N N Ni / N f
Xg = N
x
1
⎝ i =1 ⎠ i =1 i =1
(2.10)
32
Dacă variabila X, de la baza seriei este de variaţie continuă, atunci relaţiile de calcul pentru
diversele variante de medie geometrică, rămân variabile cu singura modificare că valorile xi,
i = 1, R , se înlocuiesc cu mijloacele intervalelor de variaţie, calculate conform formulei:
xi −1 + xi
xi' = , i = 1, R (2.11)
2
B. Valoarea mediană
Valoarea mediană, notată cu M e este acea valoare a variabilei cantitative X care împarte
repartiţia în două părţi egale, respectiv:
N
FN (M e ) = 1 / 2 sau N ( M e ) = (2.12)
2
Calculul valorii mediane se face diferenţiat, după cum seria are la bază o variabilă discretă sau
continuă.
Pentru o repartiţie discretă, calculul medianei nu implică probleme deosebite şi nici un
volum mare de calcule.
Se consideră o repartiţie cu frecvenţe absolute:
⎛ x x2 ... xi ... xR ⎞
X : ⎜⎜ 1 ⎟⎟. (2.13)
⎝ N1 N 2 ... N i ... N R ⎠
În calculul valorii mediane a unei serii discrete, pot apărea două situaţii:
a) volumul N al populaţiei este un număr impar;
b) volumul N al populaţiei este un număr par.
În ambele cazuri, calculul medianei presupune, în prima fază, determinarea rangului
medianei, notat cu rM e , conform următoarei relaţii:
1 R
rM e = ⋅ ∑ N i = N (M e ) (2.14)
2 i =1
a) Dacă volumul populaţiei N este un număr impar, rangul medianei este un număr zecimal a
⎡N ⎤
cărui parte întreagă ⎢ ⎥ indică numărul de unităţi din populaţie pentru care variabila X a
⎣2⎦
înregistrat valori mai mici ca mediana. Ca urmare, M e trebuie să fie valoarea imediat
⎡N ⎤
următoare celei de rang ⎢ ⎥ adică:
⎣2⎦
M e = x⎛ ⎡ N ⎤ ⎞
(2.15)
⎜⎜ ⎢ ⎥ +1 ⎟⎟
⎝⎣ 2 ⎦ ⎠
b) Dacă volumul populaţiei este un număr par, rangul medianei este un număr întreg şi ca
urmare la mijlocul seriei nu se mai află o valoare a variabilei X cu care să coincidă mediana ci
se găsesc două valori, mediana calculându-se în acest caz ca media aritmetică a acestora.
Relaţia de calcul a medianei, în acest caz, este:
33
x⎡ N ⎤ + x⎛ ⎡ N ⎤ ⎞
⎢2⎥ ⎜⎜ ⎢ ⎥ +1 ⎟⎟
⎣ ⎦ ⎝⎣ 2 ⎦ ⎠
Me = (2.16)
2
Pentru o repartiţie continuă, calculul valorii mediane presupune verificarea egalităţii (2.12) şi
ca urmare, trebuie cunoscută densitatea de repartiţie f(x). Determinarea funcţiei f(x) implică
un volum mare de calcule şi deci, din acest motiv, în activitatea practică f(x) este aproximat.
Acest lucru va conduce la o expresie aproximativă de calcul a valorii mediane, care necesită
un volum redus de calcule.
Pentru acesta se consideră o repartiţie continuă în raport cu variabila X, şi anume:
⎛ x − x1 x1 − x 2 ... x i −1 − x i ... x R −1 − x R ⎞
X : ⎜⎜ 0 ⎟. (2.17)
⎝ N1 N2 ... Ni ... N R ⎟⎠
unde intervalele xi-1-xi, i = 1, R pot fi de lungime egală sau neegală. Calcularea rangului
medianei va permite stabilirea intervalului în care se află valoarea mediană, interval numit şi
interval median. Se cumulează frecvenţele absolute din aproape în aproape până ce este
îndeplinită inegalitatea:
1
N 1 + N 2 + ... + N i ≥ N
2
Ultima frecvenţă Ni cumulată, ne permite să indicăm intervalul median [x i −1 − x i ) .
Formula aproximativă de calcul a medianei:
N ( M e ) − N ( xi −1 )
M e = xi −1 + ⋅ ( xi − xi −1 ) (2.18)
Ni
C. Valoare modală
Valoarea modală Mo(X) a unei repartiţii reprezintă aceea valoare a variabilei X căreia îi
corespunde frecvenţa cea mai mare.
Acest parametru se mai numeşte modul, valoare dominantă, sau modă se notează cu Mo.
Mod de calcul:
a) Pentru o serie de repartiţie discretă, dată sub forma
⎛ x x ... x i ... x R ⎞
X : ⎜⎜ 1 2 ⎟⎟. (2.19)
⎝ f 1 f 2 ... f i ... f R ⎠
34
valoarea modală se citeşte direct din serie, nefiind nevoie de nici o tehnică sau formulă de
calcul. În cazul acestui tip de serie, valoarea modală va fi acea valoare a variabilei X pentru
care frecvenţa este cea mai mare.
b) Pentru serii de repartiţie continue, respectiv:
⎛ x − x1 x1 − x 2 ... x i − 2 − x i −1 x i −1 − x i x i − x i +1 ... x R −1 − x R ⎞
X : ⎜⎜ 0 ⎟⎟ (2.20)
⎝ f1 f2 ... f i −1 fi f i +1 ... fR ⎠
Modala nu poate fi determinată direct.
Intervalul căruia îi corespunde frecvenţa cea mai mare, se numeşte intervalul modal şi va
conţine modala. Să presupunem că intervalul modal este xi-1-xi.
O serie poate avea o singură valoare modală, caz în care seria se numeşte unimodală. Dacă o
serie are mai multe valori modale, atunci se numeşte plurimodală. O serie plurimodală
evidenţiază faptul că populaţia în cauză este neomogenă. Calculul valorii modale, în
asemenea cazuri, presupune o delimitare mai riguroasă a obiectului observării cât şi a
populaţiei care urmează să fie studiată. O altă cale, care poate duce la eliminarea unui
asemenea neajuns, o constituie comasarea a două câte două sau trei câte trei intervale etc.,
până se ajunge la o serie unimodală.
În cazul unei serii simetrice valoarea modală coincide cu valoarea medie şi cu mediana.
Pentru serii uşor asimetrice, K. Pearson a stabilit următoarea relaţie între cei trei parametri:
(
Mo = X − 3 X − Me )
unde X este media aritmetică a variabilei X.
Calculul valorii modale reprezintă un deosebit interes pentru activitatea practică. Având în
vedere că semnificaţia acestui parametru – indică acea valoare a variabilei înregistrată de cele
mai multe unităţi din populaţie – se poate afla: ora la care sunt solicitate cele mai multe
35
convorbiri telefonice, ora de vârf privind transportul în comun, mărimea cea mai solicitată la
încălţăminte etc.
Dacă valoarea modală este identică cu valoarea medie, atunci se poate afirma că valoarea
medie se bucură de o mai mare reprezentativitate.
Dacă, în plus, avem M e = M o = X , ţinând seama că valoarea mediană nu este influenţată de
valorile extreme ale variabilei, se poate afirma că mediana reprezintă un grad de
reprezentativitate mai mare decât valoarea medie.
Frecvente sunt cazurile când este necesară studierea structurii unei populaţii în raport cu o
variabilă sau alta. Parametrii statistici, în forma cea mai generală, folosiţi în caracterizarea
structurii unei populaţii poartă denumirea de valori quantile.
Valorile quantile ale unei serii de repartiţie unidimensionale sunt acele mărimi înregistrate de
variabila X, care împart seria în n părţi egale (mai precis împarte populaţia în n părţi egale). În
acest caz se vor calcula p quantile (p = n-1).
Pentru o serie continuă, a cărei densitate de probabilitate f(x) este cunoscută, următoarea
egalitate este satisfăcută de cele p quantile:
q1 q2 xR
1
∫
x1
f ( x)dx = ∫
q1
f ( x)dx = ... = ∫
q n −1
f ( x)dx =
n
(2.22)
FN (q p ) = p ⋅
1 N
sau N (q p ) = p ⋅ , ∀ p = 1, n - 1
n n
Modul de calcul a valorilor quantile diferă în raport cu tipul seriei.
Fie o serie de repartiţie, care are la bază o variabilă X discretă, de următoarea formă:
⎛ x x2 ... xi ... xR ⎞
X : ⎜⎜ 1 ⎟⎟. (2.24)
⎝ N1 N 2 ... N i ... N R ⎠
Pentru calculul valorii quantile de ordinul p ( p = 1, n − 1) , în prima etapă trebuie determinat
rangul acesteia:
N
rq p = N ( q p ) = p ⋅ (2.25)
n
Se disting două cazuri:
36
a) dacă p·N se divide cu n atunci quantila de ordin p se calculează ca o medie aritmetică
simplă a valorilor variabilei X, de ordinul rangului şi al rangului majorat cu o unitate, după
cum urmează:
x rq p + x ( rq p +1)
qp = (2.26)
2
b) dacă p·N nu se divide cu n atunci quantila de ordin p este egală cu acea valoare a variabilei
X corespunzătoare parţi întregi a rangului majorat cu 1:
q p = x[ rq p +1] (2.27)
În cazul seriilor care au la bază o variabilă continuă, conform definiţiei, cele n-1
quantile trebuie să satisfacă relaţia (2.22). Determinarea quantilelor din asemenea egalităţi ar
presupune cunoaşterea densităţii de probabilitate f(x). Ori în activitatea practică f(x) se
aproximează prin diverse procedee, implicând un volum exagerat de calcule.
În vederea găsirii unor formule aproximative de calcul a quantilei de ordin
p ( p = 1, n − 1) se consideră o serie de variaţie continuă, ale cărei intervale de variaţie nu
trebuie să fie neapărat egale ca lungime:
⎛ x − x1 x1 − x 2 ... x i −1 − x i ... x R −1 − x R ⎞
X : ⎜⎜ 0 ⎟. (2.28)
⎝ N1 N2 ... Ni ... N R ⎟⎠
Cunoscând rangul, se poate identifica intervalul în care se află quantila de ordinul p, numit şi
intervalul quantilei de ordinul p ( p = 1, n − 1) . Cumulând frecvenţele pe clase până la egalarea
s-au depăşirea rangului, conform inegalităţii:
1 R
N 1 + N 2 + ... + N i ≥ p ⋅ ⋅ ∑ N i (2.29’)
n i =1
37
Procedeul de determinare a quantilei de ordinul p = 1, n − 1 este acelaşi şi în cazul în
care seria (2.28) este formată din frecvenţe relative.
Caracterizarea structurii unei serii se poate face utilizând diverse cazuri particulare de
valori quantile.
Valoarea mediană (Me) este şi un parametru de structură obţinându-se ca un caz
particular de quantilă, când n=2. Dacă pentru o serie se cunoaşte Me (quantila de ordinul 2),
atunci structura populaţiei poate fi redată astfel:
⎛ X − Me M e − xmax ⎞
X : ⎜⎜ min ⎟ (2.31)
⎝ 50% 50% ⎟⎠
semnificând faptul că jumătate din populaţia supusă studiului a înregistrat pentru variabila X
valori cuprinse între valoarea minimă a lui X şi mediană, iar cealaltă jumătate din populaţie a
înregistrat pentru X valori cuprinse între mediană şi valoarea maximă a lui X.
Valorile quartile reprezintă acel caz particular al valorilor quantile pentru care n=4.
Cele trei quartile, care se obţin, notate: Q1, Q2 şi Q3 sunt acei parametri de structură care
împart populaţia în patru părţi egale.
În raport cu mediana, quartila întâi Q1, se numeşte quartila mică (inferioară), quartila
a doua Q2 coincide cu mediana şi se numeşte quartila mijlocie, iar quartila a treia Q3 se
numeşte quartila mare (superioară).
Cunoscându-se cele trei quartile, rezultă următoarea structură a populaţiei în raport cu
variabila X:
⎛ x − Q1 Q1 − Q2 Q2 − Q3 Q3 − X max ⎞
X : ⎜⎜ min ⎟ (2.32)
⎝ 25% 25% 25% 25% ⎟⎠
ceea ce semnifică o structurare a populaţiei supusă studiului în patru parţi egale.
Aceasta înseamnă că 25% din unităţile popupaţiei înregistrează valori pentru variabila
X mai mici decât quartila mică, 25% din unităţile populaţiei înregistrează valori, în raport cu
aceeaşi variabilă X, cuprinse între quartila mică şi cea mijlocie, 25% vor avea valori cuprinse
între quartila mijlocie şi quartila mare, iar restul 25% din unităţile populaţiei vor avea valorile
pentru variabila X cuprinse între quartila mare şi valoarea maximă a lui X.
Studiul unor populaţii statistice prezintă importanţă numai din punct de vedere al unor mărimi
care variază de la o unitatea la alta sau de la un grup de unităţi la altul.
Valorile înregistrate de o variabilă cantitativă, în raport cu care este studiată o populaţie, se
datoresc acţiunii diferiţilor factori esenţiali şi neesenţiali.
Intensitatea diferită cu care se pot manifesta factorii esenţiali cât şi sensul contrar cu care pot
acţiona factorii neesenţiali în raport cu fiecare unitate, provoacă nivele diferite înregistrate de
variabile în raport cu care este studiată populaţia.
Problema măsurării variaţiei unei variabile cantitative este importantă pentru a vedea în ce
măsură valoarea medie a acesteia poate reprezenta întrega populaţie.
38
Dacă abaterile de la valoarea medie sunt neesenţiale atunci se poate afirma că populaţia este
omogenă şi că acest parametru poate reprezenta tendinţa centrală, iar dacă aceste abateri sunt
mari atunci populaţia este eterogenă şi valoarea medie nu are capacitatea de a reprezenta
populaţia.
Pentru unele serii, valoarea medie nu se poate calcula. În asemenea cazuri, parametrul
valoarea mediană poate să-i ia locul. Aceeaşi problemă se pune şi în acest caz, de a vedea în
ce măsură valoarea mediană este sau nu reprezentativă pentru populaţia în cauză.
O altă problemă care nu se poate rezolva fără a studia şi măsura variaţia înregistrată de o
variabilă în raport cu care este studiată o populaţie, o constituie verificarea de ipoteze. În
activitatea practică, de multe ori pornind de la valorile unor parametrii calculaţi pe baza
datelor culese relativ la un număr mic de unităţi, este necesar a fi extinşi la nivelul întregii
populaţii sau de a se verifica anumite ipoteze statistice.
Parametrii variaţiei se pot calcula atât sub formă absolută cât şi relativă, şi măsoară
împrăştierea valorilor unei variabile cantitative faţă de valoarea medie sau valoarea mediană.
Ca urmare, în funcţie de elementul de referinţă folosit în măsurarea variaţiei, deosebim:
- parametrii variaţiei în raport cu valoarea medie;
- parametrii variaţiei în raport cu valoarea mediană.
∑x
i =1
i − X ⋅ Ni
dx = R
(2.34)
∑N
i =1
i
Dacă seria are la bază o variabilă continuă şi se cunoaşte f(x), atunci abaterea medie liniară se
calculează astfel:
xR
dx = ∫ x − X ⋅ f ( x)dx
x1
(2.35)
39
R
∑x '
i
− X ⋅ Ni R
dx = i =1
R
sau d x = ∑ x 'i − X ⋅ fi (2.36)
∑ Ni
i =1
i =1
după cum seria în cauză este formată cu frecvenţe absolute sau relative, unde:
x i −1 + x i
x i' = , i = 1, R
2
este mijlocul intervalului “i”.
Acest parametru serveşte caracterizării sintetice a gradului de reprezentativitate a valorii
medii, arătând cu cât se abate în medie orice valoare a variabilei X de la valoarea medie X ,
într-un sens sau altul.
Sub forma relativă, acest indicator poartă denumirea de coeficient simplu de variaţie şi se
calculează conform relaţiei:
dx
Vx = ⋅100 (2.37)
X
Coeficientul simplu de variaţie (Vx) arată cu cât se abate în medie orice valoare a variabilei X
de la valoarea medie echivalentă cu 1 sau 100%. Calculat pentru două serii diferite, se poate
aprecia gradul de reprezentativitate a celor două medii. Se apreciază mai reprezentativă acea
valoare medie pentru care coeficientul simplu de variaţie este mai mic.
Parametrul abaterea medie liniară, în forma absolută sau relativă, prezintă unele deficienţe
deoarece nu este suficient de sensibil la abaterile mici, adăugându-se şi unele inconveniente
de natură teoretică, generate de exprimarea abaterilor în valoarea absolută.
Înlăturarea acestor deficienţe se poate realiza apelând la un nou parametru privind măsurarea
variaţiei, numit abatarea medie pătratică.
Acest indicator este utilizat atât pentru caracterizarea gradului de reprezentativitate a valorii
medii cât şi în scopul estimării unor parametri necunoscuţi.
Abaterea medie pătratică, notată cu σx , se defineşte ca fiind media pătratică a abaterilor
valorilor variabilei X, de la valoarea medie X , adică:
σ x = M (X − X )2 (2.38)
Un calcul intermediar în aflarea acestui parametru, îl constituie calcularea pătratului abaterii
medii pătratice, care se numeşte dispersie sau varianţă şi are următoarea expresie de calcul:
σ x2 = M ( X − X ) 2 = D 2 ( X ) (2.39)
V(x) reprezintă o altă notaţie pentru varianţă, pe lângă σ2x .
Varianţa fiind un calcul intermediar în aflarea abaterii medii pătratice, în cele ce urmează se
va prezenta modul de calcul al acesteia.
40
Relaţia de calcul a varianţei se particularizează în raport cu tipul seriei. În cazul unei serii care
are la bază o variabilă X discretă, conform definiţiei, varianţa are expresia:
R
∑ (x i − X )2 ⋅ Ni
σ x2 = i =1
R
(2.40)
∑N i =1
i
În cazul unei serii care are la bază o variabilă X continuă, varianţa se calculează conform
următoarei relaţii:
∫ (x − X )
xR
2
σ = 2
x ⋅ f ( x) ⋅ dx (2.41)
x1
41
şi arată cu cât se abat în medie, în plus sau în minus, de la mediană, cele 50% din valorile
variabilei cuprinse între Q1 şi Q3.
Forma relativă a acestui indicator notat cu Qr:
Q Q − Q1
Qr = ⋅100 = 3 ⋅ 100 (2.44)
Me 2⋅ Me
se numeşte coeficient de variaţie interquartilic şi arată cu cât se abat în medie de la mediană
(considerată egală cu 100), valorile variabilei înregistrate pentru cele 50% din unităţile
populaţiei cuprinse între Q1 şi Q3.
Ca atare, se apreciază că împrăştierea unităţilor în cadrul populaţiei studiate este cu
atât mai mare, în raport cu variabila de studiat, cu cât abaterea interquartilă în valoarea
absolută (2.43) sau relativă (2.44) este mai mare.
Abaterea interquantilă
Energia informaţională
unde s-a notat cu E energia informaţională. Este un parametru utilizat în cazul în care seria are
la bază o variantă nenumerică.
În cazul unei populaţii caracterizată de un grad de concentrare maxim, va exista o
clasă care va avea frecvenţa relativă egală cu 1, iar celelalte vor avea frecvenţele relative 0 şi
ca urmare: Emax = 1.
Dacă populaţia este caracterizată de o concentrare minimă, atunci:
⎛ x x2 ... xR ⎞
X : ⎜⎜ 1 ⎟⎟
⎝1 / R 1 / R ... 1 / R ⎠
42
iar
1 1
Emin = R ⋅ 2
=
R R
Se observă că:
1
≤ E ≤1
R
Forma relativă a acestui parametru, notată cu Er, se deduce astfel:
R
1 1
E−
R =
∑f i
2
−
R
Er = i =1
1 1
1− 1−
R R
de unde:
0 ≤ Er ≤ 1
Referitor la populaţia dată, studiată în raport cu o variabilă X, se calculează Er, iar dacă:
- Er se apropie de 1, atunci populaţia respectivă este caracterizată de un grad înalt de
concentrare;
- Er se apropie de 0, populaţia în cauză se caracterizează printr-o concentrare minimă.
Din aplicaţiile practice, precum şi din alte surse, s-au constatat că graficele pot avea diverse
forme, dintre care: formă de coplot, formă de U, J, L sau alte forme. Ceea ce prezintă
importanţă, nefiind surprins de nici un parametru prezentat, îl constituie modul de repartizare
a valorilor variabilei de o parte şi de alta a valorii medii, considerată şi centrul de greutate a
seriei. Acest lucru nu înseamnă altceva decât evidenţierea acelei curbe care aproximează cel
mai bine conturul poligonal al seriei respective şi în acelaşi timp o imagine mai clară asupra
gradului de reprezentativitate a valorii medii.
În marea majoritate a cazurilor, distribuţia unităţilor unei populaţii se face după un clopot
(după legea normală a lui Gauss). Dar unitătile nu se distribuie uniform în jurul valorii medii,
ceea ce poate conduce la înclinaţii într-o direcţie sau alta a valorii medii. Această distribuire
neuniformă poate conduce la cazul când diferite serii (diferit distribuite în jurul valorii medii)
să aibă aceeaşi medie, acelaşi σ şi totuşi o curbă să fie mai aplatizată decât cealaltă, simetrică
sau mai puţin simetrică. Evidenţierea acestor diferenţe poate fi realizată cu ajutorul
parametrilor formei.
Parametrii formei unei serii de repartiţie, după conţinut, se clasifică în două grupe:
- parametrii asimetriei;
- parametrii boltirii.
43
2.5.1. Parametrii asimetriei
Asimetria unei serii se defineşte în raport cu dispunerea unităţilor într-o parte sau alta a valorii
medii.
În acest sens, o serie de repartiţie este simetrică în raport cu media sa dacă frecvenţele
valorilor variabilei X egal depărtate de valoarea medie sunt egale între ele, adică:
( ) (
f X −δ = f X +δ )
oricare ar fi δ astfel încât X − δ şi X + δ să se afle printre valorile lui X.
α3 =
(
M X−X )
3
(2.47)
σ X3
α3 =
( )
M X−X
3
⎛⎜ M (X − X ) ⎞⎟ 2 3
⎝ ⎠
Calculând valoarea acestui parametru, în funcţie de semnul ei, avem următoarele cazuri:
( )3
1. α 3 = 0, ceea ce înseamnă că M X − X = 0, adică suma tuturor abaterilor cu semnul minus
este egală cu suma tuturor abaterilor cu semnul plus, ridicate la puterea a treia. Ca urmare în
acest caz se poate spune că seria este simetrică.
( ) 3
2. α 3 > 0, ceea ce înseamnă că M X − X > 0. Aceasta este echivalent cu faptul că pe total
suma abaterilor cu semnul plus de la valoarea medie este mai mare decât suma abaterilor cu
semnul minus şi ca urmare seria prezintă o asimetrie pozitivă.
( )
3
3. α 3 < 0, deci M X − X < 0. Aceasta înseamnă că pe total, suma abaterilor cu semnul
minus este mai mare decât suma abaterilor cu semnul plus de la valoarea medie. O astfel de
serie se spune că reprezintă o asimetrie negativă.
Aprecierea boltirii unei serii este utilă în caracterizarea gradului de reprezentativitate a valorii
medii cât şi pentru compararea reprezentativităţii a două sau mai multe valori medii ce
reprezintă serii diferite.
44
( )4
Parametrul M X − X dă o caracterizare numerică sub formă absolută a gradului de boltire a
unei serii. Sub formă relativă, gradul de boltire se măsoară cu parametrul:
B4 =
(
M X−X )
4
(2.48)
σ X4
Pentru a înţelege semnificaţia boltirii unei serii, se consideră două serii statistice care au la
bază variabilele X şi Y, iar
X = Y; σ X = σY
Mai presupunem, în plus, că cele două distribuţii au formă de clopot pentru care α 3X = α 3Y ,
adică ambele sunt simetrice. Deşi s-ar părea că cele două serii nu au nimic care să le
deosebească, totuşi reprezentându-le grafic rezultă două curbe de forma:
X =Y σ X = σY
unde graficul lui X este mai înalt, iar al celeilalte mai plat. Ca urmate, se observă că cele două
serii nu sunt caracterizate de aceeaşi boltire.
Boltirea unei serii este utilă pentru a da o caracetrizare mai exactă reprezentativităţii valorii
medii.
În cazul exemplului prezentat mai sus, atât mediile cât şi abaterile medii pătratice sunt egale şi
ca urmare, coeficientul de variaţie al lui Pearson este acelaşi pentru cele două serii. Deci
rezultă că ambele valori medii prezintă acelaşi grad de reprezentativitate. Cu toate acestea,
graficele celor două serii contrazic concluzia dedusă în urma comparării celor doi coeficienţi
de variaţie.
Valoarea medie cea mai reprezentativă în seria în care cele mai multe unităţi ale populaţiei
cercetate au înregistrat valori, mai apropiate de valoarea medie. Pentru o astfel de serie,
împrăştierea faţă de valoarea medie fiind mică, graficul are o formă mai ascuţită în cazul
seriei X şi mai plată în cazul seriei Y.
Nivelul boltirii pentru o serie oarecare dată se măsoară cu ajutorul parametrului B4, a cărui
expresie de calcul este dată de relaţia (2.48). Valoarea lui B4 pentru o distribuţie normală este
egală cu 3. Pentru orice altă curbă corespunzătoare unei serii date şi aproximată cu un clopot,
raportul între momentul centrat de ordinul patru şi pătratul momentului centrat de ordinul al
45
doilea, este un număr diferit de 3, curba respectivă fiind mai ascuţită sau mai plată decât curba
normală a lui Gauss.
Comparând gradul de boltire al unei serii oarecare şi gradul de boltire al clopotului lui Gauss,
Fisher a stabilit următoarea expresie de calcul al coeficientului boltirii, notat cu B4’:
B =
' (
M X−X )
4
Bibliografie:
1. Buiga, A., Metodologie de sondaj şi analiza datelor în studiile de piaţă, Ed. Presa
Universitară Clujeană, Cluj-Napoca, 2001;
2. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A., Statistică I, Ed. Presa Universitară
Clujeană, Cluj-Napoca, 2003;
3. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Ed. Continental, Cluj-Napoca,
1998.
46
MODULUL 3
Obiective
• Însuşirea conceptelor de corelaţie si regresie si utilizarea lor în economie;
• Cunoaşterea posibilităţilor de cuantificare a intensităţii legăturii dintre diversele
mărimi economice;
• Însuşirea metodelor de stabilire a unei legături funcţionale între variabile.
Concepte de bază
• Corelaţia dintre variabile, coeficienţi de asociere, coeficient de corelaţie;
• Corelaţia rangurilor, coeficienţii lui Kendall si Spearman;
• Metoda celor mai mici pătrate, regresia liniară simplă;
• Regresia liniară multiplă, regresii neliniare: hiperbolică, parabolică, exponenţială.
Rezultate aşteptate
După parcurgerea acestui modul se cere studentului să stăpânească noţiunile de corelaţie şi
regresie, să poată identifica existenţa unei eventuale legături între două mărimi. De asemenea
să ştie măsura intensitatea legăturii dintre variabile, fie ele cantitative sau calitative. Se
urmăreşte şi cunoaşterea metodelor de modelare funcţională a legăturilor.
Sinteza
Ne propunem abordarea unor metode statistice caracteristice studiului seriilor
multidimensionale. Scopul acestora este de a identifica şi utiliza eventualele legături care se
pot manifesta între două sau mai multe variabile. Prezinta interes: existenţa legăturii,
intensitatea acesteia, forma funcţională a legăturii, parametrii şi reprezentativitatea ei privind
fenomenul cercetat. Problematica legăturilor dintre variabile este foarte curent întâlnită în
economie. Spunem că salariul unui angajat este în funcţie de productivitatea muncii sale,
vechimea în muncă, responsabilitatea activităţii sale, etc ; sau cererea dintr-un produs este în
funcţie de preţul produsului, venitul consumatorilor, etc. De fiecare dată, atât în teoria
economică, cât şi în aplicaţii se întâlneşte expresia “fie funcţia cererii…”. În realitatea
economică însă, această funcţie nu se dă, nu se cunoaşte, ci trebuie estimată pornind de la o
bază de date. Această problemă de estimare a unei funcţii şi alte probleme colaterale ei fac
obiectul acestui capitol.
Pentru a putea aborda studiul legăturilor dintre variabile trebuie să ştim în primul rând
dacă există sau nu o legătură între variabilele studiate (sau între fenomenele pe care acestea le
reprezintă) şi care este natura acestora. Putem clasifica legăturile dinte variabile astfel :
1. Legătura nulă. Semnifică lipsa oricărei legături între două sau mai multe fenomene
sau variabile care cuantifică fenomenele. De exemplu, o legătură nulă se manifestă între
înălţimea unui angajat şi salariul acestuia sau între produsul intern brut al unei ţări şi vârsta
primului ministru. Din punct de vedere statistic, spunem că între două variabile X şi Y există o
legătură nulă, sau nu există legătură, dacă cov( x, y ) = 0 .
47
2. Legătura deterministă. Spunem că între variabilele X şi Y există o legătură
deterministă dacă unei valori a lui X îi corespunde o singură valoare a lui Y. Astfel de legături
se întâlnesc în special în fizică, unde de exemplu viteza este egală cu distanţa împărţită la
timp: v = d / t , sau forţa este egală cu masa înmulţită cu acceleraţia: F = m ⋅ a . Astfel de
exemple există şi în economie, unde rata profitului este egală cu profitul împărţit la cifra de
afaceri: rπ = π / C. A. ⋅ 100% . Legătura este deterministă pentru că variabila rπ este perfect
determinată de celelalte două: π şi C.A. Adică pentru o anumită valoare a profitului şi o
anumită valoare a cifrei de afaceri nu putem avea decât o singură valoare a ratei profitului.
3. Legătura statistică. Se mai numeşte şi stocastică sau probabilistă. Este tipul de
legătură cel mai des întâlnită în ştiinţele sociale, deci şi în economie. Fiecărei valori xi a
variabilei X îi corespunde o distribuţie de valori ale variabilei Y. Matematic, o astfel de
legătură se exprimă sub forma y = f ( x) + ε , unde am notat prin ε componenta aleatoare
reziduală, datorată acţiunii asupra lui Y a celorlalţi factori decât X. Deşi s-ar putea spune că
prin luarea în considerare a tuturor factorilor care influenţează variabila Y, legătura este
intrinsec deterministă, în ştiinţele economice vom întâlni aproape întotdeauna un număr foarte
mare de factori, care nu pot fi identificaţi şi cuantificaţi în totalitatea lor. Asfel, funcţia care îl
explicitează pe Y are două componente: una determnistă, f ( x1 , x2 ,..., xn ) , cuprinzând
variabilele cuantificabile de care depinde Y, şi una aleatoare, ε , cuprinzând variabilele ce nu
au putut fi cuantificate.
Studiul legăturilor dintre variabile s-a dezvoltat într-o disciplină aparte, numită
econometrie. În capitolul de faţă nu ne propunem deci decât o introducere în această
problematică, fără a aborda elemente de inferenţă statistică specifice acestor legături. În cele
ce urmează vom prezenta câteva aspecte legate de variabile şi fenomenele reprezentate de
acestea, probleme atât de natura aparatului statistic utilizat, cât şi de aplicabilitatea lui în
contextul economic.
Analiza legăturii dintre variabilele unei repartiţii multidimensionale presupune
abordarea următoarelor probleme, care se pot constitui şi în etape ce trebuie parcurse în
demersul statistic necesar:
1. Organizarea rezultatelor observării populaţiei sau eşantionului în raport cu
variabilele cercetate;
2. Analiza statistică a existenţei legăturii;
3. Analiza statistică a intensităţii legăturii sau a gradului de asociere dintre variabilele
observate;
4. Formularea unor ipoteze cu privire la forma matematică a legăturii;
5. Estimarea parametrilor funcţiei de regresie;
6. Analiza reprezentativităţii funcţiei de regresie.
Aceste etape pot fi parcurse integral sau parţial, în funcţie de natura variabilelor. Pentru
variabilele calitative nu vor fi parcurse (în statistica descriptivă) decât primele trei, deoarece
posibilităţile de prelucrare sunt mai reduse. În schimb, toate cele şase etape pot fi parcurse în
cazul variabilelor cantitative.
48
de obicei o formă tabelară a prezentării, care poate sugera unele idei de lucru pentru etapele
următoare, prin unele remarci cu privire la valorile pe care le-au înregistrat variabilele.
În studiul analizei existenţei legăturii vom folosi atât elemente de statistică deja abordate
în capitolele anterioare, cum ar fi tabelele şi graficele, cât şi parametri (coeficienţi) specifici
acestui capitol. Deoarece prezintă particularităţi distincte, vom aborda separat problematica
subcapitolului în funcţie de tipul variabilelor.
i =1 j =1 N ij
Procedeul prezentat anterior ne permite identificarea existenţei legăturii dintre două variabile,
dar nu şi a intensităţii acesteia. Totuşi, pornind de la el se pot construi coeficienţi care să ne
permită şi aprecierea intensităţii legăturii, aşa cum se va vedea în secţiunile următoare.
Aşa cum s-a văzut în capitolul anterior, dacă dispunem de o repartiţie bidimensională, putem
descompune varianţa totală a variabilei de explicat Y ca sumă a varianţelor datorate variabilei
explicative X şi respectiv celorlalţi factori, adică:
σ Y2 = σ Y2 / X + σ Y2 / X
Dacă nu există legătură, adică X nu are nici o influenţă asupra lui Y, mediile condiţionate
Y / X vor fi identice, iar dispersia lor va fi nulă: σ Y2 / X = 0 .
Putem reţine deci ca regulă de decizie în statistica descriptivă:
49
3.3.Analiza statistică a intensităţii legăturii sau a gradului de asociere dintre variabilele
observate
χ2
C=
N + χ2
Pentru a putea utiliza acest indicator toate unităţile populaţiei trebuie să poată fi ordonate în
raport cu variabilele pentru care cercetăm intensitatea legăturii. Presupunem o populaţie de
volum n observată în raport cu m variabile.
Pentru a putea construi coeficientul, vom defini mai întâi indicatorul de concordanţă (P) şi
respectiv indicatorul de discordanţă (Q). Pe baza indicatorilor de concordanţă şi discordanţă
construim coeficientul de corelaţie simplă a rangurilor al lui Kendall, definit astfel:
P −Q P −Q
τ= =
P + Q n( n − 1)
2
50
În cazul unei legături directe de intensitate maximă, P va lua valoare sa maximă, iar Q pe
n(n − 1)
cea minimă, adică: P = iar Q = 0 , deci τ = 1 .
2
În cazul unei legături inverse de intensitate maximă, P va lua valoare sa minimă, iar Q pe cea
n( n − 1)
maximă, adică: P = 0 iar, Q = deci τ = −1 .
2
În cazul lipsei legăturii, P = Q , iar τ = 0 .
Putem determina astfel intervalul în care va fi cuprins τ , respectiv τ ∈ [-1 ; 1] . Interpretarea
intensităţii legăturii pe baza acestui coeficient se va face astfel:
- dacă τ > 0 legătura este directă
- dacă τ = 0 legătura este nulă
- dacă τ < 0 legătura este inversă
- dacă τ ∈ [0 ; 0,3) legătura este de intensitate slabă
- dacă τ ∈ [0,3 ; 0,7) legătura este de intensitate medie
- dacă τ ∈ [0,7 ; 1] legătura este de intensitate puternică
Limitele celor doi coeficienţi sunt aceleaşi, la fel şi interpretările valorilor numerice.
Raportul de corelaţie
Varianţa explicită σ Y2 / X este cu atât mai mare cu cât mediile condiţionate Y / X sunt mai
diferite între ele. Ceea ce le face să difere este numai influenţa lui X, deoarece am împărţit
populaţia în grupe având ca unic criteriu valorile lui X. Este firesc deci să folosim varianţa
51
explicită ca o mărime absolută a intensităţii legăturii dintre X şi Y şi ponderea varianţei
explicite în varianţa totală ca o mărime relativă. Raportul de corelaţie are expresia:
Vexp Vrez
RYX = = 1−
Vtot Vtot
σ Y2 / X σ Y2 / X
RYX = = 1 −
σ Y2 σ Y2
- dacă nu există legătură între X şi Y, mediile condiţionate Y / X sunt egale între ele,
deci σ Y2 / X = 0 şi RYX = 0
- dacă legătura este de intensitate maximă, nu există influenţe ale altor factori decât
X asupra lui Y, nu există variaţie în cadrul grupelor, deci σ Y2 / X = 0 şi RYX = 1 .
În consecinţă, raportul de corelaţie aparţine intervalului RYX ∈ [0 ; 1] . Interpretarea
intensităţii legăturii pe baza acestui coeficient se va face astfel:
- dacă RYX = 0 legătura este nulă
- dacă RYX ∈ [0 ; 0,3) legătura este de intensitate slabă
- dacă RYX ∈ [0,3 ; 0,7) legătura este de intensitate medie
- dacă RYX ∈ [0,7 ; 1] legătura este de intensitate puternică.
Y / x4
Y / x3
Y / x2
Y / x1
x1 x2 x3 x4 X
52
În funcţie de forma liniei frânte obţinute şi a poziţiei punctelor norului faţă de ea se
formulează o ipoteză cu privire la forma funcţiei de regresie. Dacă dorim să studiem o
legătură multiplă, respectiv dependenţa lui Y faţă de variabilele factoriale X 1 , X 2 ,..., X n atunci
pentru fiecare pereche (Y , X 1 ) , (Y , X 2 ) , (Y , X n ) desenăm câte un nor statistic. Forma
generală a variabilei Y în funcţie de variabilele factoriale X 1 , X 2 ,..., X n se scrie:
Y = f ( X 1 , X 2 ,..., X n ) + ε
unde f ( X 1 , X 2 ,..., X n ) reprezintă funcţia de regresie care aproximează cel mai bine forma
legăturii, iar ε o variabilă aleatoare numită reziduală, care însumează efectul altor factori
decât cei luaţi în calcul.
Este o etapă care se succede firesc alegerii formei funcţiei. În estimarea parametrilor va trebui
să ţinem cont de abaterea punctelor norului faţă de modelul matematic ales Y ( X 1 , X 2 ,..., X n ) ,
datorat altor factori decât X 1 , X 2 ,..., X n , consideraţi neesenţiali, cuantificaţi prin variabila
reziduală ε .
Principiul de la care se porneşte în estimarea parametrilor este cel al patratelor minime.
Minimizăm suma patratelor abaterilor valorilor observate ale lui Y de la nivelul calculat prin
Y ( X 1 , X 2 ,..., X n ) . Condiţia de minim a sumei este echivalentă cu condiţia de minim a mediei:
M [Y − Y ( X 1 , X 2 ,..., X n )] = M (ε 2 ) minimă
2
Regresia liniară
În ipoteza în care legătura dintre Y şi factorii săi de influenţă X 1 , X 2 ,..., X n este liniară,
ecuaţia de regresie va fi de forma:
Y ( X 1 , X 2 ,..., X n ) = a0 + a1 X 1 + a2 X 2 + an X n
Condiţiile de minim constau în anularea celor (n+1) derivate parţiale ale funcţiei
G (a0 , a1 ,.., an ) în raport cu necunoscutele a0 , a1 ,..., an , ceea ce conduce la următorul sistem
de ecuaţii:
53
⎧ ∂G (a0 , a1 ,..., an )
⎪ = −2 M [Y − (a0 + a1 X 1 + ... + an X n )] = 0
⎪ ∂a0
⎨ ∀j = 1, n
⎪ ∂G (a0 , a1 ,..., an ) = −2 M [Y − (a0 + a1 X 1 + ... + an X n )] ⋅ X j = 0
⎪⎩ ∂a j
⎧M (a0 + a1 X 1 + ... + an X n ) = M (Y )
⎨ ∀j = 1, n
⎩M (a0 + a1 X 1 + ... + an X n ) ⋅ X n = M (Y ) ⋅ X j
de unde rezultă:
⎧a0 + a1 M ( X 1 ) + ... + an M ( X n ) = M (Y )
⎨ ∀j = 1, n
⎩a0 + a1 M ( X 1 X j ) + ... + an M ( X n X j ) = M (YX j )
Prin rezolvarea acestui sistem liniar de ecuaţii în raport cu necunoscutele a0 , a1 ,..., an , se
obţin valorile parametrilor ecuaţiei de regresie. Astfel, legătura statistică dintre Y şi
X 1 , X 2 ,..., X n este modelată prin aproximare cu o legătură funcţională. Pentru cazul cu doi
factori X 1 şi X 2 , ecuaţia de regresie se scrie:
Y ( X 1 , X 2 ) = a0 + a1 X 1 + a 2 X 2
iar sistemul de ecuaţii devine:
⎧a0 + a1 M ( X 1 ) + a2 M ( X 2 ) = M (Y )
⎪
⎨a0 M ( X 1 ) + a1 M ( X 1 ) + a 2 M ( X 1 X 2 ) = M (YX 1 )
2
⎪
⎩a0 M ( X 2 ) + a1 M ( X 1 X 2 ) + a2 M ( X 2 ) = M (YX 2 )
2
Prin substituţia lui a 0 din prima ecuaţie şi înlocuirea lui în celelalte, obţinem:
[ ]
⎧⎪a1 M ( X12 ) −[M ( X1 )]2 + a2 [M ( X1 X 2 ) − M ( X1 )M ( X 2 )] = M (YX1 ) − M (Y )M ( X1 )
⎨
[ ]
⎪⎩a1[M ( X1 X 2 ) − M ( X1 )M ( X 2 )] + a2 M ( X 22 ) −[M ( X 2 )]2 = M (YX2 ) − M (Y )M ( X 2 )
[ ]
mij = M [ X i − M ( X i )]⋅[ X j − M ( X j )] = M ( X i X j ) − M ( X i )M ( X j )
54
m01m22 − m12 m02
a1 =
m11m22 − m122
m11m02 − m12 m01
a2 =
m11m22 − m122
Pentru cazul mai general al legăturii liniare dintre Y şi X 1 , X 2 ,..., X n , matricea de variaţie
şi covariaţie este:
( n+1)
M 00 (Y ( X1, X 2 ) − M (Y )) − M01(n+1) ( X1 − M ( X1)) + ... + M0(nn+1) ( X n − M ( X n )) = 0
55
Regresia liniară simplă
⎛m m01 ⎞
M ( 2 ) = ⎜⎜ 00 ⎟
⎝ m10 m11 ⎟⎠
m11 (Y ( X ) − M (Y ) ) − m10 ( X 1 − M ( X 1 ) ) = 0
m10 m
Y (X ) = X 1 + M (Y ) − 10 M ( X 1 )
m11 m11
m10
a0 = M (Y ) − M ( X1)
m11
m10
a1 = X1
m11
Regresia parabolică
În economie sunt numeroase exemplele în care legătura dintre fenomene şi deci variabilele
care le cuantifică nu este liniară. Dacă Y reprezintă recolta la hectar dintr-un produs agricol,
iar X cantitatea de îngrăşăminte, ne vom da seama chiar şi intuitiv că o anumită creştere a lui
X nu provoacă aceeaşi creştere a lui Y pe tot intervalul de variaţie al celor două variabile. La
valori mari ale cantităţii de îngrăşăminte, acestea provoacă saturaţie sau chiar nocivitate,
ducând la o stagnare, respectiv diminuare a producţiei. Alte exemple pot fi: legătura dintre
vechimea în muncă şi mărimea salariului, dintre cheltuielile cu publicitatea şi volumul
vânzărilor, etc.
Determinarea parametrilor funcţiei parabolice de regresie se poate face fie aplicând direct
funcţiei metoda patratelor minime, fie prin reducerea la cazul liniar prezentat anterior. În
ambele cazuri vom exemplifica pentru parabola de ordinul doi.
56
a) Estimarea parametrilor prin aplicarea directă a metodei patratelor minime
Y ( X ) = a0 + a1 X + a 2 X 2
Din condiţia de minimizare a expresiei:
G (a0 , a1 , a2 ) = M [Y − Y ( X )]
2
∂G (a0 , a1 , a2 )
=0
∂a0
∂G (a0 , a1 , a2 )
=0
∂a1
∂G (a0 , a1 , a2 )
=0
∂a2
[
⎧− 2M Y − (a0 + a1 X + a2 X 2 ) = 0]
⎪
[(
⎨− 2M Y − (a0 + a1 X + a2 X ) X = 0
2
) ]
⎪
[(
⎩− 2M Y − (a0 + a1 X + a2 X ) X = 0
2 2
) ]
⎧a0 + a1 M ( X ) + a2 M ( X 2 ) = M (Y )
⎪
⎨a0 M ( X ) + a1 M ( X ) + a2 M ( X ) = M (YX )
2 3
⎪
⎩a0 M ( X ) + a1 M ( X ) + a2 M ( X ) = M (YX )
2 3 4 2
57
b) Estimarea parametrilor prin reducerea la cazul liniar
Y ( X ) = a0 + a1 X + a2 X 2
facem substituţiile:
X = X1
X 2 = X2
Y ( X 1 , X 2 ) = a0 + a1 X 1 + a 2 X 2
care reprezintă un model liniar cu doi factori. Elementele matricei de variaţie şi covariaţie
vor arăta astfel:
m00 = M (Y 2 ) − ( M (Y )) 2 = σ Y2
m11 = M ( X 2 ) − ( M ( X )) 2 = σ X2
m12 = M ( X 3 ) − M ( X ) M ( X 2 ) = cov( X , X 2 )
m22 = M ( X 4 ) − ( M ( X 2 )) 2 = σ X2 2
Problema regresiei neliniare pentru cazul unei parabole de gradul doi se reduce astfel la o
problemă de regresie liniară, care se rezolvă conform cazului liniar. În cazul mai general,
dacă ecuaţia de regresie este un polinom de gradul n:
Y ( X ) = a0 + a1 X + a2 X 2 + ... + an X n
efectuând substituţiile:
58
X = X 1 ; X 2 = X 2 ; ... ; X n = X n
Regresia exponenţială
Y (X ) = a ⋅bX
se încearcă aducerea la forma liniară. Mai întâi se logaritmează ecuaţia:
lg Y ( X ) = lg a + X ⋅ lg b
Z ( X ) = lg Y ( X )
a0 = lg a
a1 = lg b
Z ( X ) = a0 + a1 X
Regresia hiperbolică
1
Y (X ) = a + b ⋅
X
se face substituţia:
1
X1 =
X
59
de unde rezultă modelul liniar:
Y ( X 1 ) = a + bX 1
m00 = M (Y 2 ) − ( M (Y )) 2 = σ Y2
⎛ 1⎞ ⎛1⎞ ⎛ 1⎞
m01 = m10 = M ⎜ Y ⋅ ⎟ − M (Y ) M ⎜ ⎟ = cov⎜ Y , ⎟
⎝ X⎠ ⎝X⎠ ⎝ X⎠
2
⎛ 1 ⎞ ⎛ ⎛1 ⎞⎞
m11 = M ⎜ 2 ⎟ − ⎜⎜ M ⎜ ⎟ ⎟⎟ = σ 1 / X
2
⎝X ⎠ ⎝ ⎝X ⎠⎠
Printr-o astfel de funcţie se defineşte o legătură între nivelul producţiei Y şi factorii de care
aceasta depinde: productivitatea muncii, calificarea forţei de muncă, gradul de înzestrare
cu capital fix, etc. Determinarea parametrilor se face prin reducere la cazul liniar prin
logaritmare:
lg Y ( X 1 , X 2 ,..., X n ) = lg a + m1 ⋅ lg X 1 + ... + mn ⋅ lg X n
Z ( X 1 , X 2 ,..., X n ) = lg Y ( X 1 , X 2 ,..., X n )
X i ' = lg X i , i = 1, n
60
4.6. Analiza reprezentativităţii funcţiei de regresie
Coeficientul de corelaţie
Aceste limite nu trebuie interpretate foarte rigid. Valorile coeficienţilor este bine să fie
comparate cu ale altor coeficienţi, ai altor funcţii. Pentru aceeaşi repartiţie de exemplu, pentru
funcţiile de regresie alese ca fiind posibilecalculăm coeficienţii de corelaţie şi îl reţinem pe cel
mai mare, considerând acea funcţie ca fiind cea mai reprezentativă.
În cazul regresiei liniare simple, formula coeficientului poate fi adusă la o formă
echivalentă mai simplă:
⎛m m01 ⎞
M ( 2) = ⎜⎜ 00 ⎟
⎝ m10 m11 ⎟⎠
Prin corelaţie simplă am studiat legătura liniară dintre doi factori neglijând influenţa celorlalţi
factori, care acţionează în acelaşi timp asupra variabilei endogene. În corelaţia multiplă am
măsurat influenţa simultană a două sau mai multe variabile exogene asupra celei endogene.
Ne punem însă problema de a măsura influenţa unei variabile independente asupra celei
dependente, presupunând celelalte variabile la un nivel constant.
Fără a recurge la demonstraţii, vom da modul de calcul al coeficienţilor de corelaţie parţială
pentru două cazuri:
a) Cazul unei variabile dependente Y şi două variabile independente X1 şi X2:
61
- corelaţia dintre Y şi X1, neglijând influenţa lui X2:
rYX1 − rYX 2 ⋅ rX1 X 2
rYX1 ⋅ X 2 =
(1 − r )⋅ (1 − r )
2
YX 2
2
X1 X 2
Probleme propuse
Problema 1
X [ 30 ; 50 ] ( 50 ; 70 ] ( 70 ; 90 ] Total
Y
( 600 ; 800 ] 2 7 8 17
( 400 ; 600 ] 3 10 5 18
[ 200 ; 400 ] 14 2 1 17
Total 19 19 14 52
Se cere:
1) Pe baza unui grafic adecvat să se emită ipoteze privind forma posibilă a funcţiei de
regresie.
62
2) În ipoteza unei forme liniare a dependenţei dintre Y şi X, să se calculeze parametrii
funcţiei de regresie.
3) Să se studieze reprezentativitatea funcţiei de regresie pentru modelarea legăturii dintre
cele două variabile.
4) Care este valoarea medie a volumului vânzărilor pentru un nivel al cheltuielilor cu
publicitatea de 55 milioane lei ?
5) Aceleaşi cerinţe de la punctele 2, 3 şi 4 pentru o formă parabolică a dependenţei dintre Y
şi X.
Problema 2
Un produs a fost lansat simultan pe 13 pieţe. Pe aceste pieţe, produsul a fost propus la preţuri
diferite (P), veniturile consumatorilor (V) fiind şi ele diferite. Pentru fiecare piată s-a
înregistrat un anumit nivel al cererii (C), rezultatele fiind sintetizate în tabelul următor:
Se cere:
1) Să se formuleze ipoteze cu privire la forma legăturii dintre cerere (C) şi preţ (P). Pentru
formele funcţiilor de regresie reţinute ca fiind posibile, să se calculeze parametrii funcţiilor şi
reprezentativitatea acestora.
2) Similar pentru legătura dintre cerere şi venit.
3) Să se calculeze parametrii funcţiei care modelează legătura liniară multiplă dintre cerere şi
factorii săi e influenţă. Analizaţi reprezentativitatea acestei funcţii în raport cu
reprezentativitatea funcţiilor de regresie simple. Care va fi valoarea estimată a cererii pe o
piaţă unde preţul de vânzare va fi 3,2 iar venitul mediu al consumatorilor de 550 ?
63
Bibliografie:
2. BUIGA A., DRAGOS C., LAZAR D., PARPUCEA I., TODEA A., "Statistica I", Ed.
PUC, 2003
64
MODULUL 4
ANALIZA ŞI PREVIZIUNEA SERIILOR DE TIMP
Obiective
• Intelegerea si aplicarea metodelor de calcul a indicilor factoriali in analiza dinamicii
indicatorilor economici;
• Cuantificarea dinamicii medii a unui indicator;
• Cunoasterea si utilizarea metodelor cantitative de previziune. Metoda clasica de
descompunere a unei serii de timp.
Concepte de bază
• Indice al variatiei integrale, indice factorial, indice al pretului;
• Nivel mediu al unei serii de timp, indice mediu, ritm mediu, diferenta medie absoluta;
• Serie de timp, model dinamic, functii de tendinta, coeficientii sezonalitatii, ciclicitate
• Medii mobile, previziune, erori de previziune, netezire exponentiala.
Rezultate asteptate
Studentul intelege notiunile de indice factorial, nivel mediu, indice mediu, ritm mediu si
stapaneste modalitatile de calcul a acestora. Utilizeaza metode cantitative in previziune; in
acest sens, identifica componentele prezente intr-o serie de timp, modeleaza si extrapoleaza
tendinta, utilizeaza adecvat o medie mobila, modeleaza componenta sezoniera si ciclica,
utilizeaza metoda netezirii exponentiale in netezire si previziune.
Sinteza
Z (k ) f ( X 1 (k ), X 2 (k ),K , X m (k ) )
I Zk / j = =
Z ( j ) f ( X 1 ( j ), X 2 ( j ),K, X m ( j ) )
2) indici ai factorilor X i (individuali sau elementari):
65
X i (k )
I Xk i/ j =
X i ( j)
3) indici ai variaţiei partiale ale lui Z sau indici factoriali: I Zk // Xj i - ne arată de câte ori s-a
modificat Z în starea k faţă de starea j sub influenţa exclusivă a factorului X i .
∑ i i
i =1
p ( j ) q ( j ) ∑ pi ( j )qi ( j )
i =1
∑ p ( j )q (k )
i i
I k/ j
Z /q ( L⋅) = i =1
r
∑ p ( j )q ( j )
i =1
i i
∑ p (k )q (k )
i i
I k/ j
Z/p (⋅P ) = i =1
r
,
∑ p ( j )q (k )
i =1
i i
∑ p (k )q (k )
i i
I Zk // qj ( P⋅) = i =1
r
∑ p (k )q ( j )
i =1
i i
66
Indicii factoriali de tip Fisher. In 1922, I. Fisher propune o nouă expresie de calcul a
indicelui preţurilor. Acesta se va obţine ca o medie geometrică a indicilor de preţ de tip
Laspeyres şi Paasche, astfel:
I Zk // pj ( F ) = I Zk // pj (⋅L) ⋅ I Zk // pj (⋅P)
De aceeaşi manieră se obţine şi indicele de volum:
I Zk // qj ( F ) = I Zk // qj ( L⋅) ⋅ I Zk // qj ( P⋅)
Indicii factoriali generaţi prin Metoda Drumului Factorilor (MDF). Indicele factorial al
unei variabile Z = f ( X 1 , K , X m ) , în raport cu factorul X i , obţinut prin MDF este dat de
relaţia (Florea, 1989):
f ' X i ( X 1 ,K, X m )
I Zk // Xj i = exp ∫ dX i
(Pj , Pk ) f ( X 1 , K , X m )
unde (P , P )
j k reprezintă porţiunea arcului din drumul factorilor cuprins între punctele
Pj ( X 1 ( j ), K , X m ( j ) ) şi Pj ( X 1 (k ), K , X m ( k ) ) , acest drum fiind descris de ecuaţiile
parametrice X 1 = X 1 (λ ),K , X m = X m (λ ) , λ fiind în general un parametru legat de timp.
∑X i (k )Yi ( j )
110 ⋅ 30 + 60 ⋅ 40 + 25 ⋅ 50
I k/ j
Z/X (⋅L) = i =1
= = 1,287 → volumul valoric al
3
80 ⋅ 30 + 50 ⋅ 40 + 20 ⋅ 50
∑X
i =1
i ( j )Yi ( j )
încasărilor a crescut în luna k faţă de luna j de 1,287 ori sub influenţa modificării numărului
3
∑X i ( j )Yi (k )
80 ⋅ 35 + 50 ⋅ 40 + 20 ⋅ 45
de camere închiriate. I Zk // Xj ( L⋅) = i =1
= = 1,055 → volumul
3
80 ⋅ 30 + 50 ⋅ 40 + 20 ⋅ 50
∑X
i =1
i ( j )Yi ( j )
valoric al încasărilor a crescut în luna k faţă de luna j de 1,055 ori sub influenţa modificării
tarifului practicat.
67
Anul
Variabila t −1 t
X (mld lei) 10 12
Y (mld. 8 9
Lei)
4.1.3. Indicii factoriali de tip Laspeyres, Paasche şi Fisher prin prisma abordării
axiomatice
Abordarea axiomatică se bazează pe stabilirea unor seturi de proprietăţi pe care un indice
statistic trebuie să le verifice (Buiga & all, 2003).
∑ p (t )q (0)
i i n
pi (0)qi (0) pi (t ) n
I Zt //0p (⋅L) = i =1
n
=∑ n
⋅ = ∑ k i (0) ⋅ I tp/i 0
pi (0) i =1
∑ pi (0)qi (0)
i =1
i =1
∑ p (0)q (0)
i =1
i i
Ponderile k i (0) sunt obţinute prin Ancheta Integrată în Gospodării şi rezultă din
structura cheltuielilor medii lunare efectuate de o gospodărie pentru cumpărarea mărfurilor şi
plata serviciilor necesare satisfacerii nevoilor de trai; aceste ponderi se actualizează la
intervale de câţiva ani. Preţurile corespunzătoare celor n mărfuri şi servicii din coşul
indicelui se culeg lunar, în urma unei cercetări selective organizate de Institutul National de
Statistică.
68
Indicii bursieri. Principalii indici bursieri se diferenţiază prin mai multe elemente:
eşantionarea, respectiv alegerea titlurilor din coşul indicelui, reprezentativitate, modul de
calcul utilizat şi natura variabilelor luate în calcul. Cei mai cunoscuţi şi urmăriţi indici
bursieri, cu excepţia familiei de indici Dow Jones se calculeaza ca si indici Laspeyres.
Y=
∫ t1
y (t )dt
.
tn
∫t1
dt
Daca se aproximează evoluţia indicatorului y (t ) ca fiind liniară între două momente
consecutive de timp, rezulta:
T1 T + T2 T + Tn −1 T
y1 + y2 1 + ... + y n −1 n − 2 + y n n −1
Y= 2 2 2 2
T1 + T2 + ... + Tn −1
relaţie numită medie cronologică ponderată.
Daca nivelul indicatorului se înregistrează la momente echidistante ( T1 = T2 = .... = Tn −1 ),
atunci relaţia anterioară devine:
y1 y
+ y 2 + .... + y n −1 + n
Y= 2 2
n −1
şi reprezintă media cronologică simplă.
69
yt = I y ⋅ yt −1 + ε t , t = 2, 3,..., n
Utilizând metoda celor mai mici pătrate pentru estimarea parametrului I y , se obţine
următoarea expresie de calcul a indicelui mediu:
n
∑y t −1 ⋅ yt
Iy = t =2
n
∑y
t =2
2
t −1
yn
I y = n −1
y1
∑ ( yt − yt −1 ) ∑ ∆ty/ t −1
∆y = t =2
= t =2
n −1 n −1
sau echivalent:
y n − y1
∆y = .
n −1
70
- separarea fiecărei componente şi modelarea comportamentului său, respectiv
- previziunea evoluţiei fiecărei componente, iar apoi compunerea acestora în scopul
obţinerii de previziuni privind evoluţia fenomenului Y. Principiul de la baza acestei tehnici
este “descompune pentru a modela iar apoi recompune”.
• este adecvată tendinţa liniară atunci când diferenţele absolute cu baza în lanţ
∆ty/ t −1 = yt − yt −1 sunt aproximativ constante. De asemenea, precizări specifice în acest
sens pentru parabolă, exponenţială respectiv hiperbolă găsim în tabelul 1.
71
Estimarea parametrilor tendinţei. Pentru estimarea parametrilor tendinţei liniare
Tt = a + bt
se utilizează metoda celor mai mici pătrate, expresiile de calcul a parametrilor a, b sunt deci
următoarele:
n
∑ (t − t )( y t −Y)
b= t =1
n
,
∑ (t − t ) 2
t =1
a = Y − bt ,
sau echivalent
M (tY ) − M (t ) M (Y )
b= ,
M (t 2 ) − [ M (t )]2
a = Y − bt .
Seria prezintă o tendinţă de creştere atunci când b > 0 respectiv de descreştere dacă b < 0.
Cu excepţia curbei logistice, celelalte funcţii neliniare din tabelul1 pot fi aduse la o formă
liniarizată prin anumite substituţii, respectiv prin aplicarea operaţiei de logaritmare în cazul
funcţiei exponenţiale şi a funcţiei putere.
Cronograma seriei sugerează prezenţa unei tendinţe liniare, peste care se suprapune o
componentă aleatoare de amplitudine redusă:
y t = a + bt + ε t , t = 1, 2,...,18.
Parametrii tendinţei se determină din relaţiile:
M (tY ) − M (t ) M (Y )
b=
M (t 2 ) − [M (t )]
2
a = M (Y ) − bM (t ).
72
Exemplificăm din calculele intermediare:
1 + 2 + L + 18
M (t ) = = 9 .5
18
3 .7 + 3 .8 + L + 7 .0
M (Y ) = = 5.33
18
(1 × 3.7) + ( 2 × 3.8) + L + (18 × 7.0)
M (tY ) = = 55.72
18
12 + 2 2 + L + 18 2
M (t 2 ) = = 117,2
18
rezultând
55.72 − 9.5 × 5.33
b= = 0.19,
117.2 − (9.5) 2
a = 5.33 − 0.19 × 9.5 = 3.55.
Tendinţa seriei se estimează prin funcţia de gradul întâi:
Tt = 3.55 + 0.19t ,
al cărei grafic este redat în figura 1.
73
4.2.4.3. Estimarea tendinţei în cazul seriilor cu componentă sezonieră
În cazul seriilor sezoniere se întâlnesc preponderent în literatură doua modalităţi de
estimare a tendinţei:
• desezonalizarea seriei iar apoi estimarea tendinţei pornind de la valorile
desezonalizate (vezi 4.2.3.);
• modelarea tendinţei pornind de la mediile anuale.
74
Figura 2. --ο-- Producţia de bere; -- -- MM(4); ---- Tendinţa
0.5 × y 20 + y 21 + y 22 + y 23 + 0.5 × y 24
y 22 = =
4
0.5 × 224.1 + 202.9 + 385.3 + 425.6 + 0.5 × 196.6
= = 306.0.
4
Datele observate au fost numerotate aici în ordine cronologică y1, y2, ..., y24.
75
b) Estimarea tendinţei pornind de la valorile desezonalizate
Seria mediilor mobile prezentată grafic relevă o uşoară tendinţă de creştere a producţiei
de bere. Vom considera tendinţa liniară:
Tt = a + bt + ε t ,
originea de măsurare a timpului trimestrul II al anului 1996, unitatea de măsură un trimestru.
Astfel, pentru trimestrul III 1996 avem t = 1 ş.a.m.d:
t 1 2 3 ... 19 20
Valori desezonalizate (Z) 191.8 194.7 197.8 ... 308.4 306.0
M (tZ ) − M (t ) M ( Z )
b= ,
M (t 2 ) − [M (t )]
2
a = M ( Z ) − bM (t ).
Calcule intermediare:
M (t ) = 10.5, M ( Z ) = 252.9, M (t 2 ) = 143.5, M (tZ ) = 2884.9,
b = 6.9, a = 180.44.
Tendinţa producţiei de bere în perioada ianuarie 1996 – iunie 2000 este estimată prin:
Tt = 180.44 + 6.9 × t .
c) Estimarea componentei sezoniere prin metoda raportării la mediile mobile
Cum amplitudinea oscilaţiilor creşte uşor în timp, cronograma seriei sugerează luarea în
considerare a unui model multiplicativ:
yij = Tij ⋅ S j ⋅ ε ij ; i = 1, 2,..., 6 iar j = 1, 2, 3, 4 .
Datele sunt disponibile pentru 6 ani şi sunt prezente aici 4 sezoane. Ţinând seama de
notaţiile specifice, yij reprezintă nivelul producţiei de bere în anul i trimestrul j. Astfel, spre
exemplu y13 = y1996;III = 252.4 sau y34 = y1998;IV = 185.0 . Mediile mobile din tabelul anterior
vor fi transpuse într-un tabel analog cu cel de prezentare a datelor observate:
An/Trim. I II III IV
1996 - - 191.8 194.7
1997 197.8 202.2 208.9 214.9
1998 229.2 245.0 250.8 257.1
1999 261.7 259.4 258.3 267.7
2000 284.5 299.7 309.8 310.2
2001 308.4 306.0 - -
y ij
Rapoartele S ij = ⋅ 100 , respectiv mediile acestora pentru fiecare sezon sunt indicate în
y ij
tabelul urmator
Calculul indicilor sezonalităţii
An/Trim. I II III IV
1996 - - 131.6 63.9
1997 65.8 138.6 124.7 70.3
1998 68.7 122.9 140.9 71.9
1999 64.8 131.1 135.8 63.0
2000 62.4 136.0 134.7 72.7
2001 65.8 125.9 - -
Ij 65.5 130.9 133.5 68.4 Media 99.6
Sj 65.6 131.4 134.0 68.8 Media 100
76
Explicaţii privind calculele:
y 252.4 y 124.5
S13 = 13 ⋅ 100 = ⋅ 100 = 131.6 , S14 = 14 ⋅ 100 = ⋅ 100 = 63.9 ,
y13 191.8 y14 194.7
y 130.1
S 21 = 21 ⋅ 100 = ⋅ 100 = 65.8 , ş.a.m.d.
y 21 197.8
Cum era de aşteptat, aceste rapoarte între datele observate şi mediile mobile sunt mai mici
decât 1 pentru trimestrele I şi IV, când nivelul producţiei a fost sistematic mai mic (sub
tendinţă).
S + S 31 + S 41 + S 51
I 1 = 21 = 65.5, I 2 = 130.9,
4
S + S 23 + S 33 + S 43
I 3 = 13 = 133.5, I 4 = 68.4.
4
Valoarea medie a acestor indici este 99.6, astfel că este necesară o corecţie astfel încât
media să fie 100:
I 65.5
S1 = 1 ⋅ 100 = ⋅ 100 = 65.6, S 2 = 131.4, S 3 = 134.0, S 4 = 68.8 .
99.6 99.6
Urmare a caracterului sezonier specific producţiei de bere, în trimestrul I producţia a
fost mai mică în medie cu 34.4% decât valorile corespunzătoare de pe tendinţă. În trimestrul
II producţia a fost în medie mai mare de 1.314 ori decât valorile de pe tendinţă. Analog se
interpretează S3 şi S4.
Componenta sezonieră este dată de vectorul format cu indicii sezonalităţii:
S=(S1, S2, S3 , S4 ) = (0.656; 1.314; 1.340; 0.688).
4.2.5. Componenta ciclică. Componenta aleatoare
a) Componenta ciclică
Pentru separarea componentei ciclice se poate utiliza metoda comparării cu tendinţa. Spre
exemplu în cazul modelului multiplicativ:
Y = T ⋅ S ⋅C ⋅ E ,
metoda constă în calculul indicilor de ciclicitate. Astfel:
• se estimează tendinţa printr-o funcţie elementară. Dacă seria prezintă sezonalitate se
porneşte de la datele desezonalizate sau de la mediile anuale;
• se elimină componenta sezonieră din datele observate, iar apoi se utilizează medii
mobile în scopul eliminării şi a componentei aleatoare rezultând valorile netezite y t
(astfel y t = T ⋅ C );
• se calculează indicii de ciclicitate Ct prin raportare la tendinţă:
y
Ct = t
Tt
b) Componenta aleatoare:
y ij
ε ij = în cazul modelului multiplicativ, respectiv
Tij ⋅ C ij ⋅ S j
ε ij = y ij − (Tij + C ij + S j ) în caz aditiv.
77
b) Măsurarea acurateţii previziunilor. Dacă modelul elaborat conduce la previziunile
yˆ1 , yˆ 2 ,..., yˆ p corespunzătoare datelor y1 , y 2 ,..., y p , pentru a măsura calitatea acestuia de a
genera previziuni adecvate se utilizează o serie de indicatori sintetici ai erorilor de previziune,
cei mai frecvent întâlniţi fiind:
1 p
MSE = ∑ ( y h − yˆ h )
2
- eroarea medie pătratică:
p h =1
1 p
- eroarea medie absolută: MAE = ∑ y h − yˆ h
p h =1
1 p y h − yˆ h
- eroarea medie absolută exprimată procentual: MAPE = ∑ yˆ
p h =1 h
Prezentăm modul de obţinere a rezultatelor anterioare pentru trim. III an 2001. Valorile
tendinţei respectiv a componentei sezoniere sunt:
) )
T (21) = 180.44 + 6.9 × 21 = 325.34 respectiv S 3 = 1.34.
Modelul de descompunere considerat a fost cel multiplicativ, astfel că valoarea
previzionată este:
)
y = 325 .34 × 1.34 = 435 .95
Luna I A S O N D
Indice y 7.40 7.66 7.96 8.26 8.47 8.65
Previziune 7.16 7.35 7.54 7.73 7.92 8.11
)
y
)
Eroare e 0.24 0.31 0.42 0.53 0.55 0.54
78
Pentru luna Iulie 2000 avem t = 19, extrapolarea tendinţei conduce la:
) )
y19 = T19 =3.55 + 0.19 × 19 = 7.16
) )
e19 = y19 - y19 = 0.24.
Luna (t) 1 2 3 4 5 6 7 8 9
Indice (yt) 3.7 3.8 4.1 4.3 4.5 4.8 4.9 5.1 5.3
Luna (t) 10 11 12 13 14 15 16 17 18
Indice (yt) 5.5 5.6 5.8 6.0 6.2 6.3 6.5 6.6 7.0
Se cere: a) estimarea parametrilor tendintei liniare
b) previziunea indicelui lunar al preţului producţiei industriale pentru urmatoarele doua luni.
1.2. Datele de mai jos redau evoluţia vânzărilor dintr-un produs pe o perioadă de 10 luni
consecutive:
Luna F M A M I I A S O N
Vânzări 20 32 40 47 52 60 62 63 65 67
Se cere: estimarea parametrilor parabolei de tendinta.
1.3. Populaţia României a crescut în perioada 1980-1988 într-un ritm destul de accelerat, după
cum arată şi datele de mai jos:
An 1980 1981 1982 1983 1984 1985 1986 1987 1988
Nr. pop. 22.20 22.35 22.48 22.55 22.62 22.72 22.82 22.94 23.15
(mil. Loc.)
Se cere: a) datele confirmă ipoteza modelării tendinţei printr-o funcţie exponenţială?
b) estimarea parametrilor tendintei exponentiale;
c) previziunea populaţiei României pentru urmatorii cinci ani. Comparatii cu valorile reale.
79
Problema 2. Descompunerea si previziunea seriilor sezoniere
Datele privind evoluţia trimestrială a producţiei de bere din ţara noastră (zeci mii hl) în
perioada 1996-2001 sunt indicate in tabelul următor:
An/Trim. I II III IV
1996 124.1 263.2 252.4 124.5
1997 130.1 280.2 260.6 151.1
1998 157.5 301.2 353.3 185.0
1999 169.7 340.0 350.9 168.7
2000 177.5 407.6 417.2 224.1
2001 202.9 385.3 425.6 196.6
Se cere: a) Estimarea tendinţei pornind de la valorile desezonalizate;
b) estimarea componentei sezoniere;
c)determinarea componentei ciclice respectiv aleatoare. Descompunerea seriei pe
componente;
d) previziunea producţiei de bere pentru urmatoarele patru trimestre.
An 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Nr. nave 269 267 256 250 255 289 283 231 203 192
80
An 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Fond de 7659 7683 7710 7749 7782 7811 7837 7860 7883 7907
loc. (mii)
Se cere: calculul si interpretarea diferenţei medii absolute.
Se cere: indicii factoriali ai pretului respectiv ai cantitatii prin toate metodele cunoscute.
Comparati rezultatele obtinute.
Bibliografie
1. Buiga A., Dragos C., Lazar D., Parpucea I., Statistica I, Presa Universitara Clujeana, 2003.
2. Florea I., Parpucea I., Buiga A., [1998] , Statistică descriptivă. Teorie şi aplicaţii, Editura
Continental, Alba Iulia, 1998.
3. Florea I., Parpucea I., Buiga A., Lazar D., [2000] , Statistică inferenţială, Presa
Universitară Clujeană, Cluj Napoca, 2000.
4. Melard G., Methodes des prevision a court terme, Ed. de Universite de Bruxelles, 1990.
81