Sunteți pe pagina 1din 169

UNIVERSITATEA ”BOGDAN VODĂ” DIN CLUJ-NAPOCA

FACULTATEA DE DREPT

Mihaela JARADAT
Florin URS

STATISTICĂ
JUDICIARĂ

2012
2
CUPRINS

Introducere .................................................................................................. 7

Capitolul I. Noţiuni elementare de statistică ............................................ 9

1. Concepte de bază .......................................................................... 9


1.1.A. Populaţie statistică, eşantion, unitate statistică,
volum .......................................................................... 9
1.1.B. Exemple ....................................................................... 9
1.2.A. Variabila statistică, variabila aleatoare .................... .10
1.2.B. Exemple .................................................................... .11
1.3.A. Observarea statistică ................................................ .12
1.3.B. Exemple .................................................................... .13
1.4. Indicatorul statistic ....................................................... .14
1.5.A. Seria statistică........................................................... .16
1.5.B. Exemple .................................................................... .19
2. Organizarea statisticii ................................................................ .22
2.1. Obiectul statisticii ....................................................... .22
2.2. Istoricul statisticii ........................................................ .23
2.3. Organizarea statisticii .................................................. .25
2.4. Publicaţii statistice ...................................................... .25
3. Test de autoevaluare I ................................................................ .26
3.1. Enunţ ........................................................................... .26
3.2. Rezolvare .................................................................... .27

Capitolul II. Observarea, sistematizarea şi prezentarea datelor


statistice ............................................................................... .35

1. Observarea statistică .................................................................. .35


1.1.A. Demersul observării statistice .................................. .35
1.1.B. Exemple .................................................................... .37
1.2. Erorile de observare ..................................................... .38
2. Sistematizarea rezultatelor observării ........................................ .39
2.1.A. Elaborarea seriilor primare ...................................... .39
2.1.B. Exemple ................................................................... .41
2.2.A. Elaborarea seriilor derivate şi a
seriilor cronologice ................................................. .43

3
2.2.B. Exemple ................................................................... .47
3. Prezentarea seriilor statistice...................................................... .53
3.1.A. Tabelul statistic şi reprezentare grafică ................... .53
3.1.B. Exemple ................................................................... .62
4. Test de autoevaluare II ............................................................... .68
4.1. Enunţ ........................................................................... .68
4.2. Rezolvare .................................................................... .70

Capitolul III. Parametrii repartiţiilor empirice unidimensionale ....... .79

1. Parametrii tendinţei centrale ...................................................... .79


1.1.A. Valoarea medie........................................................ .80
1.1.B. Exemple ................................................................... .90
1.2.A. Valoarea mediană .................................................... .91
1.2.B. Exemple ................................................................... .94
1.3.A. Valoarea modală...................................................... .96
1.3.B. Exemple ................................................................... .97
2.A. Parametrii de structură ........................................................... .98
2.B. Exemple .............................................................................. ..101
3.A. Parametrii variaţiei .............................................................. ..103
3.B. Exemple ............................................................................... ..109
4.A. Parametrii concentrării ........................................................ ..110
4.B. Exemple ............................................................................... ..112
5. Parametrii formei .................................................................... ..113
6. Aplicaţii ................................................................................... ..116
7. Test de autoevaluare III........................................................... ..129
7.1. Enunţ ........................................................................ ..129
7.2. Rezolvare .................................................................. ..130

Capitolul IV. Analiza legăturii dintre variabilele unei repartiţii


multidimensionale ......................................................... ..141

1. Consideraţii generale............................................................... ..141


2. Analiza statistică a existenţei legăturii .................................... ..145
3. Analiza statistică a intensităţii şi gradului de asociere dintre
variabile ................................................................................... ..147
4. Formularea unei ipoteze cu privire la forma legăturii............. ..149
5. Determinarea parametrilor funcţiei de regresie ...................... ..150
6. Analiza reprezentativităţii modelului statistic......................... ..156
7. Aplicaţie .................................................................................. ..157

4
8. Test de autoevaluare IV .......................................................... ..161
8.1. Enunţ ........................................................................ ..161
8.2. Rezolvare ................................................................. ..162

Bibliografie ............................................................................................ ..169

5
6
INTRODUCERE

Disciplina statisticii s-a născut din studiul şi descrierea statului sub


aspect economic şi demografic. Astăzi noţiunea de statistică reprezintă un
sistem de tehnici şi metode fundamentale teoretice utilizate în obţinerea şi
tratarea statisticilor (date primare) rezultate prin observare, în scopul
evidenţierii unor proprietăţi ale populaţiei.
Dacă ne raportăm la diversitatea populaţiilor statistice care merită a
fi studiate şi implicit la domeniul în care aparatul statisticii este utilizat,
putem vorbi de statistică economică, statistică socială, statistică medicală
etc.
De asemenea, în funcţie de tipul de observare (parţială sau totală) şi
tehnicile utilizate, se disting două culoare ale statisticii şi anume statistica
descriptivă şi statistica inferenţială. Tehnicile care ţin de statistica
descriptivă permit obţinerea de informaţii referitoare la o populaţie respectiv
la un eşantion al acesteia atunci când statisticile sunt culese din întreaga
populaţie respectiv din eşantion. În schimb aparatul statisticii inferenţiale
oferă posibilitatea ca pornind de la date culese pe eşantion să obţinem
informaţii referitoare la întreaga populaţie.
Cursul de faţă, “Statistică descriptivă” conţine noţiuni şi tehnici care
ţin de maniera descriptivistă a abordării populaţiilor statistice. El se
adresează studenţilor de la specializările cu caracter economic, populaţiile
studiate fiind astfel cu caracter preponderent economic.
Prezentarea informaţiei de bază în statistica descriptivă se face prin
intermediul acestui curs prin intermediul a şase capitole, cel de-al şaptelea
capitol având doar caracter aplicativ, de sinteză. Fiecare capitol tematic
conţine după necesităţi exemple sau aplicaţii adiacente aspectului teoretic.
De asemenea, fiecare din cele şase capitole se încheie cu un test de
autoevaluare.
Primul capitol urmăreşte familiarizarea studentului cu noţiuni
elementare ale statisticii cum ar fi populaţia statistică, eşantion, variabila
statistică, indicatori statistici. Tot aici sunt prezentate obiectul şi istoricul
statisticii.
Al doilea capitol coincide ca şi conţinut cu primele trei etape din
demersul studierii unei populaţii statistice şi anume observarea statistică,
sistematizarea şi prezentarea datelor statistice.

7
Cel de-al treilea capitol ţine deja de sfera prelucrării matematice a
datelor culese, prezentând principalii parametrii ai unei repartiţii statistice
precum şi proprietăţile lor.
În capitolul patru se desfăşoară demersul aferent studierii existenţei
şi formei unor legături prezente între diverse variabile. Metodele expuse aici
stau la baza modelării unor fenomene economice prin înţelegerea factorilor
care intervin şi a legăturii acestora cu variabila efect.
Capitolul cinci este un rezumat al câtorva metode de calcul al
indicilor factoriali.
Capitolul şase are ca şi finalitate previzionarea unor mărimi
economice care evoluează în timp.
Capitolul de sinteză, şapte, cuprinde probleme de sinteză rezolvate,
probleme de sinteză propuse precum şi teste de autoevaluare de sinteză şi
doua teste de evaluare.
Însuşirea eficientă a noţiunilor de statistică prezentate în acest curs
contribuie la formarea unui economist complet care este în stare nu doar să
opereze cu indicatorii în care se traduce un fenomen economic ci şi să
înţeleagă şi să controleze prin corelări, modelări şi previziuni, acel fenomen.

8
CAPITOLUL I

NOŢIUNI ELEMENTARE DE STATISTICĂ

1. Concepte de bază

1.1.A. Populaţia statistică, eşantion, unitate statistică, volum

Populaţia statistică reprezintă ansamblul de elemente de aceeaşi


natură având însuşiri esenţiale comune.
Un element component al unei populaţii statistice se numeşte unitate
statistică. Unităţile statistice pot fi simple sau complexe. Unităţile
statistice simple sunt componente elementare ale unei populaţii statistice iar
unităţile statistice complexe rezultă prin agregarea mai multor unităţi
simple ale populaţiei.
Numărul de unităţi ce compun o populaţie statistică (fie ele simple
sau complexe) constituie volumul populaţiei şi se notează cu N.
O submulţime a mulţimii elementelor unei populaţii statistice se
numeşte eşantion. Numărul elementelor din eşantion reprezintă volumul
acestuia, se notează cu n şi avem evident n < N . Populaţia din care se
formează un eşantion este considerată ca populaţie univers sau populaţie
“mamă”. În raport cu procedeul de formare a eşantionului avem eşantioane
aleatoare şi eşantioane dirijate. Eşantionul aleator este format din unităţile
statistice care rezultă printr-un procedeu aleator cum ar fi: tabelul cu numere
întâmplătoare, tragerea la sorţi, etc.. Eşantionul dirijat este format cu acele
unităţi statistice ale populaţiei, care satisfac un criteriu stabilit în prealabil.

1.1.B. Exemple

Populaţii statistice: mulţimea studenţilor unei facultăţi, mulţimea


gospodăriilor dintr-o localitate, mulţimea societăţilor comerciale dintr-un
judeţ, mulţimea produselor de acelaşi tip dintr-o fabrică, etc..
Referitor la aceste populaţii statistice avem ca unităţi simple:
studentul, produsul, iar ca unităţi complexe: societatea comercială,
gospodăria.
Un exemplu de eşantion dirijat format din populaţia studenţilor unei
facultăţi este eşantionul studenţilor bursieri, iar criteriul după care se
formează eşantionul este ca media notelor obţinute semestrial de student să

9
fie mai mare sau egală cu o anumită limită, stabilită anterior. Pentru
formarea unui eşantion aleator din aceeaşi populaţie i se atribuie fiecărui
student un număr (de exemplu, numărul matricol), din aceste numere
extrăgându-se la întâmplare n = volumul eşantionului.

1.2.A. Variabila statistică, variabila aleatoare

Variabila statistică reprezintă o trăsătură comună tuturor unităţilor


unei populaţii.
Modul de manifestare concretă a unei variabile la o unitate oarecare
a populaţiei se traduce fie printr-un număr fie printr-un cuvânt şi se numeşte
stare sau realizare a variabilei. Se vor nota cu x1 , x 2 ,..., x N stările unei
variabile notate cu X.
Variabilele statistice se clasifică în raport cu modul de exprimare,
natura şi modul de variaţie a acestora.
În raport cu modul de exprimare, variabilele statistice la care stările
se concretizează prin numere se numesc variabile cantitative sau numerice
iar cele la care stările se exprimă prin cuvinte se numesc variabile calitative
sau nenumerice.
După natura lor, variabilele statistice pot fi: atributive, de timp sau
de spaţiu. Variabila atributivă reprezintă un atribut, o însuşire esenţială
comună unităţilor populaţiei, alta decât timpul sau spaţiul. Variabila de
timp este variabila care evidenţiază timpul în care au luat fiinţă sau perioada
de timp în care au existat unităţile populaţiei. Variabila de spaţiu ne arată
spaţiul în care au luat fiinţă sau în care au existat unităţile populaţiei.
Referitor la modul de variaţie, variabilele statistice cantitative pot fi
discrete sau continue. Dacă variabila discretă este acea variabilă care în
intervalul său de definiţie, înregistrează cel mult valori raţionale, adică
variază în salturi, variabila continuă poate lua orice valoare reală din
intervalul său de variaţie.
Clasa de unităţi în raport cu o anume variabilă, reuneşte acele unităţi
din cadrul populaţiei care înregistrează aceeaşi stare a variabilei (dacă
variabila este cantitativă discretă sau calitativă) sau stările variabilei aparţin
unui anumit interval de variaţie [xi −1 , xi ) (dacă aceasta este continuă).
Variabila aleatoare este variabila care poate lua una oarecare din
valorile unei mulţimi finite sau infinite, fiecare cu o anumită probabilitate,
rezultată dintr-o funcţie asociată unei variabile, numită lege de probabilitate.
Ca şi variabila statistică, variabila aleatoare, în raport cu valorile
sale, poate fi discretă sau continuă.

10
În timp ce o variabilă aleatoare înregistrează valori la întâmplare,
variabila statistică este o însuşire certă a unităţilor statistice din populaţie.
Valorile unei variabile aleatoare sunt probabile şi în strânsă legătură cu un
anumit experiment în timp ce stările unei variabile statistice nu sunt
probabile, ele cuantificând o trăsătură proprie fiecărei unităţi din populaţie.

1.2.B. Exemple

Studentului, privit ca unitate statistică a populaţiei amintite în 1.1.B.,


îi putem ataşa spre exemplu, următoarele variabile statistice: anul de studiu,
vârsta, naţionalitatea, sexul, etc..
Societatea comercială, considerată de asemenea ca unitate statistică,
poate fi studiată în raport cu diferite variabile statistice cum ar fi: profitul,
rentabilitatea, cifra de afaceri, numărul de angajaţi, etc.
Dacă se studiază 100 de societăţi comerciale în raport cu numărul de
angajaţi, o stare a acestei variabile poate fi de exemplu x98 = 53 ; stările
variabilei sex cercetate pe un eşantion de 30 de studenţi pot fi:
x1 = F (feminin), x 2 = F , x3 = M (masculin), ..., x 29 = M , x30 = F .
Referitor la clasificarea variabilelor din 1.2.A., dăm următoarele
exemple: variabila cantitativă: vârsta; variabila calitativă: naţionalitatea,
sexul; variabila cantitativă discretă: numărul de copii dintr-o familie (dacă
unitatea statistică este familia), nota obţinută la examen (referitor la student
ca unitate statistică); variabila cantitativă continuă: vârsta unei persoane;
variabila atributivă: sexul, naţionalitatea, culoarea politică, forma de
proprietate a unei firme; variabila de timp: anul înfiinţării unei societăţi,
perioada de concediu a unui angajat; variabila de spaţiu: judeţul din care
face parte societatea comercială, domiciliul unei persoane, etc..
Pentru a înţelege noţiunea de variabilă aleatoare, să considerăm
relativ la populaţia A de volum N formată cu firmele dintr-un judeţ, variabila
statistică X, cifra de afaceri. Unui eşantion aleator de volum n, Ã, Ã ⊂ A îi
vom asocia vectorul ( X 1 , X 2 ,..., X n ) unde X 1 , X 2 ,..., X n sunt variabile
aleatoare de aceeaşi natură cu variabila X şi cu aceleaşi stări posibile
x1 , x 2 ,..., x N .
Referitor la noţiunea de clasă, în raport cu variabila număr de copii,
cercetată relativ la populaţia, formată cu familiile din România, se poate
forma de exemplu clasa familiilor cu doi copii, sau, dacă variabila cercetată
referitor la aceeaşi populaţie este salariul lunar pe familie, o clasă ar putea fi
[3 u.m − 6 u.m.) .

11
1.3.A. Observarea statistică

Observarea statistică presupune identificarea unităţilor componente


ale populaţiei şi apoi înregistrarea stărilor variabilelor cercetate pentru
fiecare unitate componentă a populaţiei.
Rezultatele efective obţinute pentru stările variabilelor cercetate
poartă numele de statistici, ele constituind materia primă a statisticii.
După gradul de cuprindere a populaţiei statistice, observarea
statistică este de două feluri: totală sau parţială. Observarea totală este
observarea care presupune înregistrarea tuturor unităţilor populaţiei
statistice studiate în timp ce observarea parţială se referă la observarea şi
înregistrarea unui anumit număr de unităţi din populaţie, alese după criterii
bine definite.
În cercetarea statistică a unei populaţii punctul de pornire îl pot
constitui fie statisticile exhaustive rezultate prin observarea populaţiei
univers A fie statisticile parţiale rezultate din observarea parţială, adică
prin intermediul unui eşantion à ⊂ A, în ambele cazuri scopul final fiind
acelaşi: obţinerea de informaţii la nivelul populaţiei univers A.
Vom avea de-a face atunci cu o ramificare a statisticii ca obiect de
studiu în funcţie de punctul de pornire în cercetarea unei populaţii statistice.
Deosebim statistica descriptivă şi statistica inferenţială.
În cercetarea unei populaţii statistice într-o manieră descriptivă se
vor utiliza ca materie primă, statisticile rezultate din observarea totală a
populaţiei deci statisticile exhaustive. Obiectul statisticii descriptive poate
fi schematizat astfel:

Statistici Tehnici de prelucrare a Informaţii


relativ la à sau A statisticilor relativ la à sau A

Pentru cazul cercetării în manieră inferenţială, materia primă


folosită este alcătuită din statisticile rezultate prin observarea unui eşantion
à astfel încât se pune problema extinderii informaţiei de la nivelul
eşantionului la nivelul populaţiei univers, demers realizabil prin intermediul
inducţiei statistice sau inferenţei statistice. Tehnicile de inferenţă statistică
au la bază noţiuni de teoria probabilităţilor şi statistică matematică şi se
concretizează în principal prin interval de încredere şi testări de ipoteze

12
statistice. Aspecte particulare ale demersului statisticii inferenţiale sunt şi
dimensionarea eşantionului şi eşantionarea propriu zisă.

Obiectul statisticii inferenţiale poate fi schematizat astfel:

Tehnici de Tehnici de inducţie


Statistici prelucrare a Informaţii statistică Informaţii
statisticilor
relativ la à relativ la à relativ la A

1.3.B. Exemple

Să presupunem că ne interesează nivelul de trai al familiilor din


judeţul Alba. Populaţia studiată va fi deci formată cu familiile respective,
unitatea statistică fiind în acest caz familia, unitate de măsură complexă.
Pentru a restrânge costul şi timpul cercetării se poate extrage un eşantion din
populaţia univers, spre exemplu de volum n = 100 . În vederea atingerii
scopului fixat este necesar să studiem acest eşantion, în raport cu anumite
variabile, cum ar fi: venitul familiei/lună, număr de persoane/familie,
cheltuielile etc.. Datele obţinute din observarea statistică vor fi trecute (ca
valori ale variabilelor studiate) într-un tabel de tipul următor.

Nr.
crt. X Y Z ....
1 2,5 3
2 4,7 4
. . . X=venit
. . . (u.m.)
. . . Y=număr
100 5 3 persoane

Cu alte cuvinte, prima familie din eşantion are un venit de 2,5 u.m. şi
3 membrii, a doua familie, 4,7 u.m. şi 4 membrii, etc.
Un exemplu de observare totală este recensământul populaţiei
României.

13
Controlul de calitate a diverselor tipuri constituie un exemplu de
observare parţială, o observare totală nefiind întotdeauna eficientă din cauza
costurilor ridicate.

1.4. Indicatorul statistic

Indicatorul statistic este o variabilă atributivă cantitativă, ale cărei


valori numerice rezultă dintr-un algoritm pentru fiecare unitate sau clasă de
unităţi a populaţiei statistice.
Mulţimea indicatorilor statistici admite următoarele clasificări:
a) după natura populaţiei statistice:
-indicatori social-economici;
-indicatori tehnici;
-indicatori tehnico-economici;
-indicatori fizici;
-indicatori biologici.
b) în raport cu conţinutul variabilei, indicatorii economici pot fi:
-indicatori ai potenţialului economic (uman şi material);
-indicatori ai rezultatelor activităţii;
-indicatori ai eficienţei utilizării potenţialului economic.
c) în raport cu numărul unităţilor populaţiei la care se referă
algoritmul:
-indicatori individuali, care fac referinţă la o singură unitate
statistică a populaţiei;
-indicatori de grup sau sintetici care fac referinţă la două sau mai
multe unităţi ale populaţiei.
d) în raport cu conţinutul algoritmului de calcul:
-indicatori absoluţi
-indicatori relativi.
În categoria indicatorilor absoluţi intră următorii indicatori:
-frecvenţa absolută;
-frecvenţa absolută cumulată;
-indicatorul de nivel;
-diferenţa absolută a unui indicator.
Frecvenţa absolută N i a clasei “i” ( i = 1,R ,R numărul de clase)
reprezintă numărul de unităţi ale populaţiei din clasa respectivă.

14
Frecvenţa absolută cumulată N ( xi ) corespunzătoare stării xi sau
intervalului [xi −1 , xi ) , reprezintă numărul unităţilor populaţiei pentru care
X < xi .
Indicatorul de nivel exprimă volumul, nivelul înregistrat de o
variabilă numerică pentru una sau mai multe unităţi ale unei populaţii.
Diferenţa absolută a unui indicator exprimă diferenţa dintre
nivelul cercetat al indicatorului considerat şi cel luat ca bază de comparaţie.
Grupa indicatorilor relativi cuprinde:
-frecvenţa relativă;
-frecvenţa relativă cumulată;
-greutatea specifică;
-indicatorul relativ de intensitate;
-indicele unui indicator;
-diferenţa relativă a unui indicator.
Frecvenţa relativă corespunzătoare stării χ i sau intervalului
[χ i −1 , χ i ) este raportul dintre frecvenţa absolută N i şi volumul populaţiei N.
Frecvenţa relativă cumulată FN ( xi ) se defineşte ca suma
frecvenţelor relative până la X = xi .
Greutatea specifică a clasei “i”, notată g i , reprezintă raportul dintre
nivelul înregistrat de X în clasa respectivă şi suma nivelelor înregistrate de X
pentru fiecare clasă.
Indicatorul relativ de intensitate se defineşte ca raport între doi
indicatori de nivel şi arată gradul de răspândire a fenomenului cuantificat de
indicatorul de la numărător în raport cu fenomenul cuantificat de indicatorul
de la numitor.
Indicele unui indicator reprezintă raportul dintre nivelul cercetat al
indicatorului respectiv şi cel luat ca bază de comparaţie.
Diferenţa relativă a unui indicator reprezintă raportul dintre
diferenţa absolută a indicatorului respectiv şi nivelul acestuia considerat ca
bază de comparaţie.
La baza algoritmului de calcul al unui indicator oarecare considerat,
poate sta un model matematic determinist sau un model statistic.
Modelul determinist este un model care nu conţine elemente
aleatoare şi care surprinde în mod cert starea sau evoluţia fenomenului
studiat în funcţie de variabilele luate în considerare. Mărimile într-un model
determinist se leagă printr-o relaţie funcţională de forma
Z = H ( X 1 , X 2 ,..., X n ) în care variabila dependentă sau funcţia Z se va numi

15
variabilă exogenă sau explicată iar variabilele independente X 1 , X 2 ,..., X n ,
variabile endogene sau explicative.
Modelul statistic este modelul în care intervin pe lângă variabilele
măsurabile sau observabile una sau mai multe variabile aleatoare. În cazul
modelului statistic, la o valoare a sistemului de variabile explicative, pot
corespunde mai multe valori ale variabilei explicate. Se poate scrie deci:
Z = H ( X 1 , X 2 ,..., X n ) + e , unde e este un factor aleator.
Formulele matematice de calcul precum şi exemple de calcul al
indicilor mai sus menţionaţi se regăsesc în paragrafele 2.2.A şi 2.2.B.
(Capitolul II).

1.5.A. Seria statistică

Seria statistică este o construcţie statistică realizată pe baza


rezultatelor observării statistice, reflectând fie structura unei populaţii în
raport cu una sau mai multe variabile fie variaţia unui indicator statistic în
raport cu acele variabile.
Se deosebesc următoarele clasificări ale seriilor statistice:
a) în raport cu numărul variabilelor:
-serii statistice unidimensionale , care au la bază o singură
variabilă;
-serii statistice multidimensionale, care au la bază două sau
mai multe variabile.
b) după natura variabilei:
-serii atributive, care au la bază variabile atributive;
-serii cronologice (de timp) care au la bază variabile de timp;
-serii de spaţiu, care au la bază variabile de spaţiu.
c) după modul de exprimare a realizărilor variabilei:
-serii calitative, care au la bază variabile nenumerice;
-serii cantitative care au la bază variabile numerice şi care după
modul de variaţie a variabilei pot fi: discrete (când variabila este
discretă) şi continuă (când variabila este continuă).
d) în raport cu natura indicatorului de la baza seriei:
-serii de frecvenţă (serii de distribuţie, de repartiţie,
repartiţie statistică sau distribuţie statistică), sunt formate în
exclusivitate din frecvenţe (absolute cumulate sau necumulate,
relative cumulate sau necumulate) şi redau structura populaţiei
în raport cu una sau mai multe variabile.
-serii de variaţie care redau variaţia unui indicator în raport cu
una sau mai multe variabile şi sunt formate din celelalte tipuri de

16
indicatori altele decât frecvenţele; din aceste tipuri de serii un rol
important în practică îl au seriile care redau variaţia în timp a
indicatorului, adică seriile cronologice.
Aşadar prin intermediul seriilor se poate reda repartiţia elementelor
populaţiei de cercetat în grupe sau variaţia unui indicator în raport cu două
sau mai multe variabile.

Seria care redă repartiţia populaţiei în R clase în raport cu o variabilă


X se poate scrie astfel:

 [x , x ) [x1 , x2 ) ... [x R −1 , x R )
X :  0 1 
 N1 N2 ... NR 

unde [x0 , x1 ),..., [x R −1 , x R ) reprezintă intervalele de variaţie pentru X iar


N 1 , N 2 ,..., N R , cele R frecvenţe absolute corespunzătoare claselor. Dacă X
este o variabilă discretă, atunci seria va fi de tipul:

x x1 ... x R 
X :  0 
 N0 N 1 ... N R 

unde x0 ,..., x R sunt valorile variabilei X.


Seria de variaţie unidimensională se reprezintă astfel:

 i1 i2 ... il 
 
 y1 y2 ... y l 

unde i1 , i2 ,..., il , sunt fie unităţi de timp, fie unităţi de spaţiu sau alte
categorii socio-economici, iar y1 ,..., y l , sunt nivelele înregistrate de către
indicatorul în raport cu care este studiată populaţia.

Modul de simbolizare a seriilor bidimensionale de repartiţie este


următorul:

17
y x [x0 , x1 ) [x1 , x2 ) … [x j −1 , x j ) … [x R −1 , x R ) TOTAL
[ y P −1 , y P ) N P1 N P2 . . . N Pj . . . N PR N P•
. . . . .
.
. . . . .
. . . . . .
[ yi −1 , yi ) N i1 Ni2 . . . N ij . . . N iR N i•
. . . . . .
. . . . . .
. . . . . .
[ y1 , y 2 ) N 21 N 22 . . . N2 j . . . N 2R N 2•
[ y 0 , y1 ) N 11 N 12 . . . N1 j . . . N 1R N 1•

TOTAL N •1 N •2 . . . N• j . . . N •R N

unde N ij reprezintă clasa unităţilor pentru care variabila X ia valori în


[
intervalul x j −1 , x j ) iar variabila Y ia valori în intervalul [ y i −1 , y i ) .
Pe baza acestui tabel numit şi repartiţie bidimensională se pot
extrage seriile marginale şi seriile condiţionate.

Seria marginală în raport cu X:

 [x0 , x1 ) [x1 , x2 ) ... [x , x j ) ...


j −1 [x R −1 , x R )
X :  

 N •1 N •2 ... N• j ... N •R 

Seria marginală în raport cu Y:

 [y , y ) [ y1 , y 2 ) ... [ yi −1 , yi ) ... [ y P −1 , y P )
Y :  0 1 
 N 1• N 2• ... N i• ... N P• 

R P
Avem relaţiile ∑ N • j = ∑ N i• = N .
j =1 i =1

Există de asemenea R serii în raport cu Y condiţionate de X şi P serii


în raport cu X condiţionate de Y.

18
Spre exemplu seria în raport cu X condiţionată de clasa [ y i −1 , y i ) a
lui Y , se poate scrie astfel:

 [x0 , x1 )
X / Y ∈[ yi −1 , yi ) : 
[x1 , x2 ) ... [x , x j ) ...
j −1 [x R −1 , x R )


 N i1 N i2 ... N ij ... N iR 

Analog, seria în raport cu Y condiţionată de clasa x j −1 , x j ) [


 [ y 0 , y1 ) [ y1 , y 2 ) ... [y j −1 , y j ) ... [ y P −1 , y P )
Y / X ∈[x j −1 , x j ) :  

 N1 j N2 j ... N ij ... N Pj 

În tabel mai au loc relaţiile:

P R R P

∑ N ij = N • j , ∑ N ij = N i• , ∑∑ N ij = N .
i =1 j =1 j =1 i =1

1.5.B. Exemple

Serii statistice unidimensionale:


-serie atributivă (redă repartiţia populaţiei formate cu 100 de firme în raport
cu variabila X = cifră de afaceri exprimată în u.m.)

 [0 − 50) [50 − 100) [100 − 150) [150 − 200)


X :  
 25 10 50 15 

-serie de spaţiu (redă repartiţia pe judeţul de domiciliu a 50 de studenţi)

 Alba Arad Brasov Hunedoara 


X :  
 35 3 2 10 

pot fi şi ele împărţite în serii de momente de timp şi serii


-seriile de timp
de intervale de timp
-serie de momente de timp (redă numărul de cinematografe timp de trei
ani) în România

19
1938 1950 1960 
X :  
 338 1299 3350 

-serie de intervale de timp (redă producţia de autoturisme din România)

1987 1988 1989 1990 1991


X :  
 129 141 144 100 84  mii bucati

-serie calitativă (redă repartiţia pe sexe a angajaţilor unei firme în număr de


80)
M F 
X :  
 25 55 

-serie cantitativă (redă repartiţia angajaţilor unei firme în funcţie de salariu /


lună)

 [1 − 2 ) [2 − 3) [3 − 4) [4 − 5) [5 − 6)
X :  
 12 23 12 20 6  u .m.

-seria cantitativă discretă (redă repartiţia familiilor dintr-o localitate în


funcţie de numărul de copii)

0 1 2 3 4 5 6 > 6
X :  
 20 40 100 200 80 40 20 21 

-serie cantitativă continuă (redă repartiţia studenţilor unui an universitar în


raport cu media pe an)

 [5 − 5,99] [6 − 6,99] [7 − 7,99] [8 − 8,99] [9 − 10]


X :  
 12 50 60 60 18 

-serie de frecvenţe (redă repartiţia produselor unei fabrici în funcţie de


calitate, pentru un lot de 1000 de produse)

20
 I II III IV 
X :  
 700 200 50 50 

-serie de variaţie (redă variaţia profitului unei firme pe parcursul unui an)

 Ian Feb mar Apr Mai Iun Iul ...


X :  
100 120 100 113 102 115 120 ...

-o serie poate să treacă în acelaşi timp prin mai multe clasificări; de exemplu
seria care redă repartiţia familiilor dintr-un oraş în funcţie de numărul de
camere pe care-l ocupă este o serie de frecvenţe, atributivă, cantitativă,
discretă

0 1 2 3 4 5 6 > 6
X :  
 20 50 75 100 50 25 15 10 

Serie de frecvenţe, bidimensională, având la bază o variabilă


calitativă, atributivă şi una cantitativă, discretă, atributivă:

x
y Mate-Fizică Filologie Chimie-Biologie Industrial Alte Profile Total
0 80 2 25 2 7 116
1 18 2 15 5 6 46
2 2 7 7 3 19
3 1 4 5 10
>3 2 7 9
Total 100 12 40 20 28 200

Seria de mai sus redă repartiţia a 200 de studenţi dintr-un an


universitar, de la un profil economic, cercetaţi în raport cu X - profilul
liceului absolvit şi cu Y - numărul de examene restanţă la sfârşitul anului I.
Seria marginală în raport cu X redă repartiţia studenţilor în funcţie de
profilul liceului absolvit:

21
 MF FILO CB IND ALTE 
X :  
 100 12 40 20 28  = 200

Seria marginală în raport cu Y redă repartiţia studenţilor în funcţie de


numărul de restanţe:

 0 1 2 3 > 3
Y :  
116 46 19 10 9  = 200

Pe baza tabelului bidimensional se pot extrage, de asemenea, cinci


serii condiţionate de clasele lui X şi tot cinci serii condiţionate de clasele lui
Y.

De exemplu seria studenţilor care au terminat un liceu industrial, în funcţie


de numărul de restanţe, va fi:

 0 1 2 3 > 3
Y : 
X = INDUSTRIAL  2 5 7 4 2 
= 20

iar seria studenţilor cu două examene restanţă în funcţie de profilul liceului


absolvit, va fi:
 MF FILO CB IND ALTE 
X :  
Y =2  2 7 0 7 3  =19

2. Organizarea statisticii

2.1. Obiectul statisticii

Obiectul de studiu al statisticii îl constituie populaţiile statistice de


orice natură. În studiul acestora, statistica realizează în prima fază
observarea populaţiei, observare ce poate fi exhaustivă (totală) sau parţială,
adică pe bază de eşantioane.
În faza următoare, rezultatele observării, denumite şi statistici
relative la variabilele cercetate, sunt supuse unui ansamblu de tehnici de
prelucrare din care rezultă produsul final al statisticii, materializat sub formă
de informaţie relativ la populaţia studiată.

22
În cazul în care statisticile rezultate în faza observării se referă la
întreaga populaţie, tehnicile de prelucrare ale acestora sunt tehnici ale
matematicii deterministe şi avem de-a face cu statistica descriptivă.
Statistica inferenţială se bazează în schimb pe statisticile rezultate
prin observarea unor eşantioane aleatoare deci rezultă în prima fază
informaţii la nivelul eşantionului care se extind apoi prin inferenţă statistică
la nivelul populaţiei univers din care s-a format eşantionul.

2.2. Istoricul statisticii

Statistica s-a conturat ca disciplină de sine stătătoare încă din


antichitate, realizând un compromis între practică şi teorie. Atât în Grecia
antică, cât şi în imperiul roman, se culegeau o serie de date care priveau
inventarierea bunurilor, a resurselor umane, descrierea geografică şi politică
a diverselor state.
Toate aceste preocupări au constituit o consecinţă a necesităţii
practice, executându-se în mod empiric şi fără respectarea unor criterii
riguroase.
Interesele de ordin ştiinţific nu au întârziat să apară, făcând ca
statistica sa evolueze de la stadiul de statistică practică. Începea să se
impună cunoaşterea unor fenomene, referitor la care se cunoşteau o
multitudine de date. În faza incipientă de conturare a statisticii, disciplina se
rezuma la descrierea statului, exprimarea situaţiei geografice, economice şi
politice. Acest mod de abordare a statisticii, cunoscut sub numele de
“descrierea statului”, a predominat până în secolul al XVII-lea şi al XVIII-
lea când a atins punctul culminant, prin construirea în Germania a unei şcoli,
cunoscută ca “Şcoala descriptivă germană”. Ulterior această disciplină
născută din practică a devenit un obiect de studiu favorit în Germania,
cunoscut sub numele de statistică
În această perioadă au fost elaborate lucrări cu privire la descrierea
statelor în diferite ţări europene. În Moldova, o astfel de lucrare este
“Descrierea Moldovei” a lui Dimitrie Cantemir.
După perioada de glorie a statisticii descriptive a statului, în Anglia
apare un curent statistic nou, cunoscut sub numele de aritmetica politică.
Acesta presupunea următoarele noi aspecte: analiza datelor de observaţie
prin procedee matematice; relevarea regularităţilor în fenomene social-
economice; formulări şi încercări de previzionare a unor fenomene..
Reprezentanţii noului curent au fost: John Graunt, William Petty şi Edmund
Malley. Influenţa aritmeticii politice engleze s-a făcut simţită şi în alte ţări,
înregistrându-se astfel o aritmetică politică europeană.

23
În consecinţă, la sfârşitul secolului al XVIII-lea, în statistică existau
două curente: după primul curent, statistica era înţeleasă ca o descriere
empirică a caracteristicilor statului (statistica descriptivă), în timp ce
conform celui de-al doilea curent statistica realiza analiza fenomenelor
sociale, în căutarea de reguli şi modelări motivate pe observaţii şi calcule
numerice (aritmetica politică).
Aritmetica politică cunoaşte o puternică înflorire odată cu inventarea
calculului probabilităţilor. Această nouă ramură a matematicii a realizat
fundamentarea ştiinţifică a preocupărilor statistice de până atunci. Printre
primii care au utilizat modelele teoriei probabilităţilor în studiul statistic al
fenomenelor economice şi sociale au fost Bernoulli, Laplace, Gauss, Fourier
şi Poisson. Calculul probabilistic s-a manifestat pregnant în statistică în
secolul al XIX-lea. Reprezentanţi de seamă ai acestei perioade au fost:
Quetelet, Cebâşev, Markov.
În secolul trecut apare o nouă etapă în evoluţia statisticii cunoscută
ca etapa constituirii statisticii moderne. În această etapă statistica evoluează
de la stadiul descriptiv, de prezentare simplistă a fenomenelor la
interpretarea analitică a fenomenelor şi deducerea de concluzii inductive
având la bază datele culese. În acest punct de cotitură apare o
întrepătrundere a statisticii cu matematica în vederea obţinerii celor mai
corespunzătoare metode în atingerea obiectivelor. Printre cei care au adus
un aport considerabil în statistica modernă, amintim aici pe Galton, Pearson,
Fischer.
Vom concluziona prin a spune că statistica modernă prezintă două
aspecte diferite dar complementare: aspectul descriptiv din aşa numita
statistică descriptivă, care permite expunerea informaţiilor aşa cum au
rezultat din prelucrarea datelor din observare şi aspectul inductiv, din
statistica inferenţială, care ne permite o tratare analitică a datelor în vederea
deducerii de concluzii logice, asociate observaţiilor efectuate. În cadrul unui
demers statistic ambele aspecte trebuie luate în considerare.
Statistica, prin metodele şi procedeele pe care le pune la dispoziţia
cercetătorului, permite o abordare ştiinţifică a diferitelor probleme care apar
în studiul cunoaşterii fenomenelor social-economice, generate de cauze
multiple şi complexe. Incursiunile în viitor, prin elaborarea de prognoze şi
strategii de dezvoltare sunt astăzi permise datorită contribuţiei aduse de
metodele statistice. Aceste considerente ne îndreptăţesc să acordăm
statisticii atenţia cuvenită şi în studiul economiei.

24
2.3. Organizarea statisticii

Institutul Naţional de Statistică reprezintă forul suprem din ţara


noastră care coordonează şi îndrumă activitatea de cercetare a fenomenelor
social-economice, necesare fundamentării ştiinţifice a deciziilor luate la
nivel guvernamental. El este subordonat direct guvernului României.
Institutul Naţional de Statistică acţionează în teritoriu prin intermediul
Direcţiilor Regionale de Statistică.
Institutul Naţional de Statistică are următoarele atribuţii: organizează
sistemul informaţional statistic de stat şi departamental, asigură metodologia
necesară observării şi înregistrării datelor din teritoriu, prelucrează datele
din diverse observări statistice, efectuează recensămintele şi alte lucrări
statistice importante, asigură şi păstrează fondul naţional de date statistice
etc..
Institutul Naţional de Statistică participă la desfăşurarea activităţii
internaţionale de statistică prin intermediul Comisiei de Statistică O.N.U.,
Conferinţei Statisticienilor Europeni, F.A.O., U.N.E.S.C.O., O.M.S..
Culegerea, transmiterea şi prelucrarea datelor rezultate din observări
statistice, la nivel de stat, a dat naştere, în decursul timpului, sistemului
informaţional statistic. Asigurarea de date pentru sistemul informaţional
statistic, se realizează prin operaţia de observare statistică şi înregistrarea
datelor rezultate în vederea prelucrării. În sistemul informaţional statistic se
desfăşoară simultan operaţii de observare, de stocare, de înregistrare şi de
prelucrare de date referitoare la diverse fenomene. Datele prelucrate aduc o
serie de informaţii noi referitoare la fenomenul studiat. Informaţiile aduse de
către sistemul informaţional statistic constituie elemente de bază în
elaborarea strategiilor de dezvoltare elaborate la nivel micro şi
macroeconomic.

2.4. Publicaţii statistice

Principalele publicaţii cu conţinut statistic din ţară sunt editate de


Academia Română, Instituţiile de învăţământ superior şi Institutul Naţional
de Statistică. Amintim următoarele publicaţii: “Revista Română de
Statistică” editată de Institutul Naţional de Statistică, “Revue Roumain de
Mathematiques Pures et Appliquées” şi “Studii şi Cercetări Matematice”
editate de Academia Română, “Studii şi Cercetări de Calcul Economic şi
Cibernetică Economică” editată de Academia de Studii Economice.Aceste
publicaţii contribuie la dezvoltarea statisticii atât sub aspect teoretic cât şi
aplicativ.

25
Institutul Naţional de Statistică emite periodic şi alte publicaţii care
reflectă stadiul economiei româneşti sub diverse aspecte. “Anuarul Statistic
al României” este una dintre cele mai complexe publicaţii care sintetizează
anual date ce reflectă stadiul de dezvoltare a diverselor ramuri ale economiei
naţionale, aspecte sociale şi demografice ale populaţiei României etc..
Alte publicaţii ce stochează de asemenea diverse date sunt: Mediul
înconjurător în România, Economia mondială în cifre, Conturile naţionale,
Starea socială şi economia României, Breviarul de comerţ exterior, Buxiarul
de turism etc.. În buletinele periodice, Institutul Naţional de Statistică
publică date pe termen scurt, în special evoluţia lunară a principalilor
indicatori economico-sociali şi studii de conjunctură economică. Amintim
aici: Buletin statistic lunar, Studii de conjunctură economică: industria
prelucrătoare, construcţii, comerţ, Buletin statistic de preţuri, Buletin
statistic - industrie, Buletin statistic de comerţ exterior, Buletin statistic
trimestrial.
Publicaţiile editate de Institutul Naţional de Statistică au menirea de
a asigura cititorului o informaţie sistematică relativ la dinamica economiei
precum şi la alte aspecte din sistemul de stat.

3. Test de autoevaluare I

3.1.Enunţ

1.Daţi cinci exemple de populaţii statistice şi pentru fiecare în parte precizaţi


scopul în raport cu care se studiază fiecare populaţie precum şi variabilele
subordonate scopului respectiv.
2.Se consideră populaţia formată cu cele 100 de gospodării ale unei
localităţi. În vederea stabilirii unei posibile legături între recolta de grâu la
ha, venitul pe gospodărie, ajutorul obţinut de la stat şi cantitatea de teren
administrată, se chestionează un eşantion din 50 de gospodării. Precizaţi în
cadrul acestui exemplu noţiunile: populaţie statistică, unitate statistică,
variabilele statistice în raport cu care se face cercetarea , volumul populaţiei,
volumul eşantionului. Elaboraţi tabelul în care se vor trece datele culese în
urma aplicării chestionarului, completând primele două linii ale acestuia cu
date eventual fictive.
3.Caracterizaţi următoarele variabile:
- vârsta, sexul, venitul, ocupaţia, locul naşterii, anul naşterii (relativ la o
persoană)
- numărul de angajaţi, profilul firmei, profitul obţinut în ultimul an,
domiciliul în care îşi are sediul, anul înfiinţării (relativ la o firmă).
26
4.Se consideră seria statistică :

 Ianuarie Februarie Martie 


X :  
 1,8 1,6 1,95 

redând salariul unui muncitor pe primele trei luni ale anului, exprimat în
u.m.. Elaboraţi seriile cu toţi indicatorii derivaţi posibili.
Aceeaşi problemă pentru seria:

 S P M
X :  
 45 43 12 

unde X redă forma de proprietate pentru cele 100 de societăţi comerciale


dintr-o localitate (S = cu capital integral de stat, P = cu capital privat, M =
cu capital mixt).

3.2.Rezolvare

Problema 1

a)Populaţia statistică: mulţimea locuinţelor familiilor de 7 persoane, în anul


2000
Scopul: studierea condiţiilor de trai pentru familiile respective.
Variabile statistice subordonate scopului:
-numărul camerelor locuinţelor
-suprafaţa ( m 2 ) locuinţelor
-tipul de încălzire utilizată, etc.
b)Populaţia statistică: mulţimea caselor de copii din România în anul 1998
Scopul: Stabilirea calităţii vieţii în astfel de instituţii.
Variabile statistice:
-numărul de copii
-numărul personalului
-numărul de paturi într-o cameră
-cheltuielile cu întreţinerea (hrană, îmbrăcăminte, etc.)/copil
c)Populaţia statistică: mulţimea societăţilor comerciale din Alba-Iulia la
sfârşitul anului 1999
Scopul-Studierea pieţei produselor pe care acestea le promovează.

27
Variabile statistice:
-volumul vânzărilor pe 1999
-profitul pe 1999
-cheltuielile cu publicitatea pe 1999
d)Populaţia statistică : mulţimea angajaţilor unei firme din localitatea X în
anul 2001
Scopul –stabilirea unei relaţii de comunicare reală a angajaţilor cu
conducerea firmei
Variabile statistice:
-opinia angajaţilor cu privire la modul de salarizare
-opinia acestora privind politica firmei vizavi de promovarea produselor
-salariul pe ultima lună, etc.
e)Populaţia statistică: mulţimea localităţilor din România în anul 1996
Scopul: cercetarea gradului de privatizare în anul 1996 în România
Variabile statistice:
- numărul societăţilor private din fiecare localitate
- numărul celor care doresc să-şi înfiinţeze în decursul anului o societate
privată

Problema 2

Populaţia statistică studiată: mulţimea celor 100 de gospodării ale unei


localităţi
Unitate statistică: gospodăria (unitate de natură complexă)
Variabile statistice :
X 1 - producţia de grâu/ha a unei gospodării(în mii kg.)
X 2 - suprafaţa de teren administrată de o gospodărie (în ha.)
X 3 -venitul/gospodărie (în u.m.)
X 4 -ajutorul obţinut de la stat (în u.m.)
Volumul populaţiei: N = 100
Volumul eşantionului: n = 50
După realizarea observării statistice se întocmeşte un tabel de tipul
următor:
Nr.Crt X1 X2 X3 X4
1 5 3 6,3 3
2 12,5 5,4 4,7 6
. . . . .
. . . . .
50 . . . .

28
Citirea tabelului se face astfel : de exemplu a doua gospodărie din eşantion
a recoltat 12,5 kg. grâu,de pe un teren de 5,4 ha.
Gospodăria are un venit de 4,7 u.m. şi a primit un ajutor de la stat în valoare
de 6 u.m. .

Problema 3

Vârsta –variabilă statistică numerică (cantitativă)atributivă, continuă


Sexul –variabilă calitativă, atributivă şi alternativă
Venitul –variabilă cantitativă, atributivă,continuă
Ocupaţia –variabilă calitativă, atributivă
Locul naşterii –variabilă calitativă, de spaţiu
Anul naşterii –variabilă cantitativă, de timp, discretă,de momente
Numărul de angajaţi –variabilă cantitativă, discretă, atributivă
Profilul firmei –variabilă calitativă, atributivă
Profitul obţinut în ultimul an –variabilă cantitativă, continuă, atributivă
Domiciliul sediului –variabilă calitativă, de spaţiu
Anul înfiinţării –variabilă cantitativă, de timp, discretă şi de momente
Observaţie: Vârsta, venitul, profitul sunt de fapt variabile discrete dar se
consideră ca fiind variabile continue pentru simplificarea prelucrării datelor

Vom calcula mai întâi indicatorii derivaţi din seria

 Ianuarie Februarie Martie 


X :  
 1,8 1,6 1,95 

care are la bază un indicator de nivel şi anume salariul. Se pot calcula


următorii indicatori: indicele statistic, diferenţa absolută, diferenţa relativă.

Indicele statistic cu bază fixă:

 0 1 2

t/0  Ian u arie Febr u arie Ma r tie 
I :
x
 0/0 
 Ix I 1x / 0 I x2 / 0 
x(t )
I xt / 0 =
x(0)

29
x(0) 1,8
I x0 / 0 = = =1
x(0) 1,8
x(1) 1,6
I 1x / 0 = = = 0,88
x(0) 1,8
x(2) 1,95
I x2 / 0 = = = 1,083
x(0) 1,8

 
I tx/ 0 :  Ian u arie Febr u arie Ma r tie 
 1
 0,88 1,083 

Interpretare: Salariul muncitorului a scăzut în luna Februarie faţă de luna


Ianuarie de 0,88 ori şi a crescut în luna Martie faţă de luna Ianuarie de 1,083
ori.

Indicele cu bază în lanţ:

 0 1 2

t / t −1  Ian u arie Febr u arie Ma r tie 
I :
x
 
 − I 1x / 0 I x2 / 1 
x(t )
I xt / t −1 =
x(t − 1)
x(1)
I 1x / 0 = = 0,88
x(0)
x(2) 1,95
I x2 / 1 = = = 1,21
x(1) 1,6

 
I tx/ t −1 :  Ian u arie Febr u arie Ma r tie 
 −
 0,88 1,21 
Se observă că salariul a crescut în luna Martie faţă de luna Februarie de 1,21
ori
Diferenţa absolută cu bază fixă:

0 1 2 
∆tx/ 0 :  0 / 0 1 / 0 2 / 0 
∆x ∆x ∆x 

30
∆tx/ 0 = x(t ) − x(0 )

∆0x/ 0 = 0, ∆1x/ 0 = x(1) − x(0 ) = 1,6 − 1,8 = −0,2

∆2x/ 0 = x(2 ) − x(0 ) = 1,95 − 1,80 = 0,15

 Ianuarie Februarie Martie 


∆ tx/ 0 :  
 0 − 0, 2 0,15 

Interpretarea duce firesc la aceleaşi rezultate obţinute folosind


indicele statistic, dar exprimate în alţi termeni. Salariul a scăzut cu 0,2 în
Februarie faţă de Ianuarie şi a crescut cu 0,15 în Martie faţă de Ianuarie.
Diferenţa absolută cu bază în lanţ:

 0 1 2 
∆tx/ t −1 :  
 − ∆ 1/ 0
x ∆2x/ 1 
∆tx/ t −1 = x(t ) − x(t − 1)

∆1x/ 0 = −0,2

∆2x/ 1 = 1,95 − 1,6 = 0,35

 Ianuarie Februarie Martie 


∆tx/ t −1 :  
 − − 0,2 0,35 

Se observă că în luna Martie, salariul a crescut faţă de luna Februarie cu


0,35.
Diferenţa relativă cu bază fixă:

 0 1 2 
R tx/ 0 :  0 / 0 1 / 0 2 / 0 
 Rx Rx Rx 

∆tx/ 0
R tx/ 0 = (I tx/ 0 - 1) ⋅ 100 = ⋅ 100
x(0)

31
R 0x / 0 = I 0x / 0 - 1 = 0 sau 0%

R 1x/ 0 = I 1x/ 0 - 1 = 0,88 - 1 = - 0,12 sau -12%

R 2x / 0 = I 2x / 0 - 1 = 1,083 – 1 = 0,083 sau 8,3%

 Ianuarie Februarie Martie 


R tx/ 0 :  
 0 % − 12 % 8,3 % 
În luna Februarie faţă de luna Ianuarie, salariul a scăzut cu 12% iar în luna
Martie faţă de luna Ianuarie a crescut cu 8,3%.
Diferenţa relativă cu bază în lanţ:

0 1 2 
R tx/ t −1 :  
2 /1 
 − R1/ 0
x Rx 
t / t −1
∆x
R tx/ t −1 = (I tx/ t −1 - 1) ⋅ 100 = ⋅ 100
x(t − 1)

R 1x/ 0 = -12%

R 2x / 1 = (I 2x / 1 - 1) ⋅ 100 = (1,21 - 1) ⋅ 100 = 21%

 Ianuarie Februarie Martie 


R tx/ t −1 :  
 − − 12% 21% 

În luna Martie salariul a crescut cu 21% faţă de luna Februarie


Observaţie: La indicatorii cu bază fixă s-a considerat ca şi bază fixă de
comparaţie notată cu 0, luna Ianuarie, dar la fel de bine se putea nota cu 0
oricare din celelalte luni.

Greutatea specifică:
0 1 2 
g :  
 g1 g 2 g 3 

32
3
yi
gi = 3
, ∑y i =1,8 + 1,6 + 1,95=5,35
∑y
i =1
i
i =1

1,8
g1= = 0,34 sau 34%
5,35
1,6
g2= ≈ 0,3 sau 30%
5,35
1,95
g3= ≈ 0,36 sau 36%
5,35
 Ianuarie Februarie Martie 
g :  
 34% 30% 36% 
Din salariul obţinut pe cele trei luni cumulat ,34% îl reprezintă salariul pe
luna Ianuarie, 30% pe Februarie iar 36% pe Martie.

Problema 5
S P M 
Seria X:   are la bază indicatorul numit frecvenţă absolută şi
 45 43 12 
anume din cele 100 de SC studiate, 45 sunt cu capital de stat, 43 cu capital
privat şi 12 cu capital mixt. Se pot calcula următorii indicatori derivaţi :
frecvenţa absolută cumulată, frecvenţa relativă, frecvenţa relativă cumulată.
Frecvenţa absolută cumulată:
Notăm N 1 = 45 N 2 = 43 N 3 = 12 , N 1 + N 2 + N 3 = N =100

 S S+P S +P+M 
X:  
 N ( X1) N ( X 2 ) N (X3) 
N(X i ) = N 1 + N 2 +...+N i
N(X 1 ) = N 1 = 45
N(X 2 ) = N 1 + N 2 = 45 + 43 = 88
N(X 3 ) = N 1 + N 2 + N 3 = 100

 S S+P S+P+M
X:  
 45 88 100 

De exemplu ,există 88 de societăţi cu capital privat sau de stat.

33
Frecvenţa relativă:
S P M 
X:  
 f1 f2 f3 
Ni
f i= ⋅ 100
N
45
f 1= ⋅ 100 =45%
100
43
f 2= ⋅ 100 =43%
100
12
f3= ⋅ 100 = 12%
100
S P M 
X:  
 45% 43% 12% 
Din totalul societăţilor comerciale sunt 45% cu capital de stat, 43%,cu
capital privat şi 12% cu capital mixt.
Frecvenţa relativă cumulată:
 S S+P S+P+M
X:  
 FN ( X 1 ) FN ( X 2 ) FN ( X 3 ) 
F N (X i )=f 1 +...+f i

F N (X 1 )= 45%

F N (X 2 )= 45% + 43% = 88%

F N (X 3 )= 45% + 43% +12% =100%


Din totalul societăţilor comerciale studiate, 88% sunt cu capital de
stat sau privat.

34
CAPITOLUL II

OBSERVAREA, SISTEMATIZAREA ŞI PRELUCRAREA


DATELOR STATISTICE

1. Observarea statistică

1.1.A. Demersul observării statistice

Observarea statistică reprezintă prima etapă în cadrul studierii


fenomenelor sociale, economice sau de altă natură, etapă în care se culeg
datele statistice despre fenomenul supus observării. Ca primă etapă într-un
studiu de cercetare, observarea statistică presupune: specificarea unităţilor
statistice care trebuie să fie urmărite şi înregistrate; alegerea variabilelor
statistice care caracterizează cel mai bine populaţia şi care răspund
obiectivului urmărit; înregistrarea stărilor variabilelor statistice considerate.
Atingerea scopului cercetării statistice presupune rezolvarea
următoarelor probleme care să asigure o pregătire ştiinţifică a observării
statistice:
-delimitarea populaţiei supuse observării;
-definirea unităţilor statistice de observat;
-timpul şi locul unde va avea loc observarea;
-programul observării;
-alegerea purtătorilor de informaţie;
pregătirea persoanelor ce urmează să facă observarea.
Delimitarea populaţiei supuse observării precum şi definirea
unităţilor statistice de observat se face în funcţie de scopul observării. În
condiţiile în care se impune cercetarea doar a unei părţi din populaţie, adică
a unui eşantion (observare parţială) atunci trebuie precizat care anume vor fi
unităţile supuse observării, după ce criterii se selectează acestea din
populaţia iniţială astfel încât rezultatele cercetării să poată fi extinse la
nivelul întregii populaţiei.
Noţiunea de timp al observării are în statistică două sensuri:
-momentul sau perioada la care se referă datele înregistrate
(timpul de referinţă)
-durata observării.
În cadrul programului observării statistice trebuie stabilite variabilele
statistice care urmează să fie studiate în populaţia cercetată. Alegerea şi
definirea variabilelor statistice trebuie să corespundă naturii populaţiei şi să

35
servească obiectivul cercetării statistice. Programul de observare trebuie să
cuprindă un număr optim de variabile.
Purtătorii de informaţie sunt suporţii materiali pe care se
înregistrează datele din observarea unităţilor statistice. Aceştia se clasifică în
suporţi de informaţie clasici (listele şi fişierele) şi suporţi magnetici de
informaţie (discurile, dischetele, etc.).Alegerea purtătorilor de informaţie se
face în funcţie de volumul datelor.
Selectarea şi pregătirea persoanelor care urmează să fie implicate în
etapa de observare se face mai ales când fenomenul studiat este de
amploare. Un asemenea fenomen îl constituie recensământul, care reprezintă
o observare la scară naţională cu un mare consum de mijloace materiale.
În raport cu gradul de cuprindere a populaţiei considerate avem
observarea totală şi observarea parţială.
Observarea totală reprezintă înregistrarea, în raport cu variabilele
statistice studiate a tuturor unităţilor statistice din populaţie. Acest gen de
observare implică un volum mare de muncă, antrenează un număr mare de
persoane şi durează mult timp favorizând apariţia erorilor de observare, ceea
ce va duce la micşorarea eficienţei observării. Printre observările totale se
regăsesc şi recensămintele populaţiei precum şi controlul de calitate în cazul
produselor de înaltă tehnicitate.
În cazul altor produse, este suficientă realizarea unor observări
parţiale prin care să se asigure că rebuturile nu depăşesc un anumit procent
admis.
Eşantionul, ca şi componentă a observării parţiale, presupune
respectarea principiului reprezentativităţii, în conformitate cu care fiecare
unitate statistică din populaţia generală trebuie să aibă aceeaşi şansă de a
face parte din eşantion. Asigurarea respectării principiului reprezentativităţii
în formarea eşantioanelor de observat presupune o structură a eşantionului
foarte apropiată cu cea a populaţiilor din care este format. Aceasta ne
asigură, cu o anumită probabilitate dinainte fixată, că rezultatele obţinute la
nivelul eşantionului pot fi extinse la nivelul întregii populaţii. Există două
tipuri de eşantioane: de volum mare (peste 30 unităţi), de volum redus (cel
mult 30 unităţi).
O altă formă de observare parţială este observarea prin anchetă în
care unităţile supuse observării se aleg în funcţie de scopul cercetării, iar
înregistrarea lor se face sub formă de răspunsuri scrise pe care persoanele
desemnate în acest sens le dau întrebărilor dintr-un chestionar. Persoanele ce
urmează a fi chestionate primesc chestionarul respectiv şi răspund benevol
la întrebări. În acest caz, populaţia care urmează să fie anchetată nu
formează un eşantion reprezentativ deci rezultatele obţinute sunt doar
orientative pentru toată populaţia.
36
1.1.B. Exemple

Se supune observării statistice populaţia formată cu societăţile


comerciale ce se privatizează conform Legii 55/1995, scopul cercetării fiind
stabilirea gradului de privatizare pe baza legii respective [6]. Se determină
un eşantion aleator de 30 societăţi care vor fi observate în raport cu
variabilele:
X 1 - judeţul unde are sediul principal
X 2 - ramura (subramura) în care îşi desfăşoară activitatea
X 3 - capital social
X 4 - cifra de afaceri
X 5 - profitul
X 6 - procentul din capitalul social care se vinde cu titlu gratuit
Rezultatele observării statistice sunt trecute în următorul tabel:

Tabelul 1

Jud.(localitatea) unde Procent


îşi are sediul Ramura de Capital Cifra de supus
Nr.crt. Marcă principal activitate social afaceri Profitul vânzării
1. 994 Cluj industrie 8.083.365 2.309.871 0 49 %
2. 1006 Cluj industrie 9.611.744 10.761.787 419.175 49 %
3. 3588 Bucureşti industrie 10.116.125 7.694.483 467.496 49 %
4. 3685 Bucureşti industrie 8.053.025 11.561.823 969 49 %
5. 2994 Timiş industrie 2.121.925 2.317.951 80.880 60 %
6. 928 Cluj agricultură 4.678.625 271.610 0 60 %
7. 929 Cluj agricultură 888.490 159.351 0 60 %
8. 932 Cluj agricultură 1.566.623 5.747.524 1.097 60 %
9. 3382 Bucureşti servicii 1.076.050 5.377.189 17.363 60 %
10. 12 Alba transporturi 2.152.325 4.400.044 8.681 60 %
11. 25 Alba transporturi 2.990.126 871.025 0 60 %
12. 53 Alba servicii 510.285 773.886 38.935 60 %
13. 991 Cluj transporturi 507.277 330.839 0 60 %
14. 1004 Cluj transporturi 4.845.214 5.359.855 12.436 60 %
15. 3096 Timiş transporturi 5.963.750 9.931.327 90.223 60 %
16. 3043 Timiş transporturi 3.410.000 5.387.876 13.238 0 %
17. 47 Alba construcţii 6.270.418 541.334 0 49 %

37
18. 32 Alba construcţii 2.007.911 91.896 976 60 %
19. 3322 Vâlcea construcţii 3.354.625 6.855.127 145.649 60 %
20. 966 Cluj construcţii 7.546.425 9.345.803 225.865 60 %
21. 972 Cluj construcţii 4.116.425 3.720.863 375.052 60 %
22. 1005 Cluj construcţii 4.629.025 8.000.906 400.575 60 %
23. 9 Alba agricultură 6.848.825 176.728 1.960 60 %
24. 26 Alba agricultură 9.709.000 3.864.087 1.087 49 %
25. 2956 Timiş agricultură 520.686 542.748 0 60 %
26. 2959 Timiş agricultură 2.086.534 37.793 0 60 %
27. 3264 Vâlcea agricultură 1.891.958 988.769 62.668 60 %
28. 3290 Vâlcea agricultură 3.114.550 2.812.349 78.300 60 %
29. 3296 Vâlcea servicii 5.389.225 12.456.122 390.659 49 %
30. 964 Cluj servicii 5.874.950 6.240.445 23.583 60 %

1.2. Erorile de observare

Erorile de observare se manifestă ca diferenţă între starea reală a


unei variabile la o unitate oarecare şi starea înregistrată. Erorile de observare
se clasifică în erori de înregistrare şi erori de reprezentativitate.

Erorile de înregistrare sunt strâns legate de procesul de realizare a


observării statistice, de înregistrarea stărilor variabilelor şi pot fi cauzate de
cel ce execută observarea dar şi de unitatea statistică observată. Erorile de
înregistrare pot fi la rândul lor: erori sistematice sau erori întâmplătoare.

Erorile sistematice pot fi cauzate de anchetator din diverse motive:


grad de oboseală ridicat, înţelegere greşită a unor instrucţiuni de completare
a chestionarelor precum şi de persoanele ce constituie obiectul observării
(de exemplu, în cazul declarării venitului).

Erorile întâmplătoare pot fi cauzate de ambii parteneri, erori ce pot


fi făcute atât de cel ce efectuează observarea cât şi cel de observat, dar
acestea pot fi neglijate ca urmare a legii numerelor mari.

Erorile de reprezentativitate pot fi la rândul lor cu caracter


sistematic sau întâmplător şi sunt în strânsă legătură cu observarea parţială a
unei populaţii pe bază de eşantion. Acestea se pot evita dacă se respectă
toate regulile de formare şi dimensionare a eşantionului.
38
2. Sistematizarea rezultatelor observării

2.1.A. Elaborarea seriilor primare

Pentru realizarea scopului cercetării (evidenţierea unor trăsături ale


populaţiei cercetate) se impune prezentarea statisticilor rezultate prin
observare şi materializate în chestionare, sub o formă organizată, respectiv,
o serie statistică.
În general, rezultatele observării pot fi prezentate sub formă de serii
de frecvenţe care redau structura populaţiei cercetate în raport cu una sau
mai multe variabile sau sub formă de serii de variaţie, în special cronologice
care redau evoluţia, în special în timp, a unor elemente, în cazul în care
populaţia a fost observată sistematic, de mai multe ori.
Prelucrarea primară constituie acea etapă din sistematizarea
rezultatelor observării în urma căreia rezultă seriile mai sus amintite. Este
necesară în acest sens, parcurgerea următoarelor etape:
-alegerea variabilelor;
-stabilirea claselor;
-algoritmul de calcul prin care rezultă indicatorii din care sunt
formate seriile primare.
În cazul elaborării unor serii unidimensionale este necesar să se
completeze cele două linii ale seriei. În primul rând se vor trece (referitor la
seriile de frecvenţe) valorile posibile ale variabilei studiate iar în al doilea
rând frecvenţele cu care diferite valori ale variabile apar înregistrate la
unităţile populaţiei.
Completarea primului rând se face în funcţie de tipul seriei.
Dacă avem de-a face cu o serie calitativă sau numerică discretă cu
valori în număr redus (<15) atunci clasele se definesc prin valorile variabilei
adică prin stările ei.
În cazul unei serii cantitative continue sau cantitative discretă cu
multe stări, se recurge la împărţirea domeniului de valori ale variabilei în
mai multe intervale de variaţie, care vor reprezenta clasele. Aceste clase pot
sau nu să fie de lungime egală. Lungimea unei clase este sugerată de
formula lui Sturges:
x max − x min
lx = (1)
1 + 3,322 ⋅ lg N

- unde la numărător apar valoarea maximă respectiv valoarea minimă


înregistrată de variabila X cercetată iar N este volumul populaţiei sau

39
eşantionului studiat; numitorul fracţiei semnifică de fapt numărul de clase
care rezultă în urma împărţirii domeniului de variaţie.
Odată stabilită lungimea claselor, intervalele de variaţie, deci clasele
vor fi următoarele:

[xmin , xmin + l ), [xmin + l , xmin + 2l ),..., [xmin + (R − 1)l , xmin + Rl )


unde R va fi numărul de clase rezultate.
Formula de calcul (1) este doar orientativă, cel care face studiul
putând să-şi fixeze prin convenţie clasele ţinând totuşi cont de următoarele
reguli: nu trebuie să existe clase de frecvenţă nulă; nu trebuie să se piardă
unităţi în sensul că fiecare unitate trebuie să se găsească în una şi numai una
din clasele rezultate. Ca modalitate de scriere, intervalul [a, b ) , arată că
unităţile care vor înregistra valoarea X = a aparţin acestei clase, în schimb
cele care au X = b nu aparţin clasei [a, b ) .
Să atragem atenţia asupra faptului că deşi în cazul unei serii
calitative, clasele vor fi exprimate prin cuvinte sau simboluri, deci ordinea
lor nu interesează, pentru o serie cantitativă discretă stările variabilei vor fi
ordonate crescător.
A doua problemă care apare în elaborarea unei serii este completarea
rândului de frecvenţe.
În cazul seriilor calitative şi a celor cantitative discrete cu puţine
stări, dedesubtul fiecărei clase se va trece numărul unităţilor din populaţie
care înregistrează pentru variabila X, valoarea conţinută în acea clasă. Va
rezulta o construcţie de genul:

x x2 ... x R 
X :  1 .
 N1 N2 ... N R 

În cazul seriilor cantitative discrete cu multe stări şi a seriilor


cantitative continue, dedesubtul unei clase de tipul [a, b ) se va trece
numărul unităţilor care înregistrează pentru variabila X, valoarea x ce
satisface relaţia a ≤ x < b . Seria rezultată va arăta astfel:

 [x , x ) [x1 , x2 ) ... [xi −1 , xi ) ... [x R −1 , x R )


X :  0 1  .
 N1 N2 ... Ni ... NR 

40
R
În ambele cazuri, fiind vorba de frecvenţe vom avea: ∑N
i =1
i =N.

În cazul unei serii bidimensionale bazată pe variabilele X şi Y, odată


formate clasele în raport cu fiecare variabilă, prin intersectarea a câte unei
clase i în raport cu X cu câte o clasă j în raport cu Y se obţin clase a căror
frecvenţă este numărul de unităţi din populaţie care se situează atât în clasa i
a lui X cât şi în clasa j a lui Y. Vom obţine următoarea construcţie:

x x1 x2  xj  xR TOTAL
y
yp N p1 N p2  N pj  N pR N P•
     
     
yi N i1 Ni2 N ij N iR N i•
 
     
     
y2 N 21 N 22  N2 j  N 2R N 2•
y1 N 11 N 12   N 1R N 1•
N1 j
TOTAL N •1 N •2  N• j  N •R N

-unde N ij reprezintă numărul unităţilor pentru care variabila X a înregistrat


valoarea x j iar variabila Y a înregistrat valoarea y i , explicaţia fiind
asemănătoare, şi în cazul în care clasele sunt intervale.

2.1.B. Exemple

Pe baza datelor tabelului 1 din 1.1.B. se vor elabora seriile


unidimensionale în raport cu fiecare variabilă în parte precum şi câteva serii
bidimensionale.

 Cluj Bucuresti Timis Alba Valcea 


X 1 :  ,
 11 3 5 7 4 

41
 industrie agricultura servicii transporturi constructii 
X 2 :   .
 5 9 4 6 6 

Calculăm lungimea unui interval de variaţie, pentru variabila: capital


social (în u.m.):
x − x min 10,1 − 0,5 9,6
I x = max = = = 1,6
1 + 3,332 ⋅ lg n 1 + 3,322 ⋅ 1,47 5,9

 [0,5 − 2,1) [2,1 − 3,7 ) [3,7 − 5,3) [5,3 − 6,9) [6,9 − 8,5) [8,5 − 10,1]
X 3 :  
 9 6 4 5 3 3 
.
Calculăm lungimea unui interval de variaţie pentru variabila: cifra de
afaceri (în u.m.):

x max − x min 12,45 − 0,03


Ix = = ≈ 2,1
1 + 3,332 ⋅ lg n 5,9

 [0,03 − 2,13) [2,13 − 4,23) [4,23 − 6,33) [6,33 − 8,43) [8,43 − 10,53) [10,53 − 12,45] .
X 4 :  
 11 5 6 3 2 3 

Calculăm lungimea unui interval de variaţie pentru variabila: profit


(în u.m.):
x − x min 0,46 − 0
I x = max = ≈ 0,07
1 + 3,332 ⋅ lg n 5,9

 [0 − 0,07 ) [0,07 − 0,14) [0,14 − 0,21) [0,21 − 0,28) [0,28 − 0,35) [0,35 − 0,46]
X 5 :  
 20 3 2 1 0 4 
 49% 60% 
X 6 :  .
 7 23 

Următoarele două serii sunt serii bidimensionale în care după


stabilirea claselor se obţin prin numărare frecvenţele.

42
Seria ( X 2 , X 3 ) :

X2
X3 industrie agricultură servicii transporturi construcţii TOTAL

[0,5-2,1) 0 5 2 1 1 9
[2,1-3,7) 1 1 0 3 1 6
[3,7-5,3) 0 1 0 1 2 4
[5,3-6,9) 0 1 2 1 1 5
[6,9-8,5) 2 0 0 0 1 3
[8,5-10,1) 2 1 0 0 0 3

TOTAL 5 9 4 6 6 30

Seria ( X 3 , X 4 ) :

C.S.
X3
C.A. 1,3 2,9 4,5 6,1 7,7 9,3
X4 [0,5-2,1) [2,1-3,7) [3,7-5,3) [5,3-6,9) [6,9-8,5) [8,5-10,1) TOTAL
[0,03-2,13) 7 1 1 2 0 0 11
[2,13-4,23) 0 2 1 0 1 1 5
[4,23-6,33) 2 2 1 1 0 0 6
[6,33-8,43) 0 1 1 0 0 1 3
[8,43-10,53) 0 0 0 1 1 0 2
[10,53-12,45) 0 0 0 1 1 1 3
TOTAL 9 6 4 5 3 3 30

2.2.A. Elaborarea seriilor derivate şi a seriilor cronologice

Prelucrarea secundară constă în elaborarea seriilor statistice


derivate care se obţin dintr-o serie primară, calculând diferiţi indicatori.
Pe baza unor serii primare de frecvenţe se pot construi următoarele
serii derivate:
-seria cu frecvenţe relative;
-seria cu frecvenţe relative cumulate;
-seria cu frecvenţe absolute cumulate.
Seriile derivate, care se pot obţine dintr-o serie primară construită
cu un indicator de nivel, sunt:
-seria cu diferenţe absolute a unui indicator;
-seria cu indicii unui indicator;

43
-seria cu diferenţele relative ale unui indicator;
-seria cu indicatori relativi de intensitate;
-seria cu greutăţi specifice.
Vom prezenta mai jos modul de obţinere a acestor indicatori cât şi
simbolizarea seriilor obţinute cu interpretările corespunzătoare semnificaţiei
fiecăruia. Pentru simplitate vom considera doar exemplul când stările sunt
numere sau calităţi, cele sub formă de intervale tratându-se analog.
Fie o serie de repartiţie (de frecvenţă) construită în raport cu
variabila X:
x x 2 ... x R 
X :  1  .
 N 1 N 2 ... N R 

Indicatorul de la baza seriei este frecvenţa absolută şi de exemplu


N i este numărul de unităţi pentru care X = xi . Avem relaţia:
R

∑N
i =1
i = N unde N este volumul populaţiei.

Ni N
Frecvenţa relativă f i = sau f i = i ⋅ 100 ne arată cât la sută din
N N
populaţie se încadrează în ramura xi . Seria cu frecvenţe relative se scrie
astfel:
 x x 2 ... x R 
X :  1  .
 1
f f 2 ... f R
i
Frecvenţa absolută cumulată N ( xi ) = ∑ N k ne arată numărul de
k =1

unităţi pentru care X = x1 sau X = x 2 . . . sau X = xi .


Se obţine seria:
 x x2 ... xR 
X :  1 
 N ( x1 ) N ( x 2 ) ... N ( x R )

şi avem N ( x1 ) = N 1 , N ( x 2 ) = N 1 + N 2 ,…,
N ( x R ) = N 1 + N 2 + ... + N R = N .

44
i

∑N k
Frecvenţa relativă cumulată FN ( X i ) = k =1
⋅ 100 arată cât la sută
N
din populaţie are X = x1 sau X = x 2 . . . sau X = xi . Avem seria:

 x x2 ... xR 
X :  1 
 FN ( x1 ) FN ( x 2 ) ... FN ( x R )
N1
cu FN (x1 ) = = f1 ,
N
N1 + N 2 N 1 + N 2 + ... + N R N
FN ( x 2 ) = = f 1 + f 2 ,…, F N (x R ) = = = 1.
N N N
Fie acum o serie de variaţie care are la bază indicatorul de nivel y:

x x2 ... xi ... x R 
X :  1 .
 y1 y2 ... y i ... y R 

Diferenţa absolută a indicatorului ∆ky/ j = y k − y j ne arată cu cât s-a

modificat nivelul indicatorului y în clasa k faţă de clasa j. Poate fi diferenţă


absolută cu bază fixă şi diferenţa absolută cu bază în lanţ.
Seria diferenţelor absolute cu bază fixă (de exemplu, baza fixă este 1):
 x1 x 2 ... xi ... x R 
X :  1 / 1 
R /1 

 y ∆ 2 /1
y ... ∆i /1
y ... ∆ y 

cu ∆1y/ 1 = y1 − y1 = 0 , ∆2y/ 1 = y 2 − y1 ,…, ∆Ry / 1 = y R − y1 .


Seria diferenţelor absolute cu bază în lanţ:

 x1 x2 ... x ... x 
X :  
i R
i / i −1 R / R −1 
− ∆ ... ∆ ... ∆
2 /1
y y y 

cu ∆i y/ i −1 = y i − y i −1 .

45
yk
ne arată de câte ori s-a modificat
Indicele unui indicator I yk / j =
yj
nivelul indicatorului y în clasa k faţă de j. Se obţin deci cele două serii cu
bază fixă respectiv în lanţ:

 x1 x 2 ... xi ... x R 
X :  1 / 1 
Iy I y2 / 1 ... I yi / 1 ... I yR / 1 

y2
cu I 1y / 1 = 1 , I y2 / 1 = , etc., şi
y1
 x1 x 2 ... xi ... xR 
X :  i / i −1

R / R −1 
 − Iy
2 /1
... I y ... I y 

yi
cu I yi / i −1 = .
y i −1

( ) ∆ yij
k

Diferenţa relativă a indicatorului R = I − 1 ⋅ 100 = ⋅ 100 ne


kij kij
y y
yj

arată cu cât la sută din y j se modifică nivelul k a lui y faţă de nivelul j a lui

y. Avem:
 x1 x 2 ... x R 
X :  
0 R y2 / 1 ... R yR / 1 

( )
cu R y2 / 1 = I y2 / 1 − 1 ⋅ 100 şi
 x1 x 2 ... xR 
X :  
R / R −1  .
−
2 /1
Ry ... R y 

Se consideră o populaţie studiată în raport cu o variabilă x şi doi


indicatori de nivel y şi z de natură diferită. Avem seriile primare:

x x2 ... xi ... x R 
X :  1 
 y1 y2 ... y i ... y R 

46
x x2 ... xi ... x R 
X :  1 .
 z1 z2 ... z i ... z R 

yi
Indicatorul relativ de intensitate d i = măsoară gradul de
xi
răspândire a fenomenului cuantificat de indicatorul de la numărător în raport
cu cel de la numitor pentru fiecare clasă în parte. Obţinem:

x x2 ... xi ... x R 
X :  1 .
 d1 d2 ... d i ... d R 

yi
Greutatea specifică g i = R
⋅ 100 arată cât la sută din întreg
∑y
i =1
i

(∑ y ) este repartizat în clasa x .


i i

Seriile cronologice au la bază o variabilă de timp şi reflectă evoluţia


în timp a unei populaţii statistice studiate în raport cu o variabilă. Într-o
primă fază se elaborează serii cronologice primare în care se utilizează
indicatori de nivel, deci vom avea serii de tipul:

0 1 ... t ... T 
 
 y0 y1 ... y t ... yT 

unde t este moment sau perioadă de timp.


Elaborarea seriilor cronologice cu indicatori derivaţi este de fapt un
caz particular al elaborării seriilor derivate tratată mai sus şi anume cazul
când variabila X este timp.

2.2.B. Exemple

• Fie seria de repartiţie ce redă structura ţărilor participante la “Cupa


lumii” în 1982 în funcţie de numărul jucătorilor din fiecare ţară[6]:

x x2 x3 x4 x5 
X :  1 .
8 6 4 0 6 
x1 = sub 100.000

47
x2 = 100.01 − 300.000
x3 = 300.001 − 500.000
x4 = 500.001 − 700.000
x5 = peste 700.000 .
Construim o serie cu indicatorul:

-frecvenţă relativă:

 x1 x2 x3 x4 x5 
X :  
 33,33% 24,99% 16,66% 0% 25,02% 

25,02% din ţările participante la “Cupa lumii” în anul 1982 au peste


700.000 de jucători legitimaţi;
-frecvenţa absolută cumulată:

 x x 2 x3 x 4 x5 
X :  1 
 8 14 18 18 24 

18 ţări au avut până la 500.000 jucători legitimaţi;


-frecvenţa relativă cumulată:

 x1 x2 x3 x4 x5 
X :  
 33,33% 58,32% 74,98% 74,98% 100% 

74,98% din ţările participante la “Cupa lumii” în anul 1982 au avut un


număr mai mic sau egal cu 500.000 de jucători legitimaţi.

• Fie seria de variaţie ce redă producţia marfă industrială în anul


1989 în u.m. în judeţele: Alba, Arad, Argeş şi Bacău ([6]).

 AB AR AG BC 
X :  
 21414,3 23327,1 58398,8 50910,4 

Y = Y1 + Y2 + Y3 + Y4
Y = 21414,3 + 23327,1 + 58398,8 + 50910,4 = 154050,6 u.m. (totalul
producţiei marfă industrială din anul 1989, în cele patru judeţe).

48
Serii statistice derivate:

-indicatorul statistic: greutate specifică

Y1 21414,3
g1 = ⋅ 100; g1 = ⋅ 100 = 13,9%
Y 154050,6

Y2 23327,1
g2 = ⋅ 100; g 2 = ⋅ 100 = 15,14%
Y 154050,6

Y3 58398,8
g3 = ⋅ 100; g 3 = ⋅ 100 = 37,91%
Y 154050,6

Y4 50910,4
g4 = ⋅ 100; g 4 = ⋅ 100 = 33,05%
Y 154050,6
Seria va fi:

 AB AR AG BC 
Y :   ,
13,9% 15,14% 37,91% 33,05% 

adică 15,14% din totalul producţiei marfă industriale din cele 4 judeţe,
reprezintă producţia marfă industrială din judeţul Arad (în 1989).

-indicatorul statistic: diferenţa absolută cu bază fixă


0 = jud. Alba (bază de comparaţie)
∆Arad
Y
/ Alba
= y 2 − y1 = 23327,1 − 21414,3 = 1912,8
∆Y
Arges / Alba
= y 3 − y1 = 58398,8 − 21414,3 = 36984,5
∆Bacau
Y
/ Alba
= y 4 − y1 = 50910,4 − 21414,3 = 29496,1
Seria va fi:

 Alba Arad Arges Bacau 


∆KY / 0 :  .
 − 1912,8 36984,5 29496,1

Cu 1912,8 u.m. lei a fost mai mare producţia marfă industrială în


judeţul Arad faţă de judeţul Alba, în 1989.

49
- indicatorul statistic: indice cu bază fixă
0 = jud. Argeş
y 21414,3
I YAlba / Arges = 1 = = 0,37
y 3 58398,8
y 23327,1
I YArad / Arges = 2 = = 0,4
y 3 58398,8
y 50910,4
I YBacau / Arges = 4 = = 0,87
y 3 58398,8

Seria va fi:
 Alba Arad Arges Bacau 
I YK / 0 :  .
 0,37 0,4 − 0,87 

Producţia marfă industrială din judeţul Bacău est mai mică decât
producţia marfă industrială din judeţul Argeş de 0,87 ori (1989).

-indicatorul statistic: diferenţa relativă


0=jud. Argeş
RYAlba / Arges = I YAlba / Arges − 1 = 0,37 − 1 = −0,63
RYArad / Arges = I YArad / Arges − 1 = 0,4 − 1 = −0,6
RYBacau / Arges = I YBacau / Arges − 1 = 0,87 − 1 = −0,13
Seria va fi:

 Alba Arad Arges Bacau 


RYK / 0 :  .
 − 63% − 60% − − 13% 

În judeţul Arad, nivelul producţiei marfă industrială este mai mic


decât nivelul producţiei marfă industrială din judeţul Argeş cu 60% (în
1989).

• Fie seria cronologică de intervale care redă producţia de


autoturisme din România (în mii bucăţi) ([6]).

1987 1988 1989 1990 1991


X :  
 129 141 144 100 84 

50
y1 = 129 , y 2 = 141 , y 3 = 144 , y 4 = 100 , y 5 = 84
y = y1 + y 2 + y 3 + y 4 + y 5 = 598 .

Serii cu indicatori derivaţi:

-indicatorul statistic: greutate specifică

y1 129
g1 = ⋅ 100 = ⋅ 100 = 21,57%
y 598

y2 141
g2 = ⋅ 100 = ⋅ 100 = 23,58%
y 598

y3 144
g3 = ⋅ 100 = ⋅ 100 = 24,08%
y 598

y4 100
g4 = ⋅ 100 = ⋅ 100 = 16,72%
y 598

y5 84
g5 = ⋅ 100 = ⋅ 100 = 14,05% .
y 598

Seria va fi:

 1987 1988 1989 1990 1991 


G :   ,
 21,57% 23,58% 24,08% 16,72% 14,05% 

adică 23,58% reprezintă ponderea producţiei de autoturisme din totalul


producţiei din cei 5 ani, în 1988.

-indicatorul statistic: diferenţa absolută cu bază fixă


0 = anul 1987

∆1988
y
/ 1987
= y 2 − y1 = 141 − 129 = 12
∆1989
y
/ 1987
= y 3 − y1 = 144 − 129 = 15
∆1990
y
/ 1987
= y 4 − y1 = 100 − 129 = −29

51
∆1991
y
/ 1987
= y 5 − y1 = 84 − 129 = −45 .

Seria va fi:

1987 1988 1989 1990 1991


∆Ky / 0 :  .
 − 12 15 − 29 − 45 

În 1990, producţia de autoturisme a scăzut faţă de cea din 1987 cu 29


mii bucăţi.

-indicatorul statistic: indice cu bază fixă


0 = anul 1987
y 141
I 1988
y
/ 1987
= 2 ⋅ 100 = ⋅ 100 = 109,3%
y1 129
y 144
I 1989
y
/ 1987
= 3 ⋅ 100 = ⋅ 100 = 111,63%
y1 129
y 100
I 1990
y
/ 1987
= 4 ⋅ 100 = ⋅ 100 = 77,52%
y1 129
y 84
I 1991
y
/ 1987
= 5 ⋅ 100 = ⋅ 100 = 65,12% .
y1 129
Seria va fi:

1987 1988 1989 1990 1991 


I YK / 0 :  .
 − 109,3% 111,63% 77,52% 65,12% 

Nivelul producţiei de autoturisme din anul 1988 faţă de cel din anul 1987 a
crescut de 1,093 ori sau în proporţie de 109,3%.

-indicatorul statistic: diferenţa relativă


0 = anul 1987
RY1988 / 1987 = I Y1988 / 1987 − 100 = 109,3 − 100 = 9,3%
RY1989 / 1987 = I Y1989 / 1987 − 100 = 111,63 − 100 = 11,63%
RY1990 / 1987 = I Y1990 / 1987 − 100 = 77,52 − 100 = −22,48%
RY1991 / 1987 = I Y1991 / 1987 − 100 = 65,12 − 100 = −34,88% .

52
Seria va fi:

1987 1988 1989 1990 1991 


RYK / 0 :  .
 − 9,3% 11,63% − 22,48% − 34,88% 

Nivelul producţiei de autoturisme din anul 1989, faţă de cel din 1987
a scăzut cu 22,48%.

Serii cu bază în lanţ:

1987 1988 1989 1990 1991


∆Ky / K −1 :   .
 − 12 3 − 44 − 16 

Nivelul producţiei din anul 1989 faţă de cel din 1988 a crescut cu 3 mii
bucăţi.

1987 1988 1989 1990 1991


I yK / K −1 :  .
 − 109,3% 102,13% 69,44% 84% 

Nivelul producţiei din anul 1991 a scăzut faţă de cel din 1990 de 0,84 ori
sau de 84%.

1987 1988 1989 1990 1991 


R yK / K −1 :  .
 − 9,3% 2,13% − 30,56% − 16% 

Nivelul producţiei din anul 1990 faţă de cel din 1989 a scăzut cu 30,56%.

3. Prezentarea seriilor statistice

3.1.A. Tabel statistic şi reprezentare grafică

Seriile statistice rezultate în urma sistematizării rezultatelor


observării statistice a unor populaţii pot fi prezentate şi sub formă de tabele
respectiv de grafice însoţite de comentarii.
Prezentarea grafică a unei serii oferă o imagine geometrică (în plan
sau în spaţiu) cu privire la forma statică sau evoluţia dinamică a

53
fenomenului cuantificat de variabila sau variabilele de la baza seriei
respective.
În continuare se vor prezenta tehnicile de construire a principalele
grafice utilizate în reprezentarea seriilor statistice ce descriu fenomenele
social-economice.

Histograma

Graficul numit histogramă se utilizează în reprezentarea seriilor ce


au la bază o variabilă continuă (de intervale). Aceasta se construieşte într-un
sistem de axe ortogonale astfel: pe abscisă se trec intervalele de variaţie, iar
pe ordonată se trasează scara frecvenţelor. Scara frecvenţelor se construieşte
respectând principiul proporţionalităţii între frecvenţe şi segmentele
delimitate pe scara ordonatelor. Pentru fiecare interval de variaţie a seriei
(xi −1 − xi ) se construieşte un dreptunghi a cărui bază este chiar lungimea
intervalului, iar cealaltă latură se determină din condiţia proporţionalităţii
ariei dreptunghiului cu mărimea frecvenţei în clasa respectivă.
Latura dreptunghiului, notată cu Li , se determină din următoarea
relaţie:
N
Li = g ⋅ i , i = 1, R
li
unde li = xi − xi −1 , adică diferenţa dintre marginea superioară şi cea
inferioară a intervalului de variaţie, N i este frecvenţa absolută a clasei i iar g
este un coeficient de proporţionalitate care se alege în raport cu scara de
reprezentare.
Mulţimea tuturor dreptunghiurilor formează histograma ataşată
seriei.
Un alt grafic care se pretează la reprezentarea unei serii de intervale
îl constituie linia poligonală. Trasarea acesteia presupune realizată
histograma. Linia poligonală se obţine unind prin segmente de dreaptă
mijloacele bazelor superioare ale dreptunghiurilor, din care este alcătuită
histograma.

Grafice de structură

Reprezentarea grafică a structurii unei populaţii statistice este


posibilă cu ajutorul diagramelor de structură. Acestea se pot realiza prin
pătrat, cerc sau dreptunghi. Aceste tipuri de grafice permit reprezentarea
grafică a seriilor unidimensionale, de repartiţie.

54
► Dreptunghiul de structură

Realizarea unei astfel de diagrame constă în construirea unui


dreptunghi a cărui suprafaţă să fie direct proporţională cu volumul
populaţiei cercetate, dreptunghi care se va împărţii în atâtea dreptunghiuri
mai mici în câte părţi a fost împărţită populaţia de studiat. Suprafaţa unui
dreptunghi (ca parte componentă din dreptunghiul iniţial) trebuie să fie
direct proporţională cu partea din populaţie pe care o reprezintă.
După calcularea frecvenţelor relative, înălţimile celor R
dreptunghiuri (R clase) se pot calcula conform următoarelor egalităţi:

H1 H H H
= ... = i = ... = R = ,
f1 fi f R 100

unde H reprezintă înălţimea dreptunghiului construit iniţial.

► Pătratul de structură

Realizarea acestei diagrame presupune, în primul rând, construirea


unui pătrat, care reprezintă populaţia în cauză. Pătratul se împarte în 100 de
pătrăţele (prin împărţirea fiecărei laturi în 10 părţi egale) corespunzătoare
celor 100 de procente.
Pentru a reprezenta o serie de date se calculează frecvenţele relative
şi pentru fiecare clasă se alocă atâtea pătrăţele câte procente cuprinde
frecvenţa relativă a clasei respective.

► Cercul de structură

Respectând acelaşi principiu se construieşte un cerc de rază oarecare


a cărei suprafaţă se consideră că reprezintă volumul întregii populaţii în
cauză (exprimat în frecvenţe absolute sau relative).
Fiecare clasă în care este divizată populaţia va fi reprezentată printr-
un sector de cerc de arie direct proporţională cu volumul clasei.
Reprezentarea sectorului de cerc se va face determinând măsura în grade a
unghiurilor la centru a fiecărui sector. Cele 360° ale cercului corespund
volumului întregii populaţii. Unghiurile sectoarelor de cerc care reprezintă
clase din populaţie trebuie să fie proporţionale cu volumul acestora
(exprimat în frecvenţe absolute sau relative). Unui procent îi corespunde
3,6°, deci unghiul la centru pentru un sector va fi produsul dintre 3,6° şi
procentul corespunzător clasei respective.

55
Diagrama prin benzi

Se utilizează, în special, în cazul reprezentării seriilor atributive care


au la bază o variabilă calitativă şi un indicator de nivel.
Benzile sunt nişte dreptunghiuri a căror lăţime este foarte mică în
raport cu lungimea. Lăţimea benzilor nu diferă de la o clasă la alta dar
lungimile trebuie determinate astfel încât sa fie proporţionale cu indicatorii
ce se reprezintă.
Diagrama se construieşte într-un sistem de axe rectangulare. Pe
ordonată se construieşte câte o bandă pentru fiecare variantă a seriei, scara
de reprezentare care dă lungimea benzilor fiind pe abscisă. O diagramă prin
benzi ataşată unei serii care împarte populaţia de studiat în R clase se
reprezintă astfel:

Cl.R Marimea indicatorului in clasa R

Cl.2 Marimea indicatorului in clasa 2

Cl.1 Marimea indicatorului in clasa 1

Diagrama prin coloane


Diagrama prin coloane se utilizează pentru aceleaşi scopuri ca şi
diagrama prin benzi. În special sunt utile la reprezentarea grafică a seriilor
cronologice cât şi a seriilor de spaţiu.
Coloanele sunt nişte dreptunghiuri care au bazele de aceiaşi
dimensiune, iar înălţimea lor este direct proporţională cu mărimea
indicatorului pe care-l reprezintă.
Se construiesc coloanele aşezate cu latura mică pe axa absciselor, iar
pe ordonată se consideră scara de reprezentare pentru indicatorii de
reprezentat corespunzător claselor din seria considerată. Distanţa dintre
coloane trebuie să fie jumătate din lăţimea coloanelor.

56
Forma unei diagrame prin coloane ataşate unei serii care împarte
populaţia în R clase arată astfel:

Marimea indicatorului in cl. R


Marimea indicatorului in cl. 1

Marimea indicatorului in cl. 2


......

Cl.1 Cl.2 Cl. R

Diagrame de suprafeţe (prin areale)

Diagramele prin suprafeţe sunt construite cu pătrate sau cercuri.


Suprafaţa acestor figuri geometrice se calculează astfel încât mărimea
acestora trebuie să fie proporţională cu indicatorul ce se reprezintă.
Aceste diagrame sunt utilizate în special pentru reprezentarea grafică
a seriilor de timp cât şi a celor de spaţiu.

Diagrama areală prin pătrate, aşa cum arată şi titulatura, foloseşte


în reprezentarea grafică a unei serii, pătratele.

Pentru o serie de forma:

x 
X :  i 
 N i  i =1, R

57
reprezentarea grafică prin diagrama de pătrate presupune construirea a R
pătrate bazându-se pe principiul proporţionalităţii între aria pătratului “i” şi
nivelul indicatorului corespunzător clasei respective.

Principiul proporţionalităţii este dat de următoarea relaţie:

N1 N 2 N N
2
= 2 = ... = 2i = ... = 2R = K
l1 l2 li lR

unde li , i = 1, R , reprezintă latura pătratului prin care se va reprezenta


indicatorul corespunzător clasei “i”, iar K este un coeficient de
proporţionalitate care se ia în funcţie de scara de reprezentare. Atunci, latura
fiecărui pătrat este dată de:
Ni
li = , i = 1, R
K

În cazul unei serii de variaţie, în relaţia (1) N i se înlocuieşte cu Yi


(nivelul indicatorului în clasa “i”), i = 1, R , iar dimensiunea laturilor va fi în
funcţie de nivelul Yi .
Un grafic asociat unei serii, folosind diagrama areală prin pătrate
arată astfel:

Marimea
indicatorului in Cl.R
clasa R

Marimea
indicatorului Cl.2
in clasa 2

Marime
indicator in
cl. 1 Cl.1

58
Fiecărei clase (sau stări) i se construieşte un pătrat a cărei arie este
direct proporţională cu nivelul indicatorului din clasa (sau starea) respectivă.
Diagrama areală prin cercuri este utilizată pentru aceleaşi tipuri de
serii ca şi diagrama areală prin pătrate.
Pentru a reprezenta grafic o serie de forma:

x 
X :  i 
 N i  i =1, R
folosind o diagramă areală prin cercuri, se vor construi R cercuri cu aria
proporţională cu volumul claselor respective (sau a nivelului indicatorului în
fiecare clasă).
În cazul reprezentării unei serii de repartiţie, proporţionalitatea
presupune următoarele egalităţi:
N1 N2 Ni NR
= = ... = = ... = =K
π ⋅ R1 π ⋅ R2
2 2
π ⋅ Ri 2
π ⋅ RR2
unde i = 1, R reprezintă raza cercului corespunzător clasei “i”, iar K are
aceeaşi semnificaţie ca şi la diagrama prin pătrate.
Ni
Din relaţia de mai sus rezultă raza cercului: Ri = , i = 1, R . Dacă
π ⋅K
seria este de variaţie, indicatorul de frecvenţă N i se înlocuieşte cu
indicatorul de nivel Y.
O diagramă areală prin cercuri arată astfel:

MARIME INDICATOR IN CL.R

MARIME INDICATOR IN CL. .2

MARIME
INDICATOR
ÎN CL. 1

59
Diagramele areale se folosesc în special pentru reprezentarea grafică
a seriilor care au la bază o variabilă calitativă.
Cronograma (historiograma)

O categorie de serii des utilizată în economie o constituie seriile


cronologice, a căror reprezentare grafică se realizează prin cronograme.
Seria cronologică de forma:

 tk 
 
 Yk  k =1, R

unde t k , k = 1, R , reprezintă momentele (sau perioadele) de timp iar


Yk , k = 1, R , valorile indicatorului. Timpul se reprezintă pe axa absciselor,
iar valorile indicatorului se reprezintă pe axa ordonatelor. Fiecărei perechi
de valori (t k , Yk ), k = 1, R îi corespunde un punct în planul axelor
rectangulare. Unind prin segmente de dreaptă punctele consecutive, astfel
determinate, se obţine cronograma.
Când se reprezintă o serie cronologică de momente, indicatorii seriei
nu se pot însuma şi momentul t k se trece în dreptul gradaţiei respective. În
cazul reprezentării unei serii cronologice de intervale, unde indicatorii se pot
însuma, perioadele se trec în dreptul segmentelor ce reprezintă perioada
respectivă.
În acelaşi sistem de axe pot fi reprezentate una sau mai multe serii
cronologice folosind aceeaşi unitate de măsură sau unităţi de măsură
diferite. În cazul în care indicatorii cu care sunt construite seriile sunt
exprimaţi în aceeaşi unitate de măsură, atunci pe axa ordonatelor se
construieşte o singură scară. Dacă indicatorii seriilor sunt exprimaţi în
unităţi de măsură diferite, atunci se construiesc scări de reprezentare
corespunzătoare pe axa ordonatelor.
Cronogramele asociate unor serii cronologice ne permit analiza
fenomenelor cuantificate de asemenea serii şi observarea perioadelor critice
în evoluţia acestora.
t 
Cronograma seriei cronologice de forma  k  arată astfel:
 Yk  k =1, R

60
YR 

. 


. 

.
 
Y2

Y1 

t1 t2 ... tk-1 tk tk+1 tR-1 tR

Norul statistic

Se utilizează în reprezentarea grafică a seriilor atributive de


repartiţie bidimensionale.
Se consideră o serie bidimensională de repartiţie în raport cu
variabilele discrete X şi Y. În sistemul de axe rectangulare xOy se reprezintă
toate punctele de coordonate (x , y ); i = 1, R ; j = 1, R
j i 1 2 pentru care
frecvenţele N ij ≠ 0 . Aceste frecvenţe se pot reprezenta pe grafic în două
moduri:
-dacă frecvenţele sunt mici, atunci pentru fiecare punct de pe grafic
(x j , yi ); i = 1, R1 ; j = 1, R2 pentru care N ij ≠ 0 , se reprezintă atâtea puncte
câte unităţi sunt în frecvenţa corespunzătoare.
-dacă însă frecvenţele sunt mari, pentru reprezentarea lor se pot utiliza
diagrame areale prin cercuri ale căror arii trebuie să fie proporţionale cu
rădăcina pătrată a frecvenţelor pe care le reprezintă.
În cazul în care cele două variabile X şi Y sunt continue, întrucât la
intersecţia a două intervale se formează o căsuţă, frecvenţele diferite de zero
se reprezintă în interiorul acestei căsuţei, fie prin puncte, fie prin diagrame
areale .

61
Porţiunea în care sunt cuprinse punctele norului statistic se numeşte
corelogramă şi se utilizează în stabilirea legăturii dintre variabile.

3.1.B. Exemple

• ([6]) Tabelul simplu cu o singură intrare, este folosit pentru


prezentarea unei serii unidimensionale. În acest sens, tabelul următor redă
evoluţia vânzărilor pentru primul trimestru al anului 1995 pentru societatea
X.
Evoluţia vânzărilor în 1995 / trim. I la societatea X

Luna Valoarea vânzărilor


ianuarie 15
februarie 14
martie 16

• ([6]) Tabelul cu două intrări este folosit pentru a reda situaţia unui
fenomen sau proces economico-social în raport cu două variabile. Acest tip
de tabel serveşte prezentării seriilor bidimensionale. Tabelul următor redă
distribuţia agenţilor economici dintr-o localitate dată, în raport cu volumul
desfacerilor şi cheltuielile cu reclama înregistrate pentru trimestrul I al
anului 1995.
Repartizarea agenţilor economici din localitatea X după volumul
desfacerilor ( u.m.) şi cheltuielile cu reclama (u.m.):

Cheltuieli cu
reclama

Volumul
desfacerilor 0-200 200-400 400-600 600-800 TOTAL
45-60 2 10 50 62
30-45 8 40 5 53
15-30 5 60 4 69
0-15 70 5 75
TOTAL 75 75 54 55 259

• ([6]) Să presupunem că societăţile comerciale de desfacere cu


amănuntul dintr-o localitate dată, după adaosul comercial practicat în ultima
lună, se distribuie conform următoarei serii:
62
 0 − 30% 30 − 60% 60 − 90% 90 − 120% 120 − 150% 
X :   .
 15 45 80 50 20 

Pentru construirea histogramei, latura dreptunghiurilor care vine în


contact cu axa absciselor este egală cu lungimea intervalului, iar în cazul
nostru este 30%. Coeficientul de proporţionalitate se alege g = 30 . Avem:

N1 15
L1 = ⋅g = ⋅ 30 = 15 ,
x1 − x0 30

N2 45
L2 = ⋅g = ⋅ 30 = 45 ,
x 2 − x1 30

N3 80
L3 = ⋅g = ⋅ 30 = 80 ,
x3 − x 2 30

N4 50
L4 = ⋅g = ⋅ 30 = 50 ,
x 4 − x3 30

N5 20
L5 = ⋅g = ⋅ 30 = 20 .
x5 − x 4 30

Repartizarea societăţilor comerciale de desfacere cu amănuntul, din


localitatea A după adaosul comercial practicat:

63
Conform graficului, rezultă că în ultima lună luată în considerare,
cele mai multe societăţi comerciale de desfacere cu amănuntul din
localitatea dată, au practicat un adaos comercial cuprins în intervalul
[60% − 90% ) .
• Reconsiderăm exemplul anterior, construind seria cu frecvenţe
relative:

 0 − 30% 30 − 60% 60 − 90% 90 − 120% 120 − 150% 


X :  
 7% 21% 38% 24% 10% 

Se construieşte un dreptunghi cu H = 5cm H = 5 cm. Înălţimile


dreptunghiurilor componente se calculează conform relaţiilor:

H 5
H1 = ⋅ f1 = ⋅ 7 = 0,35 ,
100 100

H 5
H2 = ⋅ f2 = ⋅ 21 = 1,05 ,
100 100

64
H 5
H3 = ⋅ f3 = ⋅ 38 = 1,9 ,
100 100

H 5
H4 = ⋅ f4 = ⋅ 24 = 0,35 ,
100 100

H 5
H5 = ⋅ f5 = ⋅ 10 = 0,5 .
100 100

Structura societăţilor comerciale după adaosul comercial practicat

10% Legenda

S.C. care au practicat un adaos cuprins în intervalul 0-30%


24%
S.C. care au practicat un adaos cuprins în intervalul 30-60%

S.C. care au practicat un adaos cuprins în intervalul 60-90%

S.C. care au practicat un adaos cuprins în intervalul 90-120%


38%
S.C. care au practicat un adaos cuprins în intervalul 120-150%

21%

7%

• ([6]) Se va reprezenta printr-un pătrat de structură repartizarea a 210 de


societăţi comerciale dintr-o localitate în raport cu forma de proprietate,
 S P M
Y :  
105 84 21 

65
Seria construită cu frecvenţele relative este:
 S P M 
Y :   .
 50% 40% 10% 
Structura societăţilor comerciale din localitatea dată în raport cu
forma de proprietate:

Legenda
S .C. cu capital in tegral de stat

50% S .C. cu capital privat

S .C. cu capital mixt

40%
10%

• Se va reprezenta cercul de structură cu privire la distribuţia


societăţilor comerciale după forma de proprietate. Unghiurile la centru
corespunzătoare celor trei sectoare se calculează astfel:
-pentru S.C. cu capital de stat, 3,6 ⋅ 50 = 180 o
-pentru S.C. cu capital privat, 3,6 ⋅ 40 = 144 o
-pentru S.C. cu capital mixt, 3,6 ⋅ 10 = 36 o .
Structura societăţilor comerciale din localitatea dată, în raport cu forma de
proprietate: 50%

10%

40%

S.C. cu capital integral de stat


S.C. cu capital privat
S.C. cu capital mixt

66
• ([6]) Se reconsideră exemplul seriei bidimensionale care reflectă
repartiţia agenţilor economici dintr-o zonă dată, după volumul desfacerilor
Y (în u.m.) şi cheltuielile cu reclama X (în u.m.).

X
Y 0-200 200-400 400-600 600-800 Total
45-60 2 10 50 62
30-45 8 40 5 53
15-30 5 60 4 69
0-15 70 5 75
Total 75 75 54 55 259

Norul statistic se construieşte conform celor afirmate în 3.1.A şi arată astfel:

Porţiunea cuprinsă între cele două curbe, în interiorul căreia se află


punctele norului statistic, formează corelograma asociată seriei.

67
4. Test de autoevaluare II

4.1.Enunţ

1.Daţi câte un exemplu de serie: cronologică, de spaţiu, atributivă, de


momente, de intervale, calitativă, cantitativă, discretă, continuă.
2.Rezultatele observării statistice a 15 angajaţi ai unei societăţi comerciale
în raport cu vârsta angajatului, numărul de copii, salariul mediu pe ultimul
an, numărul primelor obţinute pe ultimul an, sexul, tipul de studii, au fost
următoarele:

Nr.crt X1= X2= X 3 =salariul X4= X5 X6


Varsta Nr.copii mediu lunar/an nr.prime/an =sex =studii
1 48 2 4,5(u.m.) 4 M Superioare
2 45 3 2,7 4 M Postliceală
3 30 2 3 3 F Superioare
4 25 0 1,8 0 M Superioare
5 33 1 3,7 5 M Postuniversitare
6 50 4 3,5 2 F Liceu
7 38 2 2,3 1 F Superioare
8 44 2 5,2 6 F Postuniversitare
9 34 1 1,5 2 M Liceu
10 27 1 1,5 0 F Postliceală
11 41 3 4 3 M Superioare
12 28 0 1,6 2 F Liceu
13 37 1 2,7 3 F Superioare
14 29 0 2,5 1 M Superioare
15 48 2 3,3 0 M Liceu

- Redaţi seriile statistice rezultate în urma sistematizării datelor în raport


cu fiecare variabilă in parte. Elaboraţi tabelul de corelaţie (seria statistică
bidimensională) pentru cuplul de variabile (X 1 ,X 2 ) şi (X 3 ,X 6 ).
3.Reprezentaţi grafic următoarele serii statistice folosind adecvat unul
din următoarele grafice: histograma, diagrame de structură, diagrame
areale, cronograma, diagrame prin benzi sau coloane, norul statistic:

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 
X 1 :  
 200 230 245 210 194 250 300 320 370 300 350 

68
X 1 – profitul unei firme(u.m. lei)

 Alba Iulia Blaj Aiud Teiuş Sebeş Abrud Câmpeni Ocna Mureş Zlatna 
X 2 :  
 40 10 16 5 28 4 6 2 3 

X 2 – domiciliul sediului societăţilor comerciale cu capital privat din


judeţul Alba , înfiinţate în anul 2000.

 [1 − 5] [5 − 8] [8 − 10]
X 3 :  
 8 20 2 

X 3 – nota obţinută la un examen de către studenţii unei grupe

 foartebine bine satisfacator slab 


X 4 :  
 20 38 15 10 

X 4 – calificativul obţinut la un concurs de către 83 de concurenţi

 (0 − 30] (30 − 60] (60 − 90]


X 5 :  
 13 25 21 

X 5 – volumul vânzărilor cu un anumit produs de confecţie într-o lună, la


câteva puncte de desfacere.

X6
X7 [0-20) [20-40) [40-60) [60-80) [80-100] Total
[400-600] 10 38 20 27 95
[200-400) 5 100 30 15 2 152
[0-200) 40 10 2 1 53
Total 45 120 70 35 30 300

X 7 – profitul unei firme pe 1998( u.m.)


X 6 – cheltuielile cu publicitatea în 1998( u.m.)

4.Extrageţi din tabelul bidimensional anterior (X 6 ,X 7 ), seriile derivate


marginale şi condiţionate. Precizaţi care este seria care redă repartizarea
firmelor care cheltuiesc cu reclama între [40-60) în funcţie de profit.

69
4.2.Rezolvare

Problema 1

Exemple:
Serie cronologică(de timp)de momente:

1970 1971 1972 1973 


X:  
 5 6 6 7 

-redă numărul liceelor dintr-o localitate, existente la începutul anului şcolar


Serie cronologică(de timp)de intervale:

 [1970 − 1980) [1980 − 1990) [1990 − 2000) 


X:  
 67,8ani 69ani 62,5ani 

-redă durata medie de viaţă dintr-o anumită ţară


Serie de spaţiu:

 Alba − Iulia Cugir Zlatna Teius Aiud 


X:  
15 3 3 2 7 

-redă domiciliul studenţilor dintr-o grupa cu un efectiv de 30 studenţi, de la


Universitatea „1Decembrie 1918”,Alba-Iulia
Serie atributivă:

 (0 − 2] (2 − 4] (4 − 6] 
X:  
10 28 60 

-redă venitul în u.m. lei lunar, pentru un eşantion de persoane care vor să
facă un împrumut la bancă
Serie calitativă:

 ZI IDD FR 
X:  
8 5 2 

-redă repartiţia în funcţie de forma de învăţământ preferată a unui grup de


15 candidaţi înscrişi într-o zi la o anumită specializare
70
Serie cantitativă discretă:

 0 1 2 3 4
X:  
10 35 30 20 5 

-redă repartiţia angajaţilor unei firme în raport cu numărul proiectelor în


care au fost implicaţi în decursul ultimei luni
Serie cantitativă continuă:

 [0 − 10) [10 − 20) [20 − 30) [30 − 40) [40 − 50) 


X:  
 15 35 30 50 20 
-redă repartiţia celor 150 de firme dintr-un judeţ în funcţie de profit

Problema2
Pentru seriile calitative sau cele cantitative discrete se va proceda astfel :pe
prima linie a seriei se scriu toate valorile existente în tabel pe coloana
variabilei corespunzătoare iar pe a doua linie vom trece frecvenţele cu care
apar aceste valori obţinute prin numărare
0 1 2 3 4  0 1 2 3 4 5 6 F M 
X 2 :   X 4 :   X 5 :  
 3 4 5 2 1 3 2 3 3 2 1 1  7 8 

 liceale postliceale sup erioare postuniversitare 


X 6 :   .
 4 2 7 2 

Pentru seriile cantitative continue sau cele considerate ca atare (cantitative


discrete cu multe valori ) în prealabil trebuie să împărţim valorile în
intervale de valori calculând eventual lungimea unui astfel de interval cu
formula:
X max − x min
lx = , 1+3,322lg15 ≈ 5
1 + 3,322 lg N

50 − 25
lx ≈ =5
5

71
 [25 − 30 ) [30 − 35) [35 − 40) [40 − 45) [45 − 50)
 
X 1:  //// /// // // //// 
 
 4 3 2 2 4 

5,2 − 1,5
l x3 = = 0,74
5

 [1,5 − 2,24 ) [2,24 − 2,98) [2,98 − 3,72) [3,72 − 4,46) [4,46 − 5,2)
 
X 3:  //// //// //// / // .
 
 4 4 4 1 2 

Pentru numărarea frecvenţelor cu care apar valorile variabilelor se


parcurge spre exemplu coloana cu valorile variabilei X 1 în ordine marcând
prin câte un beţişor faptul că o anumită valoare aparţine unui anumit
interval. La sfârşit numărând beţişoarele se precizează frecvenţa fiecărei
clase. Un astfel de sistem de numărare este foarte simplu dar şi foarte
eficient atunci când volumul eşantionului este foarte mare.
Tabel bidimensional (X 1 ,X 2 ):

X1
[25-30) [30-35) [35-40) [40-45) [45-50) Total
X2
0 ┌┐ 3 3
1 │ 1 ┌ 2 │ 1 4
2 │ 1 │ 1 │ 1 ┌ 2 5
3 │ 1 │ 1 2
4 │ 1 1
Total 4 3 2 2 4 15

Cum s-a completat tabelul? De exemplu prima persoană din eşantion


înregistrează valorile X 1 =48, X 2 =2 ceea ce înseamnă că va fi reprezentat
printr-un beţişor aşezat în căsuţa care se obţine ca intersecţie a liniei lui X 2 =
2 cu coloana lui X 1 ∈ [45,50] pentru că X 1 =48 aparţine lui [45-50].

72
Tabel bidimensional (X 3 ,X 6 ):

X3
liceale postliceale superioare postuniversitare Total
X6
[4,46-5,2) │1 │1 2
[3,72-4,46) │1 1
[2,98-3,72) ┌2 │1 │1 4
[2,24-2,98) │1 ┌┐3 4
[1,5-2,24) ┌2 │1 │1 4
Total 4 2 7 2 15

Problema 3

Profitul unei firme (în u.m.lei) pe perioada 1990-2000


(diagrama prin coloane)

40

30

20
Profit
10

0
19901991 19921993 1994 19951996 1997 19981999 2000

-lungimea coloanelor l i = N i k , (se alege de exemplu k=(10) -1)


Observaţie : Aceeaşi serie se putea reprezenta şi folosind cronograma

40

30

20 Profit

10

0
1988 1990 1992 1994 1996 1998 2000 2002

73
Societăţile comerciale cu capital privat din judeţul Alba înfiinţate în anul
2000, repartizate după domiciliul sediului (diagrama areală cu pătrate)

-latura pătratului: l i

1 . 1
li2 = Ni ⇒ li = ⋅ N i , de exemplu k=1
k k

l 1 = 40 ≈ 6,32, l 2 = 10 ≈ 3,16 ,

l 3 = 16 ≈ 4, l 4 = 5 ≈ 2,23 ,

l 5 = 28 ≈ 5,29, l 6 = 4 ≈ 2

l 7 = 6 ≈ 2,44, l 8 = 2 ≈ 1,41 ,

l 9 = 3 ≈ 1,73.

Seria se mai putea reprezenta şi prin diagrame, prin coloane sau benzi

74
Repartiţia studenţilor unei grupe în funcţie de nota obţinută la un examen
(histograma şi poligonul frecvenţelor)

Ni
-înălţimea dreptunghiurilor h i = ⋅ k unde l i este lungimea intervalului
li
8
corespunzător; vom alege spre exemplu k =12 deci h 1 = .12 =24 ,
4
20 . 2
h2= 12 =80, h 3 = .12=12
3 2
Aceeaşi serie se putea reprezenta şi prin diagrame de structură.

Structura celor 83 de concurenţi implicaţi într-un concurs în raport cu


calificativul obţinut (diagrama de structură prin pătrat)

24 %

46 %

18 %

12 %

75
Legendă:
Candidaţii care au obţinut calificativul foarte bine

Candidaţii care au obţinut calificativul bine

Candidaţii care au obţinut calificativul satisfăcător

Candidaţii care au obţinut calificativul slab

Ni 20 38
fi = ⋅ 100 , f 1 = ⋅ 100 ≈ 24% , f 2 = ⋅ 100 ≈ 46% ,
N 83 83

15 10
f3= ⋅ 100 ≈ 18% , f 4 = ⋅ 100 ≈ 12%
83 83

Repartiţia a 59 de puncte de desfacere în raport cu volumul vânzărilor unui


anumit produs (histograma)

Ni N
hi = ⋅ k = i , alegem k=30 ⇒ h i =N i
li 30

76
Repartiţia a 300 de firme în raport cu profitul şi respectiv cu cheltuielile de
publicitate, pe anul 1998 (norul statistic)

Razele cercurilor sunt proporţionale cu frecvenţele, fiecare cerc


corespunzând unei căsuţe. Centrul unui cerc s-a obţinut ca intersecţie a
dreptelor paralele duse la axe prin punctele de pe axe care semnifică
mijloacele intervalelor la a căror intersecţie în tabel se află căsuţa
corespunzătoare cercului respectiv.

Problema 4

Serii marginale:

 [0 − 20) [20 − 40) [40 − 60) [60 − 80) [80 − 100] 


X 6 :  
 45 120 70 35 30 

 [0 − 200 ) [200 − 400) [400 − 600] 


X 7 :   .
 53 152 95 

77
Serii condiţionate:

 [0 − 20 ) [20 − 40) [40 − 60) [60 − 80) [80 − 100]


X 6 / X 7 ∈[0− 200 )  
 40 10 2 0 1 

 [0 − 20 ) [20 − 40) [40 − 60) [60 − 80) [80 − 100] 


X 6 / X 7 ∈[200, 400 ) :  
 5 100 30 15 2 

 [0 − 20 ) [20 − 40) [40 − 60) [60 − 80) [80 − 100] 


X 6 / X 7 ∈[400−600 ] :  
 0 10 38 20 27 

 [0 − 200 ) [200 − 400) [400 − 600]


X 7 / X 6∈[0−20 ) :  
 40 5 0 

 [0 − 200 ) [200 − 400) [400 − 600] 


X 7 / X 6∈[20−40 ) :  
 10 100 10 

 [0 − 200 ) [200 − 400) [400 − 600]


X 7 / X 6∈[40−60 ) :  
 2 30 38 

 [0 − 200 ) [200 − 400) [400 − 600]


X7 /X :  
6 ∈[60 −80 )
 0 15 20 

 [0 − 200 ) [200 − 400) [400 − 600]


X7 /X :   .
6 ∈[80 −100 ]
 1 2 27 

Seria care redă repartizarea firmelor care cheltuiesc cu reclama


între [ 40-6 0 ) în fu ncţie d e p ro fit este seria p rezen tată mai su s şi
anume seria X 7 X 6∈[40−60 ) .

78
CAPITOLUL III

PARAMETRII REPARTIŢIILOR
EMPIRICE UNIDIMENSIONALE

Seria de frecvenţă sau repartiţia empirică unidimensională rezultată


în urma prelucrării statisticilor obţinute prin observarea statistică reprezintă
o formă organizată de prezentare a acestor statistici, formă ce permite
desprinderea unor caracteristici ale populaţiei.
Repartiţia statistică constituie deci sub o formă sintetică, o primă
imagine asupra populaţiei de studiat în raport cu variabila de la baza seriei.
Pentru a obţine, pornind de la repartiţia statistică şi alte informaţii,
aceasta este supusă în continuare unei prelucrări în cadrul căreia se
urmăreşte:

- desprinderea tendinţei centrale în cadrul populaţiei, în raport cu


variabila X (nivelul mediu al variabilei);
- aprofundarea studierii structurii populaţiei în raport cu X;
- aspecte legate de mărimea variaţiei variabilei în raport cu nivelul
mediu;
- forma după care se dispun unităţile populaţiei în jurul valorii
medii.
Caracterizarea numerică a acestor aspecte este dată de următorii
parametri:
-parametrii tendinţei centrale;
-parametrii de structură;
-parametrii variaţiei;
-parametrii concentrării;
-parametrii formei.

1. Parametrii tendinţei centrale

Parametrii tendinţei centrale evidenţiază poziţia în jurul căreia se


grupează ansamblul valorilor unei variabile de la baza unei serii. Poziţia
respectivă se numeşte poziţie centrală şi este reprezentată de un număr care
este de fapt valoarea numerică a unuia din următorii parametri:
(
-valoarea medie X , M ( X ))
-valoarea mediană (M e ( X ))
-valoarea modală (M 0 ( X ))
79
1.1.A. Valoarea medie

Pentru definirea acestui parametru al tendinţei centrale, vom


considera o populaţie statistică studiată în raport cu o variabilă cantitativă X
şi o funcţie G (x1 , x 2 ,..., x R ) unde xi , i = 1, R , reprezintă diversele stări ale
variabilei X. Funcţia G exprimă o anumită însuşire esenţială, un atribut al
populaţiei în raport cu variabila X şi se numeşte funcţie determinantă,
adică:
(
G (x1 , x 2 ,..., x R ) = G X , X ,..., X . ) (1)

Această egalitate se numeşte relaţia lui Boiarski-Kisini. În funcţie


de forma analitică a funcţiei G se deduce expresia de calcul a valorii medii.
Pentru a înţelege semnificaţia valorii medii X , trebuie subliniat
faptul că variaţia unui fenomen, deci în particular variaţia unei variabile X în
raport cu care este cercetată o populaţie, este determinată de acţiunea
simultană a două categorii de factori: factori esenţiali şi factori neesenţiali.
Factorii esenţiali sunt cei care acţionează asupra tuturor unităţilor
populaţiei în mod continuu şi în acelaşi sens, determinând în principal,
nivelul de dezvoltare a variabilei pentru fiecare unitate componentă din
populaţie.
Factorii neesenţiali au în general un caracter aleator, sunt numeroşi şi
neuniform răspândiţi printre unităţile populaţiei, în sensul că acţionează
numai asupra unui anumit număr de persoane, contribuind ca atare, fie la
scăderea nivelului variabilei fie la creşterea lui.
La rândul lor, factorii esenţiali nu acţionează cu aceeaşi intensitate
asupra tuturor unităţilor, determinând astfel variaţia neuniformă a variabilei
respective în cadrul populaţiei.
Se poate atunci afirma că parametrul valoarea medie a unei serii
statistice care are la bază variabila X, constituie acel nivel pe care l-ar putea
înregistra variabila în cadrul populaţiei cercetate, în condiţiile în care
factorii neesenţiali nu s-ar fi manifestat, iar factorii esenţiali ar fi acţionat
asupra unităţilor din populaţie cu aceeaşi intensitate.
În raport cu natura variabilei ce stă la baza seriei, cât şi a
indicatorilor cu care aceasta este construită există mai multe posibilităţi de
calcul a valorii medii.
Funcţia determinantă G sub forma sa cea mai generală, are
următoarea expresie analitică:
R
G (x1 , x 2 ,..., x R ) = ∑ xik f i . (2)
i =1

80
Pornind de la respectarea condiţiei date de relaţia lui Boiarski -
Kisini se determină expresia de calcul a valorii medii. Pentru diverse valori
ale lui k, în strictă concordanţă cu conţinutul şi semnificaţia funcţiei G, se
regăsesc mai multe tipuri de medii:
-media armonică (k = −1) ;
-media geometrică (k = 0 ) ;
-media aritmetică (k = 1) ;
-media pătratică (k = 2 ) ;
-media cubică (k = 3) ;
-media de ordinul k în general.
Dintre toţi aceşti indicatori cel mai utilizat pentru calculul valorii
medii este media aritmetică.
Media aritmetică
Vom considera în cele ce urmează două serii statistice de repartiţie,
cantitative, discrete, una formată din frecvenţe absolute, cealaltă din
frecvenţe relative:
x x 2 ... x R 
X :  1 
 N 1 N 2 ... N R 

x x2 ... x R 
X :  1 .
 f1 f2 ... f R 

Având în vedere, respectarea relaţiei (1), se găsesc următoarele


expresii de calcul pentru indicatorul medie aritmetică:
-în cazul seriilor cu frecvenţe absolute, se obţine:

R R

∑x N = ∑ XN
i =1
i i
i =1
i

de unde rezultă:
R

∑x N i i
X a = X1 = X = i =1
R
(3)
∑N
i =1
i

81
-în cazul seriilor cu frecvenţe relative, avem:
R R

∑ xi f i = ∑ X f i
i =1 i =1

deci:
R

∑x i fi R
X = i =1
R
= ∑ xi f i . (4)
∑f i =1
i
i =1

Expresia (3) reprezintă prin definiţie, formula de calcul a mediei


aritmetice ponderate pentru o serie discretă, unde ponderile sunt chiar
frecvenţele absolute N 1 , N 2 ,..., N R .
În cazul particular, când frecvenţele absolute sunt egale între ele
N 1 = N 2 = ... = N R = c , relaţia de calcul (3) devine:

R R R

∑x c i c ∑ xi ∑x i
X = i =1
R
= i =1
= i =1
, (5)
∑c
cR R
i =1

reprezentând media aritmetică simplă a unei repartiţii discrete.


În continuare vom considera cazul unei serii de repartiţie care are la
bază o variabilă continuă X, respectiv:

 [x , x ) [x1 , x2 ) ... [xi −1 , xi ) ... [x R −1 , x R )


X :  0 1  .
 f1 f2 ... fi ... fR 

Dacă se cunoaşte densitatea f ( X ) a variabilei X, atunci prin


definiţie, media teoretică a acestei variabile, E ( X ) ,va fi:

+∞
E(X ) = ∫ Xf ( X )dX . (6)
−∞

82
Densitatea sa de probabilitate f ( x ) nu se cunoaşte însă, deci o vom
aproxima în fiecare interval de variaţie a variabilei prin raportul dintre
frecvenţa intervalului şi lungimea acestuia, deci prin:
f1 f2 fR
, ,..., .
x1 − x0 x 2 − x1 x R − x R −1

Înlocuind aceste aproximări în (6), obţinem:

E(X ) = M (X ) = X 1 = X =
xR R xi R xi
fi fi
= ∫ Xf ( X )dX ≅ ∑ ∫ X dX =∑ ∫ XdX =
x1 i =1 xi −1 xi − xi −1 i =1 xi − x i −1 xi −1
xi
R
fi X2 R
fi x 2 − xi2−1 R
f
=∑ ⋅ =∑ ⋅ i = ∑ i ( xi + xi −1 ),
i =1 x i − x i −1 2 xi −1 i =1 xi − xi −1 2 i =1 2

′ x + xi −1
de unde, folosind notaţia xi = i pentru mijlocul intervalului
2
[xi −1 , xi ) , rezultă expresia de calcul a mediei aritmetice:
R

X = ∑ xi f i . (7)
i =1

Se observă că media aritmetică a unei serii de intervale, se reduce la


media aritmetică a unei serii discrete în care clasele sunt reprezentate prin
mijloacele intervalelor de variaţie.
Pentru cazul particular când seria are la bază o variabilă alternativă,
adică este de forma:
 0 1 
X :   ,
 1
N N 2

calculând media aritmetică se obţine:

∑x i ⋅ Ni
0 ⋅ N1 + 1 ⋅ N 2 N 2
X = i =1
= = = f2
R
N1 + N 2
∑N
N
i
i =1

83
deci
X = f2 , (8)

adică media aritmetică a unei serii care are la bază o variabilă alternativă (cu
doar două stări) coincide cu frecvenţa relativă a stării notate cu 1 (starea
care ne interesează mai mult în studiul statistic).

Proprietăţi ale mediei aritmetice

1. Media aritmetică a unei constante este egală cu constanta


respectivă, adică dacă variabila de la baza seriei înregistrează o singură
stare, X = c , atunci avem:

X = M ( X ) = M (c ) = c = c . (9)

2. Media produsului dintre o variabilă X şi o constantă k este egală


cu produsul dintre media variabilei X şi constanta respectivă:

M (k ⋅ X ) = k ⋅ M ( X ) . (10)

3. Media aritmetică a sumei a două sau mai multe variabile este


egală cu suma mediilor acestora:

M ( X 1 + X 2 + ... + X R ) = M ( X 1 ) + M ( X 2 ) + ... + M ( X R ) . (11)

Observaţie:

De exemplu, pentru a verifica proprietatea de mai sus pentru două


variabile:

M ( X + Y ) = M ( X ) + M (Y ) , (11)’

folosim tabelul bidimensional:

84
x x1 x2  xi  xn TOTAL
y
ym N 1m N 2m  N im  N nm N •m
     
     
yj N1 j N2 j  N ij  N nj N• j
     
     
y2 N 12 N 22  Ni2  N n2 N •2
y1 N 11 N 21  N i1  N n1 N •1
TOTAL N 1• N 2•  N i•  N n• N

Relaţia de mai sus se verifică pe baza acestor date calculând cele trei
medii:
n n

∑x N i i• ∑x N i i•
M (X ) = i =1
n
= i =1

∑N
N
i•
i =1

m m

∑ y j N• j ∑x j N• j
M (Y ) =
j =1 j =1
m
=
∑N
N
•j
j =1

∑∑ (x + y j )N ij
n m

M (X + Y ) =
i =1 j =1
n m
.
∑∑ N
i =1 j =1
ij

4. Media produsului a r variabile, două câte două independente este


egală cu produsul mediilor acestora.
M ( X 1 ⋅ X 2 ⋅ ... ⋅ X r ) = M ( X 1 ) ⋅ M ( X 2 ) ⋅ ... ⋅ M ( X r ) . (12)

85
Observaţie:

Cazul

M ( X ⋅ Y ) = M ( X ) ⋅ M (Y ) (12’)

se verifică în cazul când X şi Y sunt independente, pe baza tabelului,


calculând:

x1 y1 N 11 + x 2 y1 N 21 + ... + x n y m N nm
M ( XY ) = .
N

5. (Consecinţă a lui 3) Media sumei dintre o variabilă X şi o


constantă c este suma dintre media variabilei X şi constanta c:

M (X + c) = M (X ) + c (13)

sau
M (X − c) = M (X ) − c (13’)

şi mai mult:
M (X ) = M (X − c) + c (13’’)

adică, dacă stările unei variabile cantitative cresc sau descresc cu o


constantă c, atunci şi media noi variabile obţinute creşte sau descreşte cu
acea constantă.
6. (Consecinţă a lui 2) Dacă valorile unei variabile X sunt
simplificate cu o constantă, atunci media variabilei X descreşte de acel
număr de ori:
X
M (X ) = k ⋅ M   . (14)
k

7. (Relaţie de calcul simplificat al mediei)

 X −c
M (X ) = M  ⋅k + c. (15)
 k 

86
8. (Proprietatea de adiţiune a mediei aritmetice)
Dacă o populaţie este structurată în raport cu un criteriu X (variabilă)
cantitativ sau calitativ, în n clase x1 , x 2 ,..., x n , atunci media aritmetică a
variabilei Y, în raport cu care este studiată populaţia, se poate obţine ca o
medie a mediilor variabilei din cele n clase.

M (Y ) = M Y X (16) ( )
Observaţie:
Tot pe baza tabelului bidimensional se poate verifica această relaţie
calculând M (Y ) , Y x1 , Y x 2 ,..., Y x n , mediile condiţionate şi în sfârşit
( )
M Y X , astfel obţinându-se,
m

∑y
j =1
j N ij
Y xi = m

∑N j =1
ij

n n

∑Y xi N i • ∑Y xi N i •
(
MY X = ) i =1
n
= i =1
.
∑N
N
i•
i =1

9. Dacă frecvenţele absolute cu care s-a construit o serie, se


simplifică printr-o constantă, atunci media aritmetică a seriei respective nu
se modifică. Astfel, pentru
R

x  ∑x N i i
X :  i  , X = i =1
R
,
 N i  i =1, R
∑N
i =1
i

′ N
notăm cu N i = i unde d reprezintă o valoare cu care se divid toate
d
frecvenţele.
R

 xi  ∑ xi N i
X ′ :  ′  , X ′ = i =1R
 i  i =1, R ′
∑ Ni
N
i =1

87
Proprietatea spune că X = X ′ .
10. Media aritmetică a unei serii este cuprinsă între valoarea minimă
şi valoarea maximă pe care o înregistrează variabila X, care stă la baza seriei

X min ≤ X ≤ X max . (17)

11. Suma abaterilor liniare ale valorilor unei variabile continue, de la


media aritmetică este nulă, sau:

(
M X − X = 0.) (18)

12. Proprietatea de minim a mediei aritmetice.

(
M X−X )
2
≤ M ( X − x0 )
2

unde x0 este un număr real oarecare.

Media armonică
x 
În cazul unei serii discrete X :  i  , avem formula mediei
 N i  i =1, R
armonice ponderate

∑N i
X h = X −1 = R
i =1
(19)
1

i =1 x i
Ni

formulă care pentru frecvenţe egale devine formula mediei armonice simple:
R
X −1 = R
1
∑i =1 x i

 [x , x )
iar pentru cazul unei serii continue X :  i −1 i , i = 1, R devine:
 Ni 

88
R

∑N i
X −1 = R
i =1
1
∑x
i =1
Ni
i


unde xi este mijlocul intervalului [xi −1 , xi ) .

Media geometrică

Acest indicator este dat de formula:

X 0 = X g = N x1N1 ⋅ x 2N 2 ⋅ ... ⋅ x RN R (20)

valabilă în cazul unei serii discrete, formulă care se poate aplica şi în cazul
′ x + xi
unei serii continue înlocuind pe xi cu xi = i −1 .
2
Media geometrică simplă va fi:

R
X g = N ∏ xi .
i =1

iar media geometrică ponderată cu frecvenţe relative va fi:

R
X g = ∏ xif i
i =1

Media de ordin superior (k > 1) :

-pentru serii formate cu frecvenţe absolute

∑x k
i Ni
Xk = K
i =1
R
(21)
∑N
i =1
i

89
-pentru serii cu frecvenţe relative

R
X k = K ∑ xik f i
i =1

-în cazul k = 2 obţinem media pătratică, în cazul k = 3 , media cubică iar


pentru k = −1, k = 0 şi respectiv k = 1 se obţine media armonică, media
geometrică şi respectiv media aritmetică.
Observaţie
Media unei variabile X calculată cu diferiţi indicatori, satisface
relaţia:
X −1 ≤ X 0 ≤ X 1 ≤ X 2 ≤ ...

în care se obţine egalitate numai în cazul când variabila X este o constantă


sau între ponderi există anumite relaţii.

1.1.B. Exemple

Calculul valorii medii a unei variabile, folosind media aritmetică.


-cazul seriei discrete
Fie seria de repartiţie discretă care redă repartiţia angajaţilor unei
firme în funcţie de numărul de copii:
 0 1 2 3 4 5 6 7
X :  
10 8 50 25 4 2 0 1 

Numărul mediu de copii pe angajat este dat de relaţia:

0 ⋅ 10 + 1 ⋅ 8 + 2 ⋅ 50 + 3 ⋅ 25 + 4 ⋅ 4 + 5 ⋅ 2 + 6 ⋅ 0 + 7 ⋅ 1
X = M (X ) = =
10 + 8 + 50 + 25 + 4 + 2 + 0 + 1
216
= = 2,16 ≈ 2
100

deci în medie un angajat din acea firmă are 2 copii.


-cazul seriei alternative
Presupunem că este necesară determinarea ponderii agenţilor
economici cu capital de stat, dintr-un anumit judeţ, care au înregistrat
pierderi în anul 1995 şi că în urma observării statistice se construieşte
seria[6]:
90
 CU PIERDERI FARA 
X :  
 150 850 

Vom nota starea care ne interesează, adică aceea a agenţilor cu


pierderi, prin simbolul 1, cealaltă stare fiind notată cu 0:

 1 0 
X :  
150 850 

150
de unde X = = 0,150 = 15% , deci în medie, 15% din agenţii
1000
economici cu capital de stat au înregistrat pierderi în 1995.
-cazul seriei continue
Angajaţii unei societăţi comerciale se distribuie după salariul lunar
cuvenit, conform următoarei serii de repartiţie continuă ([6]):

 [160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :  
 7 13 18 6 4 2 

unde variabila X este exprimată în u.m. lei.


În vederea determinării salariului mediu pe angajat, se recurge la
transformarea seriei de intervale într-o serie discretă, astfel:

180 220 260 300 340 380 


X ′ :  
 7 13 18 6 4 2 

160 + 200
unde 180 = (mijlocul intervalului [160 − 200) ).
2
Salariul mediu se determină astfel:

180 ⋅ 7 + 220 ⋅ 13 + 260 ⋅ 18 + 300 ⋅ 6 + 340 ⋅ 4 + 380 ⋅ 2


X = = 254.400 u.m.
50

1.2.A. Valoarea mediană

Valoarea mediană notată cu M e este acea valoare a variabilei


cantitative X, care împarte repartiţia în două părţi egale, adică:

91
FN (M e ) = sau N (M e ) = .
1 N
(22)
2 2

Să considerăm pentru început o serie discretă de frecvenţe absolute:

x x2 ... xi ... xR 
X :  1 .
 N1 N2 ... N i ... N R 

În calculul valorii mediane a unei serii discrete pot apărea


următoarele situaţii:
a) volumul N al populaţiei este un număr impar.
b) volumul N al populaţiei este un număr par.
În ambele situaţii calculul medianei presupune, într-o primă etapă,
determinarea rangului medianei, notat cu rM e , conform relaţiei:
1 R
rM e = ∑ N i = N (M e ) .
2 i =1
(23)

a) Dacă volumul populaţiei, N, este un număr impar, rangul medianei


N 
este un număr zecimal a cărui parte întreagă   indică numărul de unităţi
2
din populaţie pentru care variabila x a înregistrat valori mai mici ca
mediana. Aşadar valoarea mediană M e este valoarea imediat următoare
N 
celei de rang   adică:
2

M e = x([N 2 ]+1) . (24)

b) Dacă volumul populaţiei este un număr par, rangul medianei este


un număr întreg aşadar, la mijlocul seriei nu se mai află o valoare a
variabilei X cu care să coincidă mediana ci se găsesc două valori, mediana
calculându-se ca medie aritmetică a acestora:
x N  + x N 
2  2  +1
   
Me = . (25)
2

92
În cazul unei repartiţii continue verificarea relaţiei (22) presupune
cunoscută densitatea de repartiţie f ( X ) , ceea ce implică un volum mare de
calcule, motiv pentru care, în calculul valorii mediane se va folosi o formulă
aproximativă.
Să considerăm o repartiţie continuă în raport cu variabila X şi anume:

 [x , x ) [x1 , x2 ) ... [xi −1 , xi ) ... [x R −1 , x R )


X :  0 1 
 N1 N2 ... Ni ... NR 

unde intervalele [xi −1 , xi ), i =1, R pot fi de lungime egală sau neegală.


Prima etapă în determinarea valorii mediane este stabilirea
intervalului în care se află această valoare, numit interval median.
N 
După ce s-a determinat rangul rM e =   , se cumulează frecvenţele
2
absolute, din aproape în aproape, până când avem:

1
N 1 + N 2 + ... + N i ≥ N,
2

această condiţie realizându-se o dată cu N i de unde rezultă că


M e ∈ [xi −1 , xi ) .
Formula de calcul a valorii mediane este atunci următoarea:

N (M e ) − N X M e( )
M e = xM e + ⋅ lMe , (26)
N Me
unde:

x M e = xi −1 - limita inferioară a intervalului median


N i = N M e - frecvenţa absolută a intervalului median
xi − xi −1 = l M e - lungimea intervalului median
N (M e ) = rM e - frecvenţa absolută cumulată până la intervalul
[xi −1 , xi ) , inclusiv
( )
N x M e - frecvenţa absolută cumulată până la intervalul median.

93
Proprietăţi ale valorii mediane

1. Valoarea mediană a unei serii este cuprinsă între cea mai mică şi
cea mai mare valoare a variabilei care stă la baza ei:
X min ≤ M e ≤ X max . (27)

2. Valoarea mediană a unei serii nu se modifică dacă frecvenţele


absolute se simplifică cu aceeaşi valoare (de obicei cel mai mare divizor
comun).
3. Proprietatea de minim (reprezentativitatea medianei)
Dintre toţi parametrii care intervin în caracterizarea unei serii,
mediana este aceea faţă de care valorile individuale ale variabilei X de la
baza seriei, se abat cel mai puţin , dacă aceste abateri se iau în valoare
absolută. Cu alte cuvinte, valoarea minimă a funcţiei ϕ ( x0 ) = M ( X − x0 )
este atinsă pentru x0 = M e .

1.2.B. Exemple

Calculul valorii mediane


-cazul unei serii discrete şi volum impar
Se consideră seria care redă repartiţia gospodăriilor dintr-o localitate
în raport cu numărul de bovine.

 0 1 2 3 4 5 6 7
X :  
10 53 15 2 1 2 0 2 

N = 85
 N   85 
rM e =   =   = 42
2 2

10 + 53 > 42 ⇒ x  N  = 1 ⇒ M e = x  N  = 2
2  2  +1
   

deci jumătate din gospodării au cel mult 2 bovine, cealaltă jumătate, mai
mult de 2.
-cazul unei serii discrete şi volum par

94
Se consideră seria care redă repartiţia unui lot de 100 de piese
produse cu o maşină în funcţie de numărul de defecţiuni majore depistate în
urma unui control de calitate.

 0 1 2 3 4
X :  
 45 3 7 44 1 

100 
N = 100, rM e =  = 50
 2 

x N  + x N 
2
 
 2  +1
  2+3
45 + 3 + 7 > 50 ⇒ x  N  = 2 ⇒ M e = = = 2,5
2
 
2 2

ceea ce înseamnă că jumătate din piesele lotului au până în 2,5 defecte.

-cazul unei serii continue.


Vom considera repartiţia angajaţilor dintr-o firmă în raport cu
salariul lunar, caracterizată de seria:

 [160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :  
 7 13 18 6 4 2 

unde X e exprimat în u.m.

-determinarea rangului medianei.

 N   50 
rM e =   =   = 25
2 2

-determinarea intervalului median.

7 + 13 + 18 > 25 ⇒ M e ∈ [240 − 280)

-determinarea valorii mediane.

95
N (M e ) − N x M e( ) 25 − 20
M e (x ) = x M e + ⋅ l M e = 240 + ⋅ 40 = 251.111 u.m.
N Me 18

Aşadar, jumătate din angajaţii societăţii respective câştigă cel mult


251,111 u.m., iar cealaltă jumătate câştigă cel puţin 251.111 u.m..
Se poate construi următoarea serie.

 [160.000 − 251.111) [251.111 − 400.000)


X :  
 50% 50% 

1.3.A. Valoarea modală

Acest parametru se notează cu M O ( X ) şi reprezintă acea valoare a


variabilei X căreia îi corespunde frecvenţa cea mai mare. Se mai numeşte şi
modul, valoare dominantă sau modă.
În cazul unei serii discrete, valoare modală se citeşte direct din serie,
nefiind necesară o tehnică specială.
În cazul unei serii continue, de forma:

 [x , x ) [x1 , x2 ) ... [xi −2 , xi −1 ) [xi −1 , xi ) [xi , xi +1 ) ... [x R −1 , x R )


X :  0 1 
 f1 f2 ... f i −1 fi f i +1 ... fR 

se aplică următorul algoritm de calcul:


-determinarea intervalului modal, adică determinarea intervalului cu
cea mai mare frecvenţă, fie aceasta [xi −1 , xi )
-determinarea valorii modale din condiţia ca M O ( X ) să realizeze
maximul densităţii de probabilitate f ( X ) :

∆ −1
M O ( X ) = xM O + ⋅ lM O (28)
∆ −1 + ∆1

unde
x M O = xi −1 limita inferioară a intervalului modal.
∆ −1 = N i − N i −1 -diferenţa între frecvenţa intervalului modal şi frecvenţa
intervalului precedent.

96
∆ 1 = N i − N i +1 -diferenţa dintre frecvenţa intervalului modal şi frecvenţa
intervalului următor.
l M O - lungimea intervalului modal.
Se observă faptul că o serie poate avea o singură valoare modală, caz
în care seria se numeşte unimodală. Dacă o serie are mai multe valori
modale atunci se numeşte plurimodală şi evidenţiază faptul că populaţia în
cauză este neomogenă.
În cazul unei serii simetrice, valoarea modală coincide cu valoarea
medie şi cu mediana în timp ce pentru serii uşor asimetrice, K. Pearson a
stabilit următoarea relaţie între cei trei parametri:

(
MO = X −3 X − Me ) (29)

Dacă valoarea modală este identică cu valoarea medie, atunci se


poate afirma că valoarea medie se bucură de o mai mare reprezentativitate.
Dacă, în plus, avem M e = M O = X , valoarea mediană nefiind
influenţată de valorile extreme ale variabilei, se poate afirma că mediana
prezintă un grad de reprezentativitate mai mare decât valoarea medie.

1.3.B. Exemple

Calculul valorii modale: - cazul continuu


Vom considera acelaşi exemplu de serie continuă ca şi în III.1.1.B. şi
III.1.2.B.

 [160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :  
 7 13 18 6 4 2 

max{7,13,18,6,4,2} = 18 ⇒ M O ∈ [240,280)

∆ −1 18 − 13
⇒ M O ( X ) = xM O + ⋅ l M O = 240 + ⋅ 40 = 251.764 u.m.
∆ −1 + ∆1 (18 − 13) + (18 − 6)
Se poate deci concluziona că cei mai mulţi angajaţi ai societăţii
comerciale respective au un salar lunar în jur de 251.764 lei.

-cazul discret.

97
Să considerăm repartiţia studenţilor unei facultăţi de la o anumită
specializare, din anul I în raport cu nota obţinută la un anumit examen:

 1 2 3 4 5 6 7 8 9 10 
X :  
 2 3 10 26 11 13 28 13 12 7 

max{2, 3, 10, 26, 11, 13, 28, 13, 12, 7} = 28 , M O ( X ) = 7


aşadar cei mai mulţi studenţi au obţinut şapte la acel examen.
-în cazul când situaţia era următoarea:

 1 2 3 4 5 6 7 8 9 10 
X :  
 2 3 10 28 11 13 28 13 12 5 

atunci avem de-a face cu o serie bimodală cu valorile modale M O1 ( X ) = 4


şi M O2 ( X ) = 7 .

2.A. Parametrii de structură

Parametrii de structură denumiţi şi valori quantile caracterizează


structura unei populaţii. Valorile quantile ale unei serii de repartiţie
unidimensionale sunt de fapt acele mărimi înregistrate de variabila X, care
împart seria valorilor ordonate crescător (respectiv populaţia) în n părţi
egale. Vor exista deci p = n − 1 quantile.
Amintim următoarele cazuri particulare:
- n = 2 - valoarea mediană (este şi un parametru al structurii, ea divizând
populaţia în două părţi egale)
- n = 4 - valorile quartile sunt în număr de trei şi împart populaţia în patru
părţi egale.
- n = 10 - valorile decile care împart seria în zece părţi egale fiind în număr
de nouă.
- n = 100 - procentilele, care împart seria în o sută părţi egale fiind în
număr de 99.

În funcţie de valoarea mediană, structura populaţiei poate fi redată


aşa cum de altfel s-a văzut deja în III.1.2.B:, astfel:
 x − M e M e − x max 
X :  min  ,
 50 % 50 % 

98
semnificând faptul că jumătate din populaţia supusă studiului a înregistrat
pentru variabila X valori cuprinse între valoarea minimă a lui X şi mediană,
iar cealaltă jumătate din populaţie a înregistrat pentru X valori cuprinse între
mediană şi valoarea maximă a lui X.
Vom da în continuare, algoritmul de calcul al valorilor quartile
(n = 4), Q1 , Q2 , Q3 .
-cazul seriei discrete:
x x 2 ... x R 
X :  1 
 N 1 N 2 ... N R 

Odată determinate, aceste valori, structura seriei poate fi redată


astfel:

 x − Q1 Q1 − Q2 Q2 − Q3 Q3 − x max 
X :  min 
 25% 25% 25% 25% 

ceea ce semnifică o structură a populaţiei supusă studiului în patru părţi


egale.
Aşadar quartilele se determină pe baza relaţiilor:

FN (Q p ) = p N (Q p ) = p
1 N
sau , ∀p = 1,2,3. (1)
4 4

deci rangul fiecărei quartile este dat de:

N 
rQ1 = N (Q1 ) =  
4
 2N 
rQ2 =  . (2)
 4 
 3N 
rQ3 =  
 4 

99
Se disting două subcazuri:
-dacă pN ( p = 1,3) se divide cu 4, atunci relaţiile de calcul pentru quartile
sunt:

x rQ + x(rQ +1) x rQ + x (rQ +1) x rQ + x (rQ3 +1)


Q1 = 1 1
, Q2 = 2 2
, Q3 = 3 (3)
2 2 2

-dacă pN ( p = 1,3) nu se divide cu 4 atunci utilizăm relaţiile:

Q1 = x rQ1 + x(rQ1 +1) , Q2 = x rQ2 + x(rQ2 +1) , Q3 = x rQ3 + x(rQ3 +1) (4)

unde x rQi , i = 1, p este acea valoare xi a variabilei pentru care


N 1 + N 2 + ... + N i > rQi
-cazul seriei continue:

 [x , x ) [x1 , x2 ) ... [xi −1 , xi ) ... [x R −1 , x R )


X :  0 1  .
 N1 N2 ... Ni ... NR 

N 
Rangul primei quartile fiind rQ1 =   ,
4

intervalul quartilic al lui Q1 va fi primul interval pentru care se obţine

N 
N 1 + N 2 + ... + N i >   = rQi .
4

Vom calcula astfel quartila Q1 , denumită şi quartila mică, astfel:

N (Q1 ) − N xQ1 ( )
Q1 = xQ1 + lQ1 (5)
N Q1

100
Quartila mijlocie Q2 este de fapt mediana, calculul ei fiind deci cel de la
valoarea mediană, iar pentru quartila mare avem rangul:

 N
rQ3 = 3 
 4
şi
N 1 + N 2 + ... + N i > rQ3 .
de unde rezultă intervalul quartilic şi apoi quartila Q3 .

( )
N (Q3 ) − N xQ3
Q3 = xQ3 + lQ3 (6)
N Q3
Semnificaţia simbolurilor folosite în (5), (6) este de aceeaşi manieră
cu cea a simbolurilor din formula medianei.

Proprietăţi ale quantilelor.

1. Valorile quantile pentru o serie dată sunt valori ale variabilei X,


cuprinse între cea mai mică şi cea mai mare dintre valorile acesteia.

2. Dacă frecvenţele absolute ale unei serii se simplifică (sau


amplifică) cu un anumit număr, valorile quantile nu se modifică.

3. Între valorile quantile există următoarea ordine:

Q1 ≤ Q2 ≤ Q3 ≤ ... ≤ Qn −1 .

2.B. Exemple

-vom reconsidera exemplul din III.1.3.B. (Repartiţia angajaţilor


unei societăţi
comerciale în raport cu salariul lunar)

 [160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :  
 7 13 18 6 4 2 

şi vom calcula valorile quartile:

101
N 
rQ1 =   = 12
4
 2N 
rQ2 =   = 25
 4 
 3N 
rQ3 =   = 37
 4 

7 + 13 > 12 ⇒ Q1 ∈ [200 − 240 )


7 + 13 + 18 > 25 ⇒ Q2 ∈ [240 − 280 )
7 + 13 + 18 > 37 ⇒ Q3 ∈ [240 − 280 )
12 − 7
Q1 = 200 + ⋅ 40 = 200 + 0,3846 ⋅ 40 = 215,384 = 215,384 u.m.
13
25 − 20
Q2 = 240 + ⋅ 40 = 240 + 0,2777 ⋅ 40 = 251,111 u.m. = M e
18
37 − 20
Q3 = 240 + ⋅ 40 = 240 + 0,9444 ⋅ 40 = 277,777 u.m.
18
Vom avea următoarea caracterizare de structură:

160.000 − 215.384 215.384 − 251.111 2511.111 − 277.777 277.777 − 400.000  .


X :  .
 25% 25% 25% 25% 
Deci 25% din angajaţi au un salariu între 160,000 u.m. şi 215,384
u.m. alţii 25% au salariul cuprins între 215,384 u.m. şi 251,111 u.m. etc.
Să considerăm şi cazul unei serii discrete de exemplu cea din
III. 1.3.B:
 1 2 3 4 5 6 7 8 9 10 
X :  
 2 3 10 26 11 13 28 13 12 7 

r Q1 =[N/4] = [125/4] = 31 de unde 2+3+10+26 >31 => X Q1 =4 deci Q 1 =5


r Q2 = [2N/4] = [125/2]= 62 de unde 2+3+10+26+11+13>62 => X Q2 = 6 deci
Q 2 =7
r Q3 = [3N/4] = 93 iar 2+3+10+26+11+13+28=93 => X Q3 = 7 Q 3 =8

 1 − 5 5 − 7 7 − 8 8 − 10 
X :   .
 25% 25% 25% 25% 

102
3.A Parametrii variaţiei

Valorile înregistrate de o variabilă cantitativă în raport cu care se


studiază o populaţie se datorează acţiunii diferiţilor factori esenţiali sau
neesenţiali. Intensitatea diferită cu care se pot manifesta factorii esenţiali cât
şi sensul contrar în care pot acţiona factorii neesenţiali în raport cu fiecare
unitate, duc la diverse valori înregistrate de variabilele în raport cu care este
studiată populaţia.
Măsurarea variaţiei unei variabile cantitative este importantă pentru
a vedea în ce măsură valoarea medie a acesteia poate reprezenta întreaga
populaţie.
Când abaterile de la valoarea medie sunt neesenţiale atunci se poate
afirma că populaţia este omogenă şi că acest parametru poate reprezenta
tendinţa centrală, iar daca aceste abateri sunt mari atunci populaţia este
eterogena şi prin urmare valoarea medie nu are capacitatea de a reprezenta
populaţia.
Parametrii variaţiei măsoară aşadar împrăştierea valorilor unei
variabile cantitative faţă de valoarea medie şi se pot calcula atât sub formă
absolută cât şi relativă.
Un alt parametru al tendinţei centrale faţă de care se pot stabili
parametri ai variaţiei este valoarea mediană, măsurându-se astfel
împrăştierea faţă de aceasta.
În cele ce urmează ne vom referi doar la parametrii variaţiei în raport
cu valoarea medie, aceştia fiind: amplitudinea sau variaţia maximă, variaţia
maximă şi variaţia minimă faţă de valoarea medie, abaterea medie liniară,
abaterea medie pătratică.
Amplitudinea este diferenţa între valoarea maximă şi valoarea
minimă înregistrate de variabilă. Acest parametru măsoară împrăştierea
maximă a variabilei şi se poate calcula cu una din formulele sub forma
absolută respectiv relativă:
Wx X − X min
W x =X max – X min sau × 100 = max × 100 (1)
X X
Variaţia maximă (minimă) de la valoarea medie arată care este cea
mai mare (mică) abatere în plus (în minus) faţă de valoarea medie şi este
dată sub formă absolută sau relativă respectiv de formulele:
X max − X
X max - X =X R - X sau × 100 (2)
X
X min − X
X min – X = X 1 - X sau × 100 (3)
X
103
Abaterea medie liniară reprezintă media aritmetică a abaterilor
variabilei X de la valoarea medie a acesteia luate în valoare absoluta:

d x =M(|X - X |) (4)

Relaţia (4) se scrie pentru diferite cazuri astfel:


- în cazul unei serii discrete cu frecvenţe absolute:
R

∑ (x
i =1
i − X )Ni
dx = R
(4')
∑N
i =1
i

- în cazul unei serii discrete cu frecvenţe relative:

R
dx = ∑ xi − X f i (4'')
i =1
- în cazul unei serii alternative, de tipul

0 1
X :   cu ρ+ q=1
q p 

d x = |0- p | q +|1- p | q = p q + q ρ=2 p q (4''')

- în cazul unei serii continue

∑x '
i − X Ni R
= ∑ xi' − X f i
xR
∫ X − X f ( X )dX ≈ i =1
dx = R
(4'''')
∑N
x1
i =1
i
i =1

xi −1 + xi
unde xi' = , i= i, R este mijlocul intervalului [ xi −1 , xi ).
2
Sub formă relativă primeşte denumirea de coeficient simplu de
variaţie şi este dat de formula:

dX
VX = × 100 (5)
X

104
Coeficientul simplu de variaţie (V x ) arată cu cât se abate în medie
orice valoare a variabilei X de la valoarea medie echivalentă cu 1 sau 100%.
Calculat pentru două serii diferite el apreciază gradul de reprezentativitate a
celor două medii. Se apreciază mai reprezentativă valoarea medie al cărui
coeficient simplu de variaţie este mai mic.
Abaterea medie liniară nu este totuşi cel mai indicat în calcul din
cauza faptului că nu este suficient de sensibil la abaterile mici.
Abaterea medie pătratică. Acest parametru este utilizat în aceleaşi
scopuri ca şi abaterea medie liniară prin definiţie şi formulă de calcul.
Abaterea medie pătratică, notată σcu x se defineşte ca media
pătratică a abaterilor valorilor variabilei X, de la valoarea medie X , adică:

σX = M X −X [( (6) )] 2

În practică se calculează pătratul abaterii medii pătratice, care se mai


numeşte şi dispersie sau variaţie:

V(X)= D 2 ( X ) = σ X2 = M X − X [( )]
2
(7)

Relaţia de calcul a dispersiei la fel ca şi cea a abaterii medii liniare se


transcrie în funcţie de tipul seriei astfel:
- pentru serii discrete cu frecvenţe absolute:

∑ (x )
R 2

i − X Ni
σ X2 = i =1
R
(7')
∑N
i =1
i

- pentru serii discrete cu frecvenţe relative:

( )
R
σ X2 = ∑ xi − X f i
2
(7'')
i =1

- pentru serii alternative:

σ X2 = (1 − p )2 p + (0 − p )2 q = pq( p + q ) = pq = p(1 − p ) (7''')

- pentru serii continue:


105
∑ (x )
R
2
'
− X Ni
(X − X ) f ( X )dX ≈ ( )
2 i R
= ∑ xi' − X f i
xR
σ X2 = ∫ i =1
R
(7'''')
∑N
x1
i =1
i
i =1

xi −1 + xi
unde xi' = , i= 1, R este mijlocul intervalului [x i-1 , x i ).
2
Sub formă relativă, parametrul se mai numeşte şi coeficient de
variaţie a lui Pearson şi este dat de relaţia:

σx
VX = × 100 . (8)
x

Dacă sub formă absolută, abaterea medie patratică ne arată cu cât se


abate în medie, în plus sau în minus orice valoare x i a variabilei X de la
valoarea medie X sub formă relativă reprezintă abaterea medie a oricărei
valori a variabilei X de la valoarea medie considerată egală cu 1 sau cu 100.
Coeficientul de variaţie a lui Pearson calculat pentru două serii poate
fi folosit pentru a compara gradul de reprezentativitate a valorii medii
calculate .
Vom spune că valoarea medie al cărui coeficient de variaţie este mai
mic, e mai reprezentativă. De asemeni, vom spune că valoarea medie este
absolut reprezentativă dacă V x < 30% relativ reprezentativă dacă
30% < V x < 60% şi nereprezentativă dacă V x > 60% .

Proprietăţi ale dispersiei

1˚ Dispersia unei constante este egală cu zero.

D 2 (c ) = 0 . (9)

2˚ Dispersia unei variabile X este independentă de schimbarea


originii, adică:

D 2 ( X − x0 ) = ∆2 ( X ) , x 0 valoare oarecare. (10)

3˚ Dacă între două variabile X şi Y exista relaţia Y=aX+b atunci


avem:

106
D 2 (Y ) = a 2 D 2 ( X ) . (11)

4˚ Are loc relaţia: D 2 ( X ) = M (X 2 ) − (M ( X )) .


2
(12)
5˚ Dispersia sumei a două variabile X şi Y este egală cu suma
dispersiilor acestor variabile dacă X şi Y sunt independente, adică:

D 2 ( X + Y ) = D 2 ( X ) + D 2 (Y ) . (13)

6˚ Dispersia produsului dintre o constantă şi o variabilă este egală


cu produsul dintre constantă la pătrat şi dispersia variabilei:

D 2 (aX ) = a 2 D 2 ( X ) . (14)

7˚ Dispersia diferenţei dintre două variabile independente este egală


cu suma dispersiilor acelor variabile

D 2 ( X − Y ) = D 2 ( X ) + D 2 (Y ) . (15)

8˚ Dispersia sumei a două variabile este egală cu suma dispersiilor


celor două variabile plus dubla covarianţă dintre cele două variabile

((
D 2 ( X + Y ) = D 2 ( X ) + D 2 (Y ) + 2 M X − X Y − Y )( )) (16)
[(
cov( X , Y ) = M X − X Y − Y . )( )]
9˚ Formula de calcul simplificat al dispersiei:

  X − x0  2  2
D 2 ( X ) = M 
2
(
  × k − X − x0 . (17) )
  k  

10˚ Regula de adunare a dispersiilor


Se consideră o serie de repartiţie care are la bază variabila Y iar
populaţia respectivă de volum N este împărţită în n clase în raport cu o altă
variabilă (criteriu) X.
Regula de adunare a dispersiilor constă în faptul că dispersia în
întreaga populaţie care măsoară variaţia totală în raport cu X este egală cu
suma a două dispersii din care una măsoară variaţia în cadrul grupelor iar
cealaltă, variaţia dintre grupe.

107
Variaţia lui Y în cadrul populaţiei cercetate numită şi variaţie
totală, se compune din variaţia în cadrul celor n grupe, datorată acţiunii
factorilor neesenţiali (variaţie reziduală) şi variaţia de la o grupă la alta
datorată acţiunii factorilor esenţiali (variaţie explicată).

V total =V explicat + V rezidual. (18).

Notând cu:
σ Y2 - dispersia variabilei Y în grupa “i” care măsoară împrăştierea
xi

în această grupă provocată de factorii neesenţiali.


σ Y2 - dispersia dintre grupe care măsoară împrăştierea de la o
X
grupă la alta.
2
σ Y X - media dispersiilor grupelor care măsoară variaţia medie în
cadrul celor n grupe
Y - media din grupa i
xi

formula (18) se mai poate scrie:


2
σ Y2 = σ Y2 + σ Y X . (18')
X
Relaţia (18') poate fi verificată folosind datele unei tabel
bidimensional analog celui dat în III.1.1.A pe baza căruia se pot
calcula următorii parametrii:

∑ (y )
m m

∑ y j ⋅ N. j
2
j −Y ⋅ N. j
j =1 j =1
Y= m
σ =
2
Y m

∑ N. j
j =1
∑N
j =1
.j

2 m
Y −Y  ⋅ N
n

∑  x  ∑y j ⋅ N ij
i =1  
i.
j =1
σ =
i
2 Y =
Y n Xi m

∑ Ni . ∑N
X
ij
i =1 j =1

108
2
y −Y  ⋅N
m n
∑  j
j =1 
xi  ij
2
∑σ 2
Y
xi
⋅ Ni .
σ 2
Y = m
σ Y
X
= i =1
n
.
∑N ∑N .
xi
ij i
j =1 i =1

Dacă relaţia (18’) se împarte cu σ X2 şi se înmulţeşte cu 100% se


obţine :
σ Y2 / X σ Y2/ X
100% = ⋅ 100 % + ⋅100% , (18”)
σ Y2 σ Y2
relaţie care ne arată procentual, cota parte din variaţia unei variabile
provocată de acţiunea factorilor esenţiali şi respectiv de acţiunea factorilor
neesenţiali.

3.B. Exemple

Calculul dispersiei şi abaterii medii pătratice sub forma absolută şi


relativă.
- cazul discret
Să considerăm seria care redă repartiţia punctelor de vânzare a
ziarelor în raport cu numărul de reviste ”Newsweek” vândute pe parcursul
unei zile, într-un anumit oraş.

X:  12
0 1 2 3 4 5
5 1 2 3 2

0 ⋅ 12 + 1 ⋅ 5 + 2 ⋅ 1 + 3 ⋅ 2 + 4 ⋅ 3 + 5 ⋅ 2
X = =1,4 reviste se vând în medie
25
în acel oraş.

(0 − 1,4) 2 ⋅12 + (1 − 1,4) 2 ⋅ 5 + (2 − 1,4) 2 ⋅1 + (3 − 1,4) 2 ⋅ 2 + (4 − 1,4) 2 ⋅ 3 + (5 − 1,4) 2 ⋅ 2


σ X2 = =
25 ,
23,52 + 0,8 + 0,36 + 5,12 + 20,28 + 25,92
= = 2,0032 ⇒ σ x ≈ 1,41
25

în medie numărul revistelor vândute este cu 1,41 mai mult sau mai puţin
faţă de numărul mediu X = 1,4 .

109
σX 1,41
VX = ⋅ 100 = ⋅ 100 ≈ 100% deci media nu e reprezentativă
X 1,4
pentru populaţia formată cu cele 25 de puncte de vânzare.
- cazul continuu
Vom considera seria de repartiţie a agenţilor economici dintr-o
anumită zonă geografică în raport cu profitul realizat:

 [0 − 50)[50 − 100)[100 − 150)[150 − 200)[200 − 250] 


X :  
170 250 350 260 130 

unde X este exprimat în u.m.


Profitul mediu:

25 ⋅175 + 75 ⋅ 250 + 125 ⋅ 350 + +175 ⋅ 260 + 225 ⋅130


X= = 121,55 u.m.
1160

(25 − 121,55) 2 ⋅170 + (75 − 121,55) 2 ⋅ 250 + (125 − 121,55) 2 ⋅ 350 +


σ X2 =
1160
(175 − 121,55) 2 ⋅ 260 + (225 − 121,55) 2 ⋅130
+ = 3676,428 ⇒ σ x = 3676,428 = 60,63
1160

60, 63 u.m. lei - cu atât se abate în medie profitul fiecărui agent economic
de la profitul mediu considerat de 121,55 u.m..

σX 60,61
VX = ⋅100% = ⋅100% ≈ 49,86%〉30 deci profitul mediu este
X 121,55
relativ reprezentativ.

4.A. Parametrii concentrării

În cazul în care la baza unei serii se află o variabila numerică,


caracterizarea sintetică a concentrării valorilor sale în jurul valorii medii X
se realizează în principal cu ajutorul parametrilor variaţiei.
Dacă seria are la bază o variabilă calitativă, caracterizarea sintetică a
concentrării stărilor variabilei se poate realiza prin: lungimea vectorului de
structură, energia informaţională, entropia informaţională.
Vom considera în cele ce urmează seria:

110
x x 2  xi  x R 
X :  N1 N 2  N i  N R 
 1

şi vom nota cu f=( f1 , f 2 ,..., f i ,..., f R ) vectorul de structură.


Lungimea vectorului de structură oferă o primă informaţie asupra
concentrării stărilor variabilei şi se calculează ca fiind ||f|| . În cazul
R
R=2, avem : ||f||= ∑f
i =1
i
2
. (1)

Seria prezintă o concentrare maximă dacă toate unităţile populaţiei


sunt repartizate într-o singură clasă a cărei frecvenţă relativă va fi 1, iar
pentru celelalte clase frecvenţele relative vor fi 0, aşadar în cazul unei
concentrări maxime vom avea ||f||=1.
Seria prezintă o concentrare minimă dacă frecvenţele sunt egale.
 x1 x 2  xi  x R 
1 1
X:  1 1 1 1  caz în care avem ||f||= R ⋅ 2 = .
    R
R R R R R
Pentru o serie oarecare avem inegalitatea:

1
≤ f ≤ 1. (2)
R

Energia informaţională - este un parametru al concentrării introdus


de Octav Onicescu prin formula:

R
E = ∑ fi2 . (3)
i =1

Cu acelaşi raţionament ca şi în cazul lungimii vectorului anterior,


1 1
obţinem E max = 1 şi Emin = deci ≤ E ≤ 1. (4)
R R
Forma relativă a acestui parametru se deduce astfel:
1
E−
R
Er = (5)
1
1−
R
şi are loc relaţia: 0 ≤ E r ≤ 1 .

111
În general se calculează E r , iar dacă obţinem o valoare apropiată de
1, populaţia este caracterizată de un grad înalt de concentrare, altfel dacă se
apropie de 0 avem de-a face cu o concentrare minimă.
Entropia informaţională este parametrul definit astfel:

R
1
H = ∑ f i ln (6)
i =1 fi

şi care satisface relaţia:

0 ≤ H ≤ ln R . (7)
H
Forma relativă a entropiei informaţionale este: Hr = iar
ln R
extremele: 0 ≤ H r ≤ 1

4.B.Exemple

Fie seria

 industrie agricultura servicii transporturi constructii


X :  5 9 4 6 6 

reprezentând 30 de societăţi comerciale în raport cu ramura în care îşi


desfăşoară activitatea.
Scriem mai întâi seria cu frecvenţele relative

 IND AGRIC SERV TRANSP CONSTR


X :  0,16 0,3 0,13 0,2 0,2 

E = 0,16 + 0,3 + 0,13 + 0,2 + 0,2 = 0,025 + 0,09 + 0,016 + 0,08 = 0,211
2 2 2 2 2

1
0,211 −
5 0,011 0 01375 0
Er = = = , , ≤ ER ≤ 1
1 0,8
1−
5
ceea ce implică faptul că populaţia este caracterizată printr-o concentrare
slabă.

112
5. Parametrii formei

Pe lângă aspectele deja caracterizate, ceea ce mai prezintă încă


importanţă este modul de repartizare a valorilor variabilei de o parte şi alta a
valorii medii, considerată şi centrul de greutate al seriei. Acest lucru
înseamnă de fapt evidenţierea acelei curbe care aproximează cel mai bine
conturul poligonal al seriei respective şi în acelaşi timp obţinerea unei
imagini mai clare asupra gradului de reprezentativitate a valorii medii.
În marea majoritate a cazurilor, distribuţia unităţilor unei populaţii se
face după o curbă numită clopotul lui Gauss. Unităţile din populaţie nu se
distribuie însă uniform în jurul valorii medii, ceea ce duce la cazul când
diferite serii să aibă aceeaşi medie X , acelaşi σ şi totuşi o curbă să fie mai
aplatizată decât cealaltă, simetrică sau mai puţin simetrică.
Evidenţierea acestor diferenţe poate fi realizată cu ajutorul
parametrilor formei: parametrii asimetriei şi parametrii boltirii.

Parametrii asimetriei

Asimetria unei serii se defineşte în raport cu dispunerea unităţilor


populaţiei într-o parte sau alta a valorii medii. O serie de repartiţie este
simetrică în raport cu media sa dacă frecvenţele valorilor variabilei X egal
depărtate de valoarea medie, sunt egale între ele, adică:
f ( X − δ ) = f ( X + δ ) , oricare ar fi δ astfel ca X − δ şi X + δ sa se
afle printre valorile lui X. Imaginea geometrică a unei serii simetrice este
dată de următorul grafic, unde A = f ( x − σ ) = f ( x + σ ) :

f(X)

X
x
x −σ x +σ

113
Dacă egalitatea (1) nu este verificată pentru cel puţin o pereche de
tipul X − δ , X + δ atunci seria se numeşte asimetrică.
Caracterizarea numerică a gradului de asimetrie se face prin
coeficientul de asimetrie a lui Pearson şi coeficientul de asimetrie a lui
Fisher.
Conform coeficientului de asimetrie a lui Pearson o serie are o
asimetrie cu atât mai pronunţată cu cât diferenţa între valoarea medie şi
valoarea modala este mai mare:

X − M0
α= (2)
σX

Dacă α = 0 atunci X = M 0 deci seria e simetrică.

Dacă α 〉 0 atunci X 〉 M 0 şi avem de-a face cu o asimetrie pozitivă


(sau de dreapta)

f(X)

Mo X X

Daca α <0 atunci X 〈 M 0 şi avem asimetrie negativă (de stânga).

114
f(X)

X Mo X

Coeficientul de asimetrie a lui Fisher este dat de :

α3 =
[
M (X − X )
3
]= [
M (X − X )
3
] (3)
M [(X − X ) ]
σ X3  2
3


 

Interpretarea acestui coeficient este identică celei de la coeficientul


lui Pearson.

Parametrii boltirii

Analiza boltirii unei serii este utilă în caracterizarea gradului de


reprezentativitate a valorii medii cât şi pentru compararea reprezentativităţii
a două sau mai multe valori medii ce reprezintă serii diferite. Astfel dacă
vom considera două serii statistice care au la bază variabilele X şi Y iar
X = Y ;σ X = σ Y şi distribuţiile sunt simetrice (α 3 X = α 3Y ) , reprezentându-le
grafic vom observa că rezultă totuşi două curbe diferite din punct de vedere
al boltirii.

115
x

x=y σx =σy

Nivelul boltirii este dat de parametrul numit coeficient de boltire sau exces
al seriei.

B =
' [(
M X−X ) ]− 3 = B
4

−3. (4)
σ X4
4 4

Dacă B4' = 0 ( B4 = 3) seria prezintă aceeaşi boltire cu a curbei


normale . Deci excesul e nul.
Dacă B4 ' 〉 0 ( B4 〉3) boltirea curbei corespunzătoare este mai înaltă şi
mai ascuţită decât cea normală (serie leptokurtică).Dacă B4 ' 〈 0 ( B4 〈3)
atunci boltirea curbei respective este mai plată decât la curba normală (serie
platikurtică).

5. Aplicaţii

Aplicaţia 1
Având în vedere populaţia societăţilor comerciale supusă observării
în exemplul II.1.1.B., se cere[6]:
1. Să caracterizaţi seria ce redă repartiţia unităţilor din populaţie după
variabilele X 3 sau X 4 ;
2. Determinaţi şi interpretaţi parametrii tendinţei centrale pentru
această serie: valoarea medie, valoarea modală şi cea mediană;

116
3. analiza statistică a reprezentativităţii valorii medii (sub forma
absolută şi relativă );
4. analiza statistică a reprezentativităţii valorii mediane (sub forma
absolută şi relativă);
5. analiza statistică a structurii populaţiei, în raport cu această variabilă
(utilizând valoarea mediană, valorile cuartile şi un grafic de
structură);
6. analiza comparativă a gradului de concentrare a unităţilor de
populaţie, în raport cu cele două variabile alese de noi;
7. analiza statistică a asimetriei şi boltirii repartiţiei;
8. calculul valorii medii, respectiv a dispersiei, utilizând formule de
calcul simplificat.

Rezolvare
1.

 [0,5 − 2,1) [2,1 − 3,7 ) [3,7 − 5,3) [5,3 − 6,9) [6,9 − 8,5) [8,5 − 10,1)
X 3 :  
 9 6 4 5 3 3 
Această serie unidimensională , ce redă repartiţia unităţilor din
populaţie după variabila X 3 -capital social este o serie atributivă cantitativă
continuă şi are la bază indicatorul frecvenţă absolută.

2. Parametrii tendinţei centrale:


Valoarea medie:

capitalul social total


X3 = =
volumul populatiei
1,3 ⋅ 9 + 2,9 ⋅ 6 + 4,5 ⋅ 4 + 6,1 ⋅ 5 + 7,7 ⋅ 3 + 9,3 ⋅ 3
= =
30
= 4,286 u.m.

Ca şi interpretare, dacă toate societăţile comerciale din eşantion ar


avea acest capital social mediu, suma capitalurilor sociale ce aparţin celor
30 de societăţi ar rămâne neschimbată.

Valoarea mediană:
n=30 (număr par)
Calculăm rangul medianei:

117
n
rM e =   = 15 ⇒ M e ∈ [2 ,1 − 3 ,7 )
2


Me

2,1 3,7

15

M e = 2,1 + ∆

Presupunem că frecvenţa unităţilor care înregistrează variante într-un


interval este proporţională cu lungimea intervalului:
1,6 u.m. ………………6 soc. com. => ∆ = 1,6 u.m.
Deci, jumătate din societăţile comerciale au capitalul social mai mic
de 3,7 u.m. şi cealaltă jumătate din aceste societăţi îl au mai mare de
3,7 u.m. .
 [0,5 − 3,7] [3,7 − 10,1)
X 3 :  
 50% 50% 

Valoarea modală :

ni
Calculăm rapoartele : ⇒
xi − xi −1

n1 9 n2 6
= = 5,6 = = 3,8
x1 − x0 2,1 − 0,5 x 2 − x1 3,7 − 2,1

118
n3 4 n4 5
= = 2,5 = = 3,1
x3 − x 2 5,3 − 3,7 x 4 − x3 6,9 − 5,3

n5 3 n6 3
= = 1,9 = = 1,9
x5 − x 4 8,5 − 6,9 x6 − x5 10,1 − 8,5

max { 5,6; 3,8; 2,5; 3,1; 1,9; 1,9 } = 5,6

⇒ M 0 ∈ [ x 0 , x 1 ), deci M 0 ∈ [ 0,5 – 2,1) intervalul modal

∆0 / −1
M 0 = xM 0 + ⋅ I M0
∆0 / −1 + ∆0 / 1
9−0
M 0 = 0,5 + ⋅ 1,6 = 1,7 u.m.
(9 − 0) + (9 − 6)
Deci, cele mai multe societăţi comerciale au capitalul social în jur de
1,7 u.m. (dar nu mai mult de 9 societăţi ).
3. Analiza statistică a reprezentativităţii valorii medii:

• dispersia :
∑ (x )
6
2
'
1 − x3 ⋅ ni
σ 2
x3 = i =1

n
unde
x i − x i −1
x1' =
2

mijlocul unui interval

9 ⋅ (1,3 − 4,3) 2 + 6 ⋅ (2,9 − 4,3) 2 + 4 ⋅ (4,5 − 4,3) 2


σ x2 = +
3
30
5 ⋅ (6,1 − 4,3) 2 + 3 ⋅ (7,7 − 4,3) 2 + 3 ⋅ (9,3 − 4,3) 2
+ = 7,293 u.m.
30

119
Deoarece dispersia este destul de mare, înseamnă că valoarea medie
nu este prea reprezentativă (adică nu foarte multe variabile sunt apropiate de
ea ).
• abaterea medie pătratică :

σ X = σ X2 = 7,3 = 2,7 u.m.


3 3

Capitalul social al fiecărei societăţi comerciale se abate în medie de


la capitalul social mediu de 4,3 u.m., cu 2,7 u.m. .

• coeficientul de variaţie al lui Pearson :


σx
VX3 = 3
⋅ 100
X3
2 ,7
VX3 = ⋅ 100 = 62 ,8%
4 ,3

Deoarece V X 3 = 62,8 % > 30 %, rezultă că populaţia este destul de


eterogenă, iar valoarea medie în această situaţie nu este prea reprezentativă.

4.Analiza statistică a structurii populaţiei:

Cercul de structură: vom construi seria statistică ce are la bază


indicatorul frecvenţă relativă :

 [0 ,5 − 2 ,1) [2 ,1 − 3 ,7 ) [3 ,7 − 5 ,3 ) [5 ,3 − 6 ,9 ) [6 ,9 − 8 ,5 ) [8 ,5 − 10 ,1)
X 3 :  
 30% 20% 13% 17% 10% 10% 

360  …………………….. 100 %


a 1 ……………………….. 30% a 1 = 108 

360  ……………………..100%
a 2 …………………………20% a 2 = 72 

120
360  …………………….. 100%
a 3 ………………………….13% a 3 = 46 ,8 

360  …………………….. 100%


a 4 …………..…………… 17% a 4 = 61,2 

360  …………..………… 100%


a 5 ……………..………… 10% a 5 = 36 

360  …………………..… 100%


a 6 ……………………….. 10% a 6 = 36 

Structura societăţilor din eşantion după capitalul social

10% [0,5-2,1)
10% 30% [2,1-3,7)
[3,7-5,3)
13% [5,3-6,9)
[6,9-8,5)
17% 20% [8,5-10,1)

Parametrii de structură :

• mediana : Me = 3,7 u.m.

 [0 ,5 − 3 ,7 ) [3,7 − 10 ,1)
X :  
 50% 50% 

121
• cuartilele: Q 1 = 1,83 u.m.
Q 2 = Me = 3,7 u.m.
Q 3 = 6,42 u.m.

 [0 ,5 − 1,83) [1,83 − 3 ,7 ) [3 ,7 − 6 ,42 ) [6 ,42 − 10 ,1)


X :  
 25% 25% 25% 25% 

5. Parametrii concentrării:

 ind . agr . serv. transp . constr .


X :  
 5 9 4 6 6 

5
1 
Energia informaţională: E x2 = ∑ f i 2 ; E x2 ∈  ;1
i =1 5 

25 + 31 + 16 + 36 + 36
E x2 = ≈ 0 ,22 (concentrare destul de mică)
900
1
E−
E0 = k
1
1−
k
1
E x2 −
E 0 x2 = 5 = 0 ,22 − 0 ,2 = 0 ,025 (concentrare destul de mică )
1 0 ,8
1−
5

 [0 ,5 − 2 ,1) [2 ,1 − 3,7 ) [3,7 − 5 ,3) [5 ,3 − 6 ,9 ) [6 ,9 − 8 ,5 ) [8 ,5 − 10 ,1)


X :  
 9 6 4 5 3 3 

1 
E x2 ∈  ;1
6 

81 + 36 + 16 + 25 + 9 + 9
E x2 = = 0 ,195 ( concentrare destul de mică )
900

122
1
E x3 −
E 0 x3 = 6 = 0 ,195 − 0 ,16 = 0 ,042 (concentrare destul de mică )
1 0 ,84
1−
6

Populaţia prezintă o concentrare mai mare în raport cu variabilele X 3


(capital social ),faţă de variabila X 2 (ramura de activitate ).

6. Asimetria :

α3 =
(
M X3 − X 3 )3

coeficientul de asimetrie a lui Pearson


σx 3
3

σ x = 2,7 u.m.
3

X 3 = 4,3 u.m.

 (− 3 )3 (− 1,4 )3 53 
(X −X3 )
3
: 
0 ,2 3 1,8 3 3 ,4 3

3 
3
 9 6 4 5 3

(
M X −X3 )
− 27 ⋅ 9 − 2 ,7 ⋅ 6 + 0 ,008 ⋅ 4 + 5 ,8 ⋅ 5 + 39 ,3 ⋅ 3 + 125 ⋅ 3
3
=
30
≈ 8 ,76
8 ,76 8 ,76
α3 = 3
= = 0 ,45 ⇒ repartiţia este asimetrică pozitiv faţă de
2 ,7 19 ,683
valoarea medie, deoarece α3 >0.

Boltirea :

β3 =
(
M X3 − X 3 )4

−3
σx 3
4

 (− 3 )4 (− 1,4 )4 54 
(X −X3 )
4
: 
0 ,2 4 1,8 4 3 ,4 4

3 
3
 9 6 4 5 3

(
M X3 − X 3 )
4
=
81 ⋅ 9 + 3 ,78 ⋅ 6 + 0 ,0016 ⋅ 4 + 10 ,44 ⋅ 5 + 133 ,62 ⋅ 3 + 625 ⋅ 3
30
=`102 ,65

123
102 ,65 102 ,65
β4 = 4
−3 = − 3 = 1,93 − 3 = −1,07 ⇒ repartiţia aceasta este
2 ,7 53 ,14
mai puţin boltită decât repartiţia de la legea normală, deoarece β 4 < 0.

7.Calculul simplificat al valorii medii:

X 3 = 4,286 u.m.

Construim seria cu ajutorul mijloacelor intervalelor:

 1,3 2 ,9 4 ,5 6 ,1 7 ,7 9 ,3 
X 3 :  
9 6 4 5 3 3 

X3 −c
Alegem c = 6,1 si d = 1,61 => Y =
d
X 3 − 6 ,1  − 3 − 2 − 1 0 1 2 
Y= :  
1,6  9 6 4 5 3 3 

− 3 ⋅ 9 − 2 ⋅ 6 − 4 + 3 + 6 − 27 − 12 − 4 + 9
Y= = = −1,133
30 30

X 3 = Y ⋅ 1,6 + 6,1 = −1,133 ⋅ 1,6 + 6,1 = 6,1 − 1,8128 = 4,287 u.m.

Calculul simplificat al dispersiei:

σ x2 = 7,293 u.m.
3

(
σ x2 = d 2 ⋅ M (Y 2 ) − X 3 − c
3
)
2

9 ,9 + 4 ,6 + 4 + 3 + 4 ⋅ 3
( )
M Y2 =
30
= 4 ,13

σ x2 = 1,6 2 ⋅ 4 ,13 − (4 ,286 − 6 ,1)2 = 10 ,57 − 3,29 = 7 ,28


3

Metoda a treia de calcul a dispersiei:

124
σ x2 = M (X 32 ) − [M ( X 3 )]2
3

1,69 ⋅ 9 + 8 ,41 ⋅ 6 + 20 ,25 ⋅ 4 + 37 ,21 ⋅ 5 + 59 ,29 ⋅ 3 + 86 ,49 ⋅ 3


( )
M X 32 =
30
= 25 ,668

σ x2 = 25 ,668 − 18 ,369 = 7 ,299


3

Aplicaţia 2

Alegeţi o repartiţie statistică bidimensională din populaţia


considerată în exemplul II, 1.1.B., în care una din variabile să fie cantitativă,
relativ la care se cere ([6]):
1. caracterizarea seriei;
2. verificarea regulii de adunare a dispersiilor,
3. interpretarea componentelor dispersiei (sub formă absolută şi
relativă);
4. analiza comparativă a reprezentativităţii valorii medii în 2
repartiţii condiţionate (ale aceleiaşi variabile).

Rezolvare
Repartiţia bidimensională este următoarea:

X
1,3 2,9 4,5 6,1 7,7 9,3
Y [0,5-2,1) [2,1-3,7) [3,7-5,3) [5,3-6,9) [6,9-8,5) [8,5-10,1) TOTAL

1,08 [0,03-2,13) 7 1 1 2 0 0 11
3,18 [2,13-4,23) 0 2 1 0 1 1 5
5,28 [4,23-6,33) 2 2 1 1 0 0 6
7,38 [6,33-8,43) 0 1 1 0 0 1 3
9,48 [8,43-10,53) 0 0 0 1 1 0 2
11,58 [10,53-12,45) 0 0 0 1 1 1 3
TOTAL 9 6 4 5 3 3 30

Y = 4,5 u.m.; σ Y2 = 12,2

1. Seria este bidimensională, construită după variabilele:


X- variabilă atributivă, cantitativă, continuă (capital social)
Y- variabilă atributivă, cantitativă, continuă (cifra de afaceri)
şi are la bază indicatorul frecvenţă absolută.

2. σ Y2 = σ y2 / X + σ Y2 / X = σ Y2 / int ergrupe + σ Y2 / int re grupe

125
σ Y2 / X = σ Y2 / int ergrupe

Calculăm mediile condiţionate:

1,08 ⋅ 7 + 5 ,28 ⋅ 2
Y 1 = Y / x ∈ [0 ,5 − 2 ,1) = = 2 ,01
9
1,08 ⋅ 1 + 3,18 ⋅ 2 + 5 ,28 ⋅ 2 + 7 ,38 ⋅ 1
Y2 = Y / x ∈ [2 ,1 − 3 ,7 ) = = 4 ,23
6
1,08 + 3 ,18 + 5 ,28 + 7 ,38
Y3 = Y / x ∈ [3 ,7 − 5 ,3 ) = = 4 ,23
4
1,08 ⋅ 2 + 5 ,28 ⋅ 1 + 9 ,48 + 11,58
Y4 = Y / x ∈ [5 ,3 − 6 ,9 ) = = 5 ,7
5
3 ,18 + 9 ,48 + 11,58
Y5 = Y / x ∈ [6 ,9 − 8 ,5 ) = = 8 ,08
3
3 ,18 + 7 ,38 + 11,58
Y6 = Y / x ∈ [8 ,5 − 10 ,1) = = 7 ,38
3

- 8,08 u.m. lei reprezintă cifra medie de afaceri la o societate cu


capital social cuprins între 6,9 şi 8,5 u.m..
Cifra medie de afaceri se mai poate calcula ca o medie a mediilor
astfel:

Y1 ⋅9 + Y 2 ⋅ 6 + Y 3 ⋅ 4 + Y 4 ⋅5 + Y 5 ⋅3 + Y 6 ⋅3
Y= =
30
2 ⋅ 9 + 4,23 ⋅ 6 + 4,23 ⋅ 4 + 5,7 ⋅ 5 + 8,08 ⋅ 3 + 7,38 ⋅ 3
= ≈ 4,5 u.m.
30
σ y2 / X = σ Y2 / int ergrupe =
(2 − 4,5)2 ⋅ 9 + (4,23 − 4,5)2 ⋅ 6 + (4,23 − 4,5)2 ⋅ 4 + (5,7 − 4,5)2 ⋅ 5 +
30

+
(8,08 − 4,5) 2
⋅ 3 + (7,38 − 4,5) ⋅ 3
2
≈ 4,5
30

(variaţia cifrei de afaceri de la o societate la alta, datorată factorului X -


capital social )
σ Y2 / X = σ Y2 / int re grupe = M (σ Y2 / X )
not .

Calculăm dispersiile corespunzătoare fiecărei grupe:

126
Y 1 = 2; σ Y2 / X ∈[0 ,5 − 2 ,1) =
(1,08 − 2 )2 ⋅ 7 + (5 ,28 − 2 )2 ⋅ 2 ≈ 3,05
9

Y 2 = 4,23;
σ Y2 / X ∈[2,1−3, 7 ) =
(1,08 − 4,23)2 ⋅ 1 + (3,18 − 4,23)2 ⋅ 2 + (5,28 − 4,23)2 ⋅ 2 + (7,38 − 4,23)2 ≈4
6

Y 3 = 4,23;

σ 2
=
(1,08 − 4,23) + (3,18 − 4,23) + (5,28 − 4,23) + (7,38 − 4,23)
2 2 2 2
= 5,51
Y / X ∈[3, 7 −5, 3 )
4

Y 4 = 5,7;

σ Y2 / X ∈[5,3−6,9 ) =
(1,08 − 5,7 )2 ⋅ 2 + (5,28 − 5,7 )2 + (9,48 − 5,7 )2 + (11,58 − 5,7 )2 = 18,35
5

Y 5 = 8,08;

σ 2
=
(3,18 − 8,08) + (9,48 − 8,08) + (11,58 − 8,08)
2 2 2
= 12,74
Y / X ∈[6 , 9 −8, 5 )
3

Y 6 = 7,38;

σ Y2 / X ∈[8,5−10,1) =
(3,18 − 7,38)2 + (7,38 − 7,38)2 + (11,58 − 7,38)2 = 11,73
3

3,05 ⋅ 9 + 4 ⋅ 6 + 5,51 ⋅ 4 + 18,35 ⋅ 5 + 12,74 ⋅ 3 + 11,73 ⋅ 3


σ Y2 / X = σ Y2 / int re grupe = = 7,955
30

(variaţia cifrei de afaceri de la o societate la alta, datorată altor factori decât


capitalul social).

Verificarea regulii de adunare a dispersiilor:


12,2 ≈ 4,25 + 7,955

datorită rotunjirilor

127
3. Interpretarea componentelor dispersiei:

• σ Y2 / X = 4 ,25 - vezi interpretarea de la punctul 2

σ Y2 / X
4 ,25
⋅ 100 = 34 ,83% - proporţia în care variaţia cifrei de
=
σ 12 ,22
Y
afaceri se datorează variabilei X (capital social)

• σ Y2 / X = 7 ,955 - vezi interpretarea de la punctul 2


σ Y2 / X 7 ,955
= ⋅ 100 = 65 ,2% - proporţia în care variaţia cifrei de afaceri
σ Y2 12 ,2
se datorează altor factori decât capitalul social

4. Analiza comparativă a reprezentativităţii valorii medii în 2 repartiţii


condiţionate

 [0,03 − 2,13) [4,23 − 6,33)


Y / x ∈ [0,5 − 2,1) :  
 7 2 
 [0,03 − 2,13) [2,13 − 4,23) [4,23 − 6,33) [6,33 − 8,43)
Y / x ∈ [2,1 − 3,7 ) :  
 1 2 2 1 
1,08 ⋅ 7 + 5,28 ⋅ 2
Y / x ∈ [0,5 − 2,1) = =2
9

1,08 ⋅ 1 + 3,18 ⋅ 2 + 5,28 ⋅ 2 + 7,38 ⋅ 1


Y / x ∈ [2,1 − 3,7 ) = = 4,23
6

σ 2
=
(1,08 − 2 ) ⋅ 7 + (5,28 − 2 ) ⋅ 2
2 2
= 3,05
Y / X ∈[0 , 5− 2 ,1)
9

σ Y2 / X ∈[0,5− 2,1) =
(1,08 − 4,23)2 ⋅ 1 + (3,18 − 4,23)2 ⋅ 2 + (5,28 − 4,23)2 ⋅ 2 + (7,38 − 4,23)2 ⋅ 1 = 4
6
σ Y / X ∈[0,5− 2,1) = 1,75 - cifra de afaceri la o societate cu capital social între 0,5
şi 2,1 u.m. se abate de la media de 2 u.m. cu 1,75 u.m..

σ Y / X ∈[2,1−3,7 ) = 2

128
Coeficienţii de variaţie ai lui Pearson:
σ Y / X ∈[0 ,5 − 2 ,1) 1,75
V1 = ⋅ 100 = ⋅ 100 = 87 ,5%
Y / x ∈ [0 ,5 − 2 ,1) 2

σ Y / X ∈[2 ,1−3 ,7 ) 2
V2 = ⋅ 100 = ⋅ 100 = 47 ,28%
Y / x ∈ [2 ,1 − 3 ,7 ) 4 ,23

V2 < V1 => valoarea medie este mai reprezentativă în a doua din


aceste repartiţii condiţionate.

7. Test de autoevaluare III

7.1. Enunţ

1.În urma observării statistice a 100 de gospodarii în raport cu venitul total


în ultima lună s-a obţinut seria statistică :

 (0 − 4] (4 − 8] (8 − 12] (12 − 16] (16 − 20] 


X  5
:
u .m.  60 20 11 4


Se cere:
a)Determinaţi şi interpretaţi parametrii tendinţei centrale pentru această
serie(venitul mediu,modal şi median).
b)Calculaţi abaterea medie pătratică (şi implicit dispersia) sub formă
absolută . Calculaţi de asemenea abaterea medie pătratică sub formă
relativă(coeficientul de variaţie a lui Pearson). Analizaţi
reprezentativitatea valorii medii.
c)Redaţi din punct de vedere numeric , structura populaţiei în raport cu
variabila X.
d)Calculaţi energia informaţională şi interpretaţi.
e)Analizaţi forma repartiţiei variabilei X (asimetria şi boltirea).
2.Aceeaşi populaţie se observa în raport cu numărul de membri , obţinându-
se astfel seria :

1 2 3 4 5 6
X :  
 5 7 20 50 10 8 
Aceleaşi cerinţe ca la problema anterioară .

129
3.Se consideră populaţia formată cu 100 de angajaţi ai unei firme studiată în
raport cu variabila X – numărul de proiecte în care s-a implicat angajatul în
ultima luna şi Y – salariul pe aceeaşi lună. Rezultatele observării statistice
au fost următoarele:

X
Y 0 1 2 3 Total

[14,5-18,5] 2 4 2 8
[10,5-14,5) 2 30 10 2 44

[6,5-10,5) 3 20 6 1 30
[2,5-6,5) 10 8 18

Total 15 60 20 5 100

Se cere :
a)Verificaţi proprietăţile M(X+Y) = M(X)+M(Y) ; M(XY) =
M(X).M(Y)
Comentaţi rezultatul .
b)Verificaţi proprietatea de adiţiune a mediei .
c)Verificaţi proprietatea de adunare a variantelor .
d)Precizaţi procentul în care salariul angajatului este explicat prin
numărul de proiecte în care este implicat .

7.2. Rezolvare

Problema 1

 (0 − 4] (4 − 8] (8 − 12] (12 − 16] (16 − 20] 


X :  
 5 60 20 11 4 
a)Venitul mediu:

m
Χ i' ⋅ N i 2 ⋅ 5 + 6 ⋅ 60 + 10 ⋅ 20 + 14 ⋅ 11 + 18 ⋅ 4
Χ = M (Χ ) = ∑ = = 7,96 u.m.
i =1 N 100

Χ i' -mijlocul intervalului

130
În medie o gospodărie are un venit de 7,96 u.m. . Se observă că
rezultatul verifică una din proprietăţile elementare ale mediei şi anume
7,96∈(0,20]

Venitul modal:

 5 60 20 11 4  60
max  , , , ,  = deci valoarea modală aparţine intervalului
4 4 4 4 4 4
modal, M 0 ∈ (4 − 8] .

Numitorul fracţiilor din acoladă ,4, reprezintă lungimea claselor de


variaţie a variabilei X.

∆ −1
M 0 (X ) = X M0 + ⋅ lM
∆ −1 + ∆1 0

unde - X M 0 este limita inferioară a intervalului modal


- l M 0 este lungimea intervalului modal
- ∆ −1 este diferenţa absolută între frecvenţa intervalului modal şi
cea a intervalului imediat anterior
- ∆1 este diferenţa absolută între frecvenţa intervalului modal şi
cea a intervalului imediat următor.

60 − 5
M 0 (X ) = 4 + ⋅ 4 ≈ 5,83 u.m. ∈ (4 − 8] .
(60 − 5) + (60 − 20)
Cele mai multe gospodării au un venit cuprins între 4 şi 8 u.m. , în
jur de 5,83 u.m. .

Venitul median:

Se determină mai întâi rangul medianei M e


N 
rM e =   = 50 .
2
Deoarece 5 + 60 ≥ 50 = rMe ne vom opri la intervalul corespunzător
frecvenţei 60, deci M e ∈ (4 − 8] .

131
M e (X ) = X Me +
(
rM e − N X M e )⋅l
Me
N Me
unde - X M e este limita inferioară a intervalului
- rM e este rangul medianei
- N M e este frecvenţa absolută a intervalului median
- l M e este lungimea intervalului median
( )
- N X M e este frecvenţa absolută cumulată până la intervalul median

50 − 5
M e (X ) = 4 + ⋅ 4 = 7 u.m. ∈ (4 − 8]
60

Jumătate din cele 100 de gospodării, au un venit de până la 7 u.m.,


cealaltă jumătate având peste 7 u.m..

b) Abaterea medie pătratică (dispersie, varianţă):

∑ (X i' − X ) ⋅ Ni
m 2

σ2 =M X −X [( ) ]=
2
i =1

N
(forma absolută).

σ2 =
(2 − 7,96)2 ⋅ 5 + (6 − 7,96)2 ⋅ 60 + (10 − 7,96)2 ⋅ 20 + (14 − 7,96)2 ⋅ 11 + (18 − 7,96)2 ⋅ 4 ≈
100
≈ 12,95 ⇒ σ ≈ 3,59 u.m.

În medie pătratică veniturile celor 100 de gospodării diferă faţă de


media de 7,96 u.m. cu 3,59 u.m. în plus sau în minus.

Coeficientul de variaţie a lui Pearson (forma relativă a abaterii ):

σx
vx = ⋅100
x
3,59
vx = ⋅100 = 45,10%
7,96

132
Deoarece v x = 45,10% ∈ ( 30%; 60%) se poate spune că media de
7,96 u.m. este relativ reprezentativă pentru cele 100 de gospodării.
c) O primă imagine despre structura gospodăriilor în raport cu venitul
ne-o dă vectorul de structură
f = ( f1 , f 2 , f 3 , f 4 , f 5 ) .
5
f1 = ⋅100 = 5% , f 2 = 60% , f 3 = 20% , f 4 = 11% , f 5 = 4% .
100

Adică 5% din gospodării au un venit cuprins între 0 si 4 u.m.,


alte 60% între 4 si 8 u.m., etc.
De asemenea populaţia se poate structura în două sau mai multe
părţi egale cu ajutorul parametrilor de structură.
De exemplu folosind valoarea mediană M e ( X ) = 7 , obţinem
structura:

X ≤7 X > 7
X :  
 50% 50% 

a cărei interpretare a fost făcută deja la calculul valorii mediene de


la punctul a).

d)Energia informaţională:
R
1 
- sub formă absolută E = ∑ f i 2 , R = 5, E ∈  ,1
i =1 5 

1
E−
- sub formă relativă Er = R, Er ∈ [0,1] .
1
1−
R

1
(0,05) 2 + (0,6) 2 + (0,2) 2 + (0,11) 2 + (0,04) 2 −
Er = 5 ≈ 0,27 ∈ (0,1)
1
1−
5

Deoarece energia informaţională sub formă relativă se apropie mai


mult de 0 vom spune că populaţia gospodăriilor este puţin concentrată
în raport cu venitul.
133
e)Coeficientul de asimetrie a lui Fisher:

M ( X − X )3
α3 =
σ x3
(2 − 7,96)3 ⋅ 5 + (6 − 7,96)3 ⋅ 60 + (10 − 7,96)3 ⋅ 20 + (14 − 7,96)3 ⋅ 11 + (18 − 7,96)3 ⋅ 4 1
α3 = ⋅
100 (3,59)3
α 3 ≈ 1,1 > 0
Pe total suma abaterilor cu semnul plus de la valoarea medie este
mai mare decât suma abaterilor cu semnul minus deci seria prezintă o
asimetrie pozitivă.
Coeficientul de boltire al lui Fisher:

M ( X − X )4
β4 = −3
σ x4
(2 − 7,96) 4 ⋅ 5 + (6 − 7,96) 4 ⋅ 60 + (10 − 7,96) 4 ⋅ 20 + (14 − 7,96) 4 ⋅ 11 + (18 − 7,96) 4 ⋅ 4 1
β4 = ⋅ −3
100 (3,59)4
≈ 0,78 > 0

Boltirea corespunzătoare seriei este mai mare. Curba obţinută este mai
înaltă decât clopotul lui Gauss.

Problema 2

1 2 3 4 5 6 
X :  
 5 7 20 50 10 8 

a) Numărul mediu de membrii:

1 ⋅ 5 + 2 ⋅ 7 + 3 ⋅ 20 + 4 ⋅ 50 + 5 ⋅10 + 6 ⋅ 8
X= = 3,77 ≈ 4
100
În medie o gospodărie are aproximativ 4 membrii.

Numărul modal de membrii:

M 0 (X ) = 4
Se observă că cele mai multe gospodări au 4 membri deci valoarea
modală este 4.

134
Numărul median de membrii:

N 
r =   = 50
2
xi + xi +1 4 + 5
5 + 7 + 20 + 50 > 50 ⇒ xi = 4 ⇒ M e ( X ) = = = 4,5
2 2

Aşadar jumătate din gospodării au până la 4,5 membrii, cealaltă


jumătate peste 4,5 membrii.

Observaţie:
Dacă N=51 şi seria se prezintă astfel

1 2 3 4 5 6 
X :  
 5 7 20 6 4 8 

 51
atunci se obţine r =   = 25 , 5 + 7 + 20 > 25 ⇒ xi = 3 ⇒ M e ( X ) = xi +1 = 4
2
b)Dispersia sub formă absolută:

σ x2 = [(1 − 3,77) 2 ⋅ 5 + (2 − 3,77) 2 ⋅ 7 + (3 − 3,77) 2 ⋅ 20 + (4 − 3,77) 2 ⋅ 50 +


1
+ (5 − 3,77) 2 ⋅10 + (6 − 3,77) 2 ⋅ 8] ⋅ = 1,29 ⇒ σ x = 1,13
100

În medie pătratică numărul de membrii din gospodărie diferă faţă


de numărul mediu de membrii 3,77cu 1,13 membrii în plus sau în
minus.

Coeficientul de variaţie a lui Pearson:


σx
vx = ⋅100
x
1,13
vx = ⋅100 ≈ 29,97% ∈ (0;30%)
3,77

Se p o tea trage co nclu zia că med ai d e 3 , 7 7 este d estu l de


reprezentativă pentru întreaga populaţie.

135
c)
1 2 3 4 5 6
x :  
 5% 7% 20% 50% 10% 6% 
 x ≤ 4,5 x > 4,5 
x :  
 50% 50% 

Citind de exemplu prima serie se poate observa că 5% dintre


gospodării au doar un membru, alte 7% doi membri , etc.

d)Energia informaţională:

1
(0,05) 2 + (0,07) 2 + (0,2) 2 + (0,5) 2 + (0,1) 2 + (0,08) 2 −
Er = 6 = 0,17 ∈ (0,1) .
1
1−
6

Se observă că populaţia este foarte puţin concentrată în raport cu numărul de


membrii.

e) Coeficientul de asimetrie:

(1 − 3,77) 3 ⋅ 5 + (2 − 3,77) 3 ⋅ 7 + (3 − 3,77) 3 ⋅ 20 + (4 − 3,77) 3 ⋅ 50


α3 = [ +
100

(5 − 3,77) 3 ⋅10 + (6 − 3,77) 3 ⋅ 8


+ ]⋅ 1 3 = −0,31 < 0 ⇒ asimetrie negativă.
100 (1,13)

f)Coeficientul de boltire:

(1 − 3,77) 4 ⋅ 5 + (2 − 3,77) 4 ⋅ 7 + (3 − 3,77) 4 ⋅ 20 + (4 − 3,77) 4 ⋅ 50


β4 = [ +
100
(5 − 3.77) 4 ⋅ 10 + (6 − 3,77) 4 ⋅ 8
+ ]⋅ 1 4 − 3 = 0,61 > 0 ⇒ boltire
100 (1,13)
pozitivă.

136
Problema 3
X
0 1 2 3 Total
Y
[14,5-18,5) 2 4 2 8
[10,5-14,5) 2 30 10 2 44
[6,5-10,5) 3 20 6 1 30
[2,5-6,5) 10 8 18
Total 15 60 20 5 100

a) M(X+Y)=M(X)+M(Y)
Vom calcula mediile M(X), M(Y), M(XY)
0 ⋅15 + 1 ⋅ 60 + 2 ⋅ 20 + 3 ⋅ 5
M (X ) = X = = 1,15 (se calculează pe baza seriei
100
marginale a lui X extrase din tabel)

4,5 ⋅18 + 8,5 ⋅ 30 + 12,5 ⋅ 44 + 16,5 ⋅ 8


M (Y ) = = 10,18 .
100
⋅ [ (0 + 4,5) ⋅10 + (0 + 8,5) ⋅ 3 + (0 + 12,5) ⋅ 2 + (1 + 4,5) ⋅ 8 +
1
M (X +Y) =
100
+ (1 + 8,5) ⋅ 20 + (1 + 12,5) ⋅ 30 + (1 + 16,5) ⋅ 2 + (2 + 8,5) ⋅ 6 +
+ (2 + 12,5) ⋅10 + (2 + 16,5) ⋅ 4 + (3 + 8,5) ⋅1 + (3 + 12,5) ⋅ 2 +
+ (3 + 16,5) ⋅ 2 ] = 11,33
Verificarea numerică a regulii: 10,18+1,5=11,33.
Pentru calcularea mediei M(X+Y) s-a folosit formula obişnuită de
medie aplicată variabilei X+Y, adică:
∑ ∑ ( X i + Y j ) ⋅ N ij
M (X +Y) =
i j
.
N

M(XY)=M(X)M(Y).

M ( XY ) =
1
[ (0 ⋅ 4,5) ⋅10 + (0 ⋅ 8,5) ⋅ 3 + (0 ⋅12,5) ⋅ 2 + (1⋅ 4,5) ⋅ 8 +
100
+ (1 ⋅ 8,5) ⋅ 20 + (1 ⋅12,5) ⋅ 30 + (1 ⋅16,5) ⋅ 2 + (2 ⋅ 8,5) ⋅ 6 +
+ (2 ⋅12,5) ⋅10 + (2 ⋅16,5) ⋅ 4 + (3 ⋅ 8,5) ⋅1 + (3 ⋅12,5) ⋅ 2 +
+ (3 ⋅16,5) ⋅ 2 ] = 12,975

137
Verificarea numerică: 12,975 ≠ 1,15 ⋅10,18 = 11,707
Comentariu: Dacă prima regulă se verifică întodeauna cea de-a doua
se verifică numai dacă variabilele sunt independente. Deoarece în
cazul acesta cea de-a d o ua regu lă n u se verifică p u em t trage
concluzia că variabilele nu sunt independente.
(
b) M Y / X = M (Y ) )
adică media variabilei Y este egală cu media mediilor condiţionate

Y / X =0 , Y / X =1 , Y / X = 2 , Y / X =3 .

4,5 ⋅10 + 8,5 ⋅ 3 + 12,5 ⋅ 2


Y / X =0 = ≅ 6,36
15
4,5 ⋅ 8 + 8,5 ⋅ 20 + 12,5 ⋅ 30 + 16,5 ⋅ 2
Y / X =1 = ≅ 10,23
60
8,5 ⋅ 6 + 12,5 ⋅10 + 16,5 ⋅ 4
Y / X =2 = ≅ 12,1
20
8,5 ⋅1 + 12,5 ⋅ 2 + 16,5 ⋅ 2
Y / X =3 = ≅ 13,3
5
Ca şi interpretare, se poate vedea că angajaţii care nu s-au
implicat în nici un proiect au un salariu mediu de 6,36 u.m., în timp
ce de exemplu cei care s-au implicat în trei proiecte au un venit
mediu de 13,3 u.m.
Pentru calcularea mediei condiţionate Y / X =0 , spre exemplu s-a
folosit coloana de frecvenţe corespunzătoare clasei X=0.
4
∑Y ⋅ Ni
[6,36 ⋅15 + 10,23 ⋅ 60 + 12,1⋅ 20 + 13,3 ⋅ 5] = 10,177
Xi
1
M (Y X )= i =1
=
N 100
M (Y ) = 10,18
10,18 ≈ 10,177
Diferenţa apare datorită aproximărilor de la Y / X =0 şi Y / X =1 .

c) V totală Y = V explicată Y + V reziduală Y


2
σ =σ
2
y
2
Y /X
+σ Y /X

138
Variaţia totală a variabilei Y:

VTOT = σ y2 =
1
[ (4,5 − 10,18) 2 ⋅ 18 + (8,5 − 10,18) 2 ⋅ 30 + (12,5 − 10,18) 2 ⋅ 44 + (16,5 − 10,18) 2 ⋅ 8 ]
100
VTOT = σ y2 ≈ 12,21 ⇒ σ y ≈ 3,49

Variaţia explicată a variabilei Y prin factorul de influenţă X :

Diferite valori ale variabilei X duc la o variaţie a variabilei Y


astfel, pentru fiecare valoare a lui X se poate calcula câte o medie
condiţionată a lui Y şi apoi se calculează V Exp , adică dispersia acestor
medii condiţionate datorate lui X faţă de media totală a lui Y.

X = 0 → Y / X =0 ≈ 6,3
X = 1 → Y / X =1 ≈ 10,23
X = 2 → Y / X = 2 ≈ 12,1
X = 3 → Y / X =3 ≈ 13,3

∑ (Y / Xi − Y ) ⋅ Ni
V EXP = σ 2
Y /X
= i
=
N
1
= [(6,36 − 10,18) 2 ⋅ 15 + (10,23 − 10,18) 2 ⋅ 60 + (12,1 − 10,18) 2 ⋅ 20 +
100
+ (13,3 − 10,18) 2 ⋅ 5] ≈ 3,41

Variaţia reziduală a variabilei Y datorată altor factori:

Se observă că spre exemplu în prima clasă deşi factorul X este


constant, X=0, nu toţi angajaţii au aceleaşi salar ca şi cel mediu de
6,3666. De exemplu doi angajaţi au peste 10,5. Apare astfel ca şi
ev id en tă in flu en ţa altor facto ri care n u su nt p recizaţi în p ro b lemă.
Variaţia lui Y datorată acestor factori reziduali se măsoară calculând o
medie a dispersiilor condiţionate, adică a variaţiilor din clase.

139
(4,5 − 6,36) 2 ⋅10 + (8,5 − 6,36) 2 ⋅ 3 + (12,5 − 6,36) 2 ⋅ 2
σ Y2 / X =0
= ≈
15

≈ 8,24 → variaţia în clasa X=0.

σ Y2 / X =1
=
1
60
[ ]
(4,5 − 10,23) 2 ⋅ 8 + (8,5 − 10,23) 2 ⋅ 20 + (12,5 − 10,23) 2 ⋅ 30 + (16,5 − 10,23) 2 ⋅ 2 =

= 9,26 → variaţia în clasa X=1.

σ Y2 / X =2
=
1
20
[
(8,5 − 12,1) 2 ⋅ 6 + (12,5 − 12,1) 2 ⋅10 + (16,5 − 12,1) 2 ⋅ 4 = ]

≈ 7,96 → variaţia în clasa X=2.

σ Y2 / X =3
=
1
5
[
(8,5 − 13,3) 2 ⋅1 + (12,5 − 13,3) 2 ⋅ 2 + (16,5 − 13,3) 2 ⋅ 2 = ]

= 8,96 → variaţia în clasa X=3.


∑ σ Y2 / ⋅ N i
Xi 8,24 ⋅15 + 9,26 ⋅ 60 + 7,96 ⋅ 20 + 8,96 ⋅ 5
VREZ = σ 2
Y /X = i
= ≈ 8,83
N 100

Verificarea numerică: 12,21≈3,41+8,83.


Diferenţa de 0,04 provine din aproximările de calcul făcute.

d)Deoarece σ Y2 / = VEXP = 3,41 reprezintă variaţia salariului Y datorată


X

influenţei numărului de proiecte X, procentul în care salariul angajatului


se explică prin numărul de proiecte X este dat de:

VEXP 3,41
⋅100 = ⋅100 ≈ 27,92% .
VTOT 12,21

140
CAPITOLUL IV

ANALIZA LEGĂTURII DINTRE VARIABILELE UNEI


REPARTIŢII MULTIDIMENSIONALE
1. Consideraţii generale

În studiul repartiţiilor statistice multidimensionale se pune problema


existenţei sau inexistenţei unei legături între variabilele observate şi prin ele,
între fenomenele pe care le reprezintă.
Două fenomene cuantificate prin două variabile Y şi X, se pot afla
într-o legătură funcţională, exprimată printr-o relaţie de forma Y = f ( X ) ,
dacă pentru o valoare determinată x a variabilei independente, variabila
dependentă Y ia o valoare determinată, discretă. Situaţia opusă acestui caz
este aceea a independenţei totale a celor două variabile, adică a inexistenţei
unei intercondiţionări reciproce. Între cele două cazuri extreme se află un
câmp larg de legături, numite legături de tip statistic sau stochastic, caz în
care, fiecărei valori x a lui X îi corespunde nu o singură valoare y, ci o
repartiţie de valori a variabilei Y (legată de valoarea x).
Disciplina care se ocupă cu analiza statistică a legăturilor dintre
variabilele observate într-o populaţie, se numeşte econometrie.
Econometria lucrează cu conceptele de corelaţie şi regresie, corelaţia fiind
de fapt termenul generic pentru orice legătură statistică. În studiul corelaţiei
se urmăresc două probleme: descrierea legii de variaţie medie a unei
variabile în funcţie de una sau mai multe variabile factoriale, problemă
numită regresie şi, caracterizarea intensităţii legăturii printr-un coeficient
numeric, independent de unităţile de măsură ale variabilelor în cauză.
Atunci când ne propunem să determinăm anumite relaţii cauzale
între diverse fenomene, se pot întâlni diverse situaţii, cum ar fi: o legătură
nemijlocită între fenomene, unilaterală sau de interdependenţă, o covariaţie
a fenomenelor datorată unor cauze comune sau un paralelism întâmplător în
variaţia a două sau mai multe fenomene. Putem aminti ca exemple de
dependenţe economice relaţia între productivitatea muncii şi calificarea
forţei de muncă, cererea de mărfuri şi veniturile băneşti, etc. Un exemplu de
covariaţie (de legătură indirectă) ar fi între cererea de mărfuri şi economiile
băneşti ale populaţiei, ambele fiind de fapt în corelaţie cu veniturile băneşti.
În analiza dependenţei unui fenomen pot interveni unul sau mai
mulţi factori cu influenţă esenţială, restul factorilor reunindu-se într-o
variabilă aleatoare. Un model de corelaţie va indica aşadar o evoluţie
141
aproximativă a fenomenului studiat nefiind luaţi în calcul toţi factorii
posibili.
În studiul legăturilor statistice este suficient să cunoaştem cum se
modifică, în medie, variabila dependentă numită şi explicată sau endogenă,
ca urmare a modificărilor variabilelor factoriale numite explicative sau
exogene. Pentru a reţine factorii cu influenţă semnificativă se estimează
gradul de influenţă al fiecărui factor. Alegerea factorilor de influenţă se
poate face pe două căi: prin introducerea progresivă a variabilelor în model
sau prin eliminarea succesivă a lor din model.
Dacă legătura se realizează între variabila dependentă Y şi
X 1 , X 2 ,..., X n variabile factoriale care influenţează variabila Y, atunci
între variabilele factoriale trebuie să fie independenţă. În cazul contrar,
apare fenomenul numit multicoliniaritate care conduce la erori de estimare.
De aceea acele variabile factoriale care se pot deduce pe baza altor variabile
factoriale, vor fi eliminate din model.
De asemenea o condiţie a reuşitei unui studiu statistic al corelaţiei
este şi omogenitatea datelor precum şi numărul mare de observaţii.
Pornind de la rezultatele observării statistice a două sau mai multe
variabile referitoare la o populaţie, un studiu privind analiza legăturii îşi
propune să stabilească o eventuală existenţă a legăturii, să măsoare
intensitatea ei şi în final să exprime analitic legătura dintre variabilele
studiate.
Înainte de parcurgerea demersului de mai sus să vedem cum apare
legătura pe baza datelor statistice.
Vom considera de exemplu o serie bidimensională unde X (variabila
factorială) reprezintă cheltuielile cu reclama (în sute u.m.) iar Y reprezintă
valoarea vânzărilor (în u.m.), dintr-o lună dată, referitor la un eşantion
format din 18 societăţi[6].

X x1 x2 x3 x4
Y Total
0 -1 1-2 2-3 3-4
y4 4-5 1 4 5
y3 3-4 1 3 2 6
y 2 2-3 2 2 1 5
y1 1-2 1 1 2
Total 1 4 6 7 18

Din tabelul de mai sus numit şi tabel de corelaţie (care este în fapt o
repartiţie bidimensională) se pot trage anumite concluzii. De exemplu, să

142
observăm că pentru o stare fixată a lui X, X ∈ [2 ,3 ) vom găsi corespunzător
mai multe valori ale variabilei Y căci există societăţi care pentru o cheltuială
între două şi trei sute de u.m. lei cu reclama vor obţine valoarea vânzărilor
cuprinsă între [2 − 3 ) (pentru două unităţi), între [3 − 4 ) (pentru trei unităţi),
între [4 − 5 ) (pentru o unitate). Aşadar nu putem stabili o legătură
funcţională între X şi Y, căci unei valori fixate a variabilei X îi corespunde
nu una ci mai multe valori ale variabilei Y.
Legătura dintre cele două variabile este aşadar o legătură statistică
datorită faptului că un nivel al variabilei independente X determină nu un
singur nivel al lui Y ci mai multe, fiecare cu o anumită probabilitate. Putem
deci să-i asociem lui X ∈ [2 ,3 ) o repartiţie condiţionată:

y y3 y4  y y2 y3 y4 
Y :  2  sau Y :  1 
X ∈ [2,3)  2 3 1 X ∈ [2,3)  0 2 3 1 

Aceasta se explică prin faptul că cele 6 societăţi pentru care X = x3


sunt supuse acţiunii şi altor factori care nu apar în studiu. De exemplu
valoarea desfacerilor depinde şi de calitatea produselor, preţul acestora,
veniturile populaţiei, etc.
Totuşi vom putea să-i asociem valorii X = x3 o singură valoare
numerică legată de variabila Y şi anume media condiţionată a lui Y de
valoarea X = x3 .

M  Y  = 2,5 ⋅ 2 + 3,5 ⋅ 3 + 4,5 ⋅ 1 ≈ 3,33



 X = x3  6

Analog vom face corespondenţa:

X = x1  M (Y X = x1 )
X = x 2  M (Y X = x 2 )
X = x 4  M (Y X = x 4 )

realizând astfel o legătură funcţională între X şi M (Y X ) . Legătura


statistică dintre Y şi X se reflectă în legătura funcţională care există între X
şi M (Y X ) , M (Y X ) = f ( X ) . Studiul acestei legături poate furniza
informaţii cu privire la dependenţa dintre X şi Y.

143
Vom folosi termenul de legătură statistică simplă pentru legătura
dintre două variabile Y, X şi legătură statistică multiplă pentru dependenţa
dintre o variabilă Y dependentă şi n variabile factoriale (n ≥ 2 )
X 1 , X 2 ,..., X n .
În funcţie de forma pe care o ia funcţia de legătură f dintre M (Y X )
şi X, vom avea diverse tipuri de legături: liniare ( f ( X ) = a + bX ) ,
( )
parabolice f ( X ) = a + bX + cX 2 etc.
Pentru studiul legăturilor statistice se folosesc tabelul de corelaţie,
mediile condiţionate şi reprezentarea grafică sub formă de nor statistic.
Pornind de la aceste aspecte se pot emite ipoteze privind existenţa, direcţia
şi intensitatea legăturii pe care o studiem.
Existenţa legăturii se citeşte din tabelul de corelaţie după gruparea
frecvenţelor absolute în jurul uneia dintre curbe pe care o anticipăm.
Intensitatea legăturii o apreciem în funcţie de gradul de concentrare a
frecvenţelor în jurul curbei anticipate, legătura fiind cu atât mai intensă cu
cât frecvenţele sunt mai concentrate într-o fâşie cât mai îngustă străbătută
prin mijloc de curba respectivă.
Dacă Y şi X ar fi variabile independente, atunci frecvenţele nenule ar
trebui să fie distribuite în mod uniform în întregul tabel de corelaţie. În cazul
exemplului prezentat anterior se avansează ideea unei legături directe şi
liniare datorită faptului că odată cu creşterea lui X se obţine o creştere a lui
Y, iar frecvenţele sunt dispuse în jurul unei drepte.
Procedeele descrise cu privire la avansarea unei ipoteze în posibila
dependenţa dintre Y şi X nu mai corespund în cazul unor legături multiple.
Pentru a putea studia legile statistice care apar în populaţiile
statistice cu conţinut economic, e necesar să se cunoască bine legăturile
concrete care se manifestă între variabilele principale ale acestor populaţii.
Cunoaşterea acestor legături presupun construirea unor modele statistice
numite modele regresionale sau econometrice.
Dacă în cazul variabilelor cantitative se pune problema găsirii
modelului ce exprimă legătura dintre variabilele în cauză, în cazul unor
variabile calitative acest lucru nu are sens fiind suficientă studierea
existenţei unei legături şi analiza intensităţii legăturii.
Demersul care trebuie parcurs în cazul unor variabile cantitative este
următorul:
− Analiza statistică a existenţei legăturii;
− Analiza statistică a intensităţii şi gradului de asociere dintre
variabile;
− Formularea unei ipoteze cu privire la forma legăturii;

144
− Determinarea parametrilor funcţiei de regresie;
− Analiza reprezentativităţii modelului statistic.

2. Analiza statistică a existenţei legăturii


Vom considera cazul a două variabile Y şi X pe baza cărora vom
alcătui tabelul de corelaţie reprezentând repartiţia statistică a populaţiei
supusă studiului în raport cu variabilele în cauză.

X
x1 x2  xi  xI Total
Y
yJ N 1J N2J  N iJ  NI J N .J
       
yj N1 j N2 j  N ij  NI j N.j
       
y2 N 12 N 22  Ni2  NI2 N .2
y1 N 11 N 21  N i1  N I1 N .1
Total N1 . N2 .  Ni .  NI . N

Analiza statistică a existenţei legăturii între cele două variabile se


poate realiza atât pe cale descriptivă cât şi pe cale cantitativă.
Metodele descriptive constau în analiza tabelului de corelaţie şi a
norului statistic.
Dacă frecvenţele absolute N ij , i = 1, I , j = 1, J din tabel se
repartizează după prima sau a doua diagonală sau orice altă curbă ce
reflectă, o regulă, atunci se spune că între cele două variabile există o
legătură. Nu va exista legătură dacă frecvenţele sunt dispersate în tot tabelul
(În practică asta revine la a găsi cât mai multe frecvenţe N ij nenule).
Aceeaşi concluzie se poate trage şi din analiza norului statistic,
acesta fiind de fapt reprezentarea grafică a tabelului de corelaţie. Cu cât
norul se dispune după o fâşie mai îngustă, cu atât mai mult anticipăm o
legătură între variabilele respective.
O metodă cantitativă pentru analiza existenţei unei legături între Y şi
X este procedeul χ 2 . Spre deosebire de norul statistic, grafic realizabil doar
în cazul a două variabile cantitative, procedeul χ 2 este universal valabil,
atât pentru variabilele cantitative cât şi pentru cele calitative.

145
Vom asocia tabelului o urnă cu N bile dintre care N ij bile sunt de
tipul (ij ) , i = 1, I , j = 1, J . Se extrage din urnă o bilă la întâmplare.
Probabilitatea de a extrage o bilă de tipul (ij ) este:

pij = P (X = xi ; Y = y j ) =
N ij
(1)
N

Pe de altă parte, dacă variabilele X şi Y ar fi independente am avea:

pij = P (X = xi ; Y = y j ) = P( X = xi ) ⋅ P (Y = y j ) =
N i . N . j not '
⋅ = pij (2)
N N

Aşadar numărul N ij în cazul în care avem independenţă îl vom nota


cu N '
ij şi va satisface următoarea relaţie:

N ij' Ni .⋅ N . j
= (3)
N N2
de unde
Ni .⋅ N . j
N ij' = (4)
N
Pe baza relaţiei (4) vom construi acum un tabel imaginar de
frecvenţe N ' ij valabil în cazul în care am avea independenţă totală.
Diferenţa între cele două tipuri de tabele va fi atunci o măsură a abaterii de
la independenţa totală, adică o măsură a legăturii între variabile. Se va
calcula parametrul

χ = ∑∑
2
I J (N ij − N ij' )
2

(5)
i =1 j =1 N ij'

a cărui valoare numerică este pozitivă dacă există legătură şi egală cu zero
dacă nu există legătură, căci în acest caz N ij = N ij' , deci tabelele sunt
identice.

146
3. Analiza statistică a intensităţii şi gradului de asociere dintre variabile
După stabilirea existenţei legăturii se va cerceta intensitatea acesteia.
Pe cale descriptivă se analizează tabelul de corelaţie şi legătura va fi cu atât
mai intensă cu cât fâşia în care sunt situate frecvenţele este mai îngustă.
În analiza statistică a intensităţii şi gradului de asociere dintre
variabile se folosesc două grupe de indicatori: indicatori ai corelaţiei
parametrice şi indicatori ai corelaţiei neparametrice.
Cei mai utilizaţi indicatori ai corelaţiei neparametrice sunt:
− raportul de corelaţie;
− coeficientul de contingenţă (asociere) al lui Pearson;
− coeficientul de contingenţă (asociere) al lui Ciuprov;
− coeficientul de corelaţie al rangurilor lui Kendall;
− coeficientul lui Fechner;
− coeficientul de corelaţie a rangurilor al lui Spearman;
− coeficientul de corelaţie informaţională al lui Onicescu
Dintre indicatorii corelaţiei parametrice amintim:
− coeficientul corelaţiei liniare simple;
− coeficientul corelaţiei liniare multiple;
− coeficientul corelaţiei parabolice.
Deosebirea între cele două grupe de indicatori constă în faptul că cei
din prima grupă se calculează numai pe baza statisticilor rezultate din
observarea statistică, în timp ce indicatorii din a doua grupă presupun
cunoaşterea prealabilă a parametrilor funcţiei de regresie.
Vom da aici formula de calcul doar pentru doi dintre aceşti
coeficienţi şi anume: raportul de corelaţie şi coeficientul de contingenţă a lui
Pearson.
Raportul de corelaţie
Calculul acestui indicator se bazează pe frecvenţele absolute din
tabelul de corelaţie şi pe valorile variabilei dependente; aşadar nu se poate
calcula decât atunci când variabila dependentă este cantitativă.
Pe baza tabelului de corelaţie se pot scrie repartiţiile condiţionate ale
lui Y în raport cu diferite valori ale lui X.

 y1 y2  y j  yJ 
Y :   ∀i = 1, I
X = xi N i1
 N i 2  N ij  N iJ 

Aceste repartiţii descriu dispunerea unităţilor statistice din fiecare


clasă în raport cu valorile variabilei Y, pentru o valoare fixată a lui X ( xi ).

147
Fundamentarea teoretică a raportului de corelaţie se bazează pe
regula de adunare a dispersiei, conform căreia variaţia unei variabile Y
(măsurată de dispersia totală) se descompune în două componente (dispersia
dintre clase şi dispersia din interiorul claselor), dacă unităţile statistice din
populaţia de studiat sunt repartizate în clase în raport cu valorile variabilelor
factoriale. Conform regulii mai sus amintite, avem:
2
σ Y2 = σ Y2 X + σ Y X

sau
VTOTy = V EXPy + VREZy

unde VTOTy este variaţia totală a variabilei Y cauzată de toţi factorii care o
influenţează, VEXPy măsoară acea parte din variaţia lui Y cauzată doar de
factorul X (în cazul nostru) şi VREZy reprezintă variaţia reziduală a lui Y
cauzată de ceilalţi factori care nu au fost luaţi în considerare (factori
neesenţiali).
Vom nota cu RYX 2
parametrul numit raport de determinaţie definit
ca o mărime direct proporţională cu ponderea variaţiei explicate( VEXPy ) în
variaţia totală ( VTOTy ):

VEXPy VTOTy − VREZy VREZy


2
RYX = = = 1− (1)
VTOTy VTOTy VTOTy

Rădăcina pătrată din raportul de determinaţie se numeşte raport de


corelaţie şi se notează cu RYX .

V REZy VEXPy
RYX = 1 − = (2)
VTOTy VTOTy

Deoarece raportul de determinaţie este cuprins între 0 şi 1, conform


definiţiei, raportul de corelaţie este cuprins între –1 şi 1:

0 ≤ RYX ≤ 1 .

148
Dacă RYX = 0 se obţine că VREZy = VTOTy şi ca urmare întreaga
variaţie a lui Y este pe seama celorlalţi factori în afara lui X. Deci X nu este
un factor de influenţă a lui Y.
Dacă RYX = 1 rezultă că VREZy = 0 , deci o legătură de intensitate
maximă între Y şi X. În acest caz avem o legătură directă între cele două
variabile.
Dacă RYX = −1 , suntem în cazul legăturii de intensitate maximă dar
inversă. Semnul negativ nu rezultă din calcul ci din analiza tabelului de
corelaţie.
În general cu cât RYX este mai aproape de 1 legătura este mai
puternică, iar cu cât RYX este mai aproape de 0, legătura este mai slabă.
Coeficientul de contingenţă (asociere) a lui Pearson
Acest indicator se calculează pe baza frecvenţelor absolute din
tabelul de corelaţie şi se utilizează pentru determinarea gradului de asociere
a două variabile calitative, dar şi a celor cantitative.
Formula de calcul a indicatorului este:

χ2
C= (3)
N + χ2

unde χ 2 este parametrul care analizează existenţa legăturii, iar N este


volumul populaţiei.
Se observă că deoarece 0 ≤ χ 2 ≤ ∞ , obţinem 0 ≤ C < 1 .
Dacă C = 0 atunci χ 2 = 0 deci între Y şi X nu există legătură (cele
două variabile nu se pot asocia).
Dacă C → 1 atunci χ 2 → ∞ deci între Y şi X există o legătură de
intensitate foarte mare (cele două variabile se caracterizează printr-un mare
grad de asociere, de contingenţă).

4. Formularea unei ipoteze cu privire la forma legăturii

În cazul în care între cele două variabile, intensitatea legăturii este


destul de mare, dacă variabilele sunt cantitative, ne va interesa şi forma
legăturii dintre ele.
O ipoteză asupra formei legăturii se fundamentează pe baza norului
statistic care de fapt este imaginea geometrică a tabelului de corelaţie. Pe
acelaşi grafic se reprezintă şi linia poligonală care trece prin punctele de
149
( )
coordonate M i xi , Y xi . În funcţie de forma acestei linii poligonale şi în
funcţie de poziţia punctelor norului statistic faţă de ea (cât de mult se
apropie) se emite o ipoteză cu privire la forma funcţiei de regresie.
Dacă se studiază dependenţa lui Y în raport cu variabilele factoriale
X 1 , X 2 , , X n atunci se construieşte norul statistic pentru fiecare pereche
(Y , X i ) presupunând că factorii X 1 , X 2 , , X n sunt independenţi.
Legătura între variabila Y şi variabilele X 1 , X 2 , , X n este dată de
expresia:

Y = f ( X 1 , X 2 , , X n ) + ε
sau
Y ( X 1 , , X n ) = f ( X 1 , , X n ) (1)

unde f ( X 1 , , X n ) este funcţia de regresie care aproximează cel mai bine


forma legăturii, iar ε este o variabilă aleatoare care însumează efectul
tuturor factorilor nespecificaţi.
În cazul unei singure variabile factoriale, cele mai întâlnite funcţii de
regresie sunt:
− forma liniară Y = Y ( X ) + ε = a + bX + ε ;
− forma parabolică Y = Y ( X ) + ε = a + bX + cX 2 + ε ; (2)

Y = Y (X ) + ε = a + b ⋅ + ε ;
1
− forma hiperbolică
X
− forma exponenţială Y = Y ( X ) + ε = ab + ε .
X

În cazul unei dependenţe liniare cu mai mulţi factori avem:


Y = Y ( X 1 , X 2 , , X n ) + ε = a0 + a1 X 1 +  + a n X n + ε (3)

5. Determinarea parametrilor funcţiei de regresie

Abaterea punctelor reale, rezultate din observare, de la modelul


Y ( X 1 , X 2 , , X n ) se datorează influenţei altor factori decât X 1 , X 2 , , X n
asupra lui Y. Pentru un singur factor X situaţia se reproduce grafic astfel:

150
cu ε = Y − Y ( X ) .
Determinarea funcţiei de regresie se face pe baza condiţiei ca media
pătratelor abaterilor valorilor observate şi înregistrate pentru Y la fiecare
unitate a populaţiei de la nivelul calculat prin modelul Y ( X 1 , X 2 , , X n ) să
fie minimă, adică:

[ ] ( )
M Y − Y ( X 1 , X 2 , , X n ) = M ε 2 - minimă
2
(1)

Metoda folosită se numeşte „metoda celor mai mici pătrate”.


Determinarea efectivă a modelului matematic presupune determinarea
parametrilor funcţiei de regresie f ( X 1 , X 2 , , X n ) = Y ( X 1 , , X n ) .
( )
Expresia M ε 2 măsoară împrăştierea variabilei Y faţă de model, provocată
de factorii nespecificaţi şi numită variaţie reziduală.
Vom considera mai întâi cazul legăturii liniare:

Y ( X 1 , X 2 , , X n ) = a0 + a1 X 1 +  + a n X n (2)

şi vom determina parametrii ai , i = 0 , n din condiţia celor mai mici pătrate:


( )
M ε 2 minimă.
Parametrii modelului, ai , i = 0 , n vor rezulta aşadar din minimizarea
funcţiei G (a0 , a1 , , a n ) = M [Y − (a0 + a1 X 1 +  + a n X n )] , adică din
2

condiţia:

 ∂G (a0 , a1 , , a n )
 = −2 M [Y − (a0 + a1 X 1 +  + a n X n )] = 0
 ∂a0 (3)

 ∂G (a0 , a1 , , a n ) = −2 M [Y − (a0 + a1 X 1 +  + a n X n )] ⋅ X j = 0 ∀j = 1, n
 ∂a j

151
Sistemul de condiţii (3) conduce la sistemul de ecuaţii liniare:

a0 + a1 M ( X 1 ) +  + a n M ( X n ) = M (Y )

a0 M (X j ) + a1 M (X 1 ⋅ X j ) +  + a n M (X n ⋅ X j ) = M (Y ⋅ X j ) ∀j = 1, n

care duce la determinarea parametrilor necunoscuţi ai , i = 0 , n , în felul


acesta, legătura statistică dintre Y şi X 1 , X 2 , , X n fiind modelată prin
aproximare cu legătura funcţională
Y ( X 1 , X 2 , , X n ) = a0 + a1 X 1 +  + a n X n .
În cazul a două variabile factoriale, ecuaţia de regresie este:

Y ( X 1 , X 2 ) = a 0 + a1 X 1 + a 2 X 2 (4)

iar sistemul de ecuaţii liniare devine:

a0 + a1 M ( X 1 ) + a 2 M ( X 2 ) = M (Y )

( )
a0 M ( X 1 ) + a1 M X 1 + a 2 M ( X 1 ⋅ X 2 ) = M (Y ⋅ X 1 )
2
(5)

( )
a0 M ( X 2 ) + a1 M ( X 1 ⋅ X 2 ) + a 2 M X 2 = M (Y ⋅ X 2 )
2

obţinându-se soluţiile:

 m01 ⋅ m22 − m12 ⋅ m02 m ⋅ m − m12 ⋅ m01


a 1 = m ⋅ m − m 2 a 2 = 11 02
m11 ⋅ m22 − m122
 11 22 12 (6)

a = M (Y ) − M ( X ) ⋅ m01 ⋅ m22 − m12 ⋅ m02 − M ( X ) ⋅ m11 ⋅ m02 − m12 ⋅ m01
 0 1
m11 ⋅ m22 − m122
2
m11 ⋅ m22 − m122
unde s-a făcut notaţia mij pentru covariaţia a două variabile X i şi X j :

[ ]
mij = M ([X i − M ( X i )] ⋅ X j − M (X j ) ) = M (X i ⋅ X j ) − M ( X i ) ⋅ M (X j ) (7)

Să observăm că dacă notez cu:

 m00 m01 m02 


(3 )  
M =  m10 m11 m12 
m m22 
 20 m21

152
matricea de variaţie şi covariaţie şi cu M 0(3j) , j = 0 ,1,2 , complementul
algebric al elementului m0 j , ecuaţia de regresie se scrie astfel:

(
M 00(3 ) ⋅ Y ( X 1 ⋅ X 2 ) − M (Y ) ) + M (01
3)
)
⋅( X 1 − M ( X 1 )) + M 02(3 ) ⋅ ( X 2 − M ( X 2 )) = 0 (8)

Să observăm că pe diagonala principală a matricei avem varianţele


m00 = σ Y2 , m11 = σ X2 1 , m22 = σ X2 2 , iar în rest covarianţele mij .
Pentru cazul general, pornind de la matricea varianţelor şi
covarianţelor:
 m00 m01 m02  m0 n 
 
 m m m  m 1n 
M (n +1) =  10 11 12

    
 
m  
 n0 m n1 m n2 m nn 

se poate arăta că ecuaţia de regresie are forma:

( n +1)
M 00 (
⋅ Y ( X 1 , X 2 ,  , X n ) − M (Y ) + ) (9)
( n +1)
+ M 01 ⋅ ( X 1 − M ( X 1 )) +  + M 0(nn+1) ⋅ ( X n − M ( X n )) = 0

În cazul regresiei liniare simple, matricea de variaţie şi covariaţie


este:
m m01 
M (2 ) =  00 
 m10 m11 

iar ecuaţia de regresie devine:

( )
m11 Y ( X ) − M (Y ) − m10 ( X 1 − M ( X 1 )) = 0 (10)

Sistemul (5) se scrie acum:

a0 + a1 M ( X 1 ) = M (Y )

( )
(11)
a 0 M ( X 1 ) + a 1 M X 1 = M ( X 1 ⋅ Y )
2

de unde rezultă

153
 m10
a0 = M (Y ) − m ⋅ M ( X 1 )
 11
 (12)
a = m10
 1 m11

cu
[( )( )]
m10 = m01 = cov( X 1 ,Y ) = M X 1 − X 1 ⋅ Y − Y = M ( X 1 ⋅ Y ) − M ( X 1 ) ⋅ M (Y )
m11 = cov( X 1 , X 1 ) = σ .
2
X1

Legăturile dintre fenomenele economice nu se traduc întotdeauna


prin forma liniară. Dacă de exemplu Y prezintă recolta la hectar, iar X este
cantitatea de îngrăşăminte este verificat în practică faptul că nu orice
creştere a cantităţii de îngrăşăminte provoacă o creştere a recoltei. O
cantitate prea mare de îngrăşăminte devine nocivă şi provoacă scăderea
recoltei. Legătura dintre cele două variabile se traduce matematic prin
funcţia de gradul al doilea al cărei grafic este o parabolă. Acelaşi tip de
legătură îl regăsim şi între productivitatea în muncă şi vechimea în muncă.
Determinarea parametrilor ecuaţiei de regresie poate avea loc în
acest caz, fie direct prin minimizarea variaţiei reziduale, fie prin reducere la
cazul liniar, prezentat anterior.
Modelul parabolic se bazează pe ecuaţia:

Y ( X 1 ) = a0 + a1 X 1 + a 2 X 12 (13)

Pentru reducere la cazul liniar vom face substituţia:

X 2 = X 12 (14)

şi vom obţine:

Y ( X 1 , X 2 ) = a0 + a1 X 1 + a 2 X 2

legătură liniară multiplă.

154
Singurele deosebiri faţă de modelul liniar vor fi:
) ( ( )
m20 = M (Y ⋅ X 2 ) − M (Y ) ⋅ M ( X 2 ) = M Y ⋅ X 12 − M (Y ) ⋅ M X 12 = m02
m12 = M ( X ⋅ X ) − M ( X ) ⋅ M ( X ) = M (X ) − M ( X ) ⋅ M (X ) = m
1 2 1 2
3
1 1
2
1 21

= M (X ) − [M ( X )] = M (X ) − [M (X )]
2 2 4 2 2
m22 2 2 1 1

S-a redus astfel problema regresiei parabolice la o problemă de


regresie liniară.
În cazul modelului exponenţial de regresie:

Y (X ) = a ⋅ b X (15)

se aplică logaritmul zecimal


lg Y ( X ) = lg a + X lg b

şi se fac substituţiile

Z ( X ) = lg Y ( X )
(16)
a0 = lg a a1 = lg b

rezultând modelul liniar simplu:

Z ( X ) = a0 + a1 X

Pentru ecuaţia de regresie hiperbolică

Y (X ) = a + b ⋅
1
(17)
X
vom face substituţia

1
X1 =
X
de unde rezultă modelul liniar

Y ( X 1 ) = a + bX 1

155
6. Analiza reprezentativităţii modelului statistic

Pentru a stabili dacă modelul ales este reprezentativ, adică dacă


reprezintă fidel legătura, se calculează parametrul numit coeficient de
corelaţie. Corespunzător tipului de regresie vom avea coeficient de corelaţie
liniar simplu, multiplu, parabolic, exponenţial, hiperbolic, etc.
Având în vedere relaţiile:

VEXPy VREZy
r01 = = 1−
VTOTy VTOTy

(
VTOTy = σ Y2 = σ 02 = M Y − Y )2

VREZy = σ 012 = M [Y − (a0 + a1 X )] = M ε 2


2
( )
se obţine în cazul dreptei de regresie

σ 012
r01 = 1 − (1)
σ 02
Coeficientul de corelaţie liniar simplu se poate exprima numai în
funcţie de elementele matricei de variaţie şi covariaţie, căci are loc:

m10 m10
a0 = M (Y ) − ⋅ M (X ) a1 =
m11 m11

Se obţine aşadar expresia:

M (2 )
r01 = 1 − (2)
m00 ⋅ M 00(2 )

unde M (2 ) este determinantul matricei varianţelor şi covarianţelor de


ordinul 2, M (2 ) = m00 ⋅ m11 − m102 , iar M 00(2 ) este complementul algebric al
elementului m00 în matricea M (2 ) , M 00(2 ) = (− 1)
1+1
⋅ m11 .
Aşadar r01 se poate scrie intr-o formă în care nu depinde de
parametrii de regresie a0 şi a1 , ci numai de valorile din tabelul de corelaţie

156
m00 ⋅ m11 − m102
r01 = 1 − (3)
m00 ⋅ m11

Acest fapt permite să analizăm reprezentativitatea modelului


(dreapta) înainte de a-i determina parametrii. Abia apoi dacă-l vom
considera reprezentativ vom trece la determinarea parametrilor, altfel ne
întoarcem la etapa de formulare a unei ipoteze cu privire la forma legăturii
şi propunem un alt model.
Din definiţia (1) este evident că pentru r01 = 0 vom avea
VREZy = VTOTy , deci punctele norului statistic sunt foarte dispersate faţă de
dreapta de regresie, iar pentru r01 = 1 rezultă VREZy = 0 , aşadar modelul este
foarte reprezentativ. În general avem 0 ≤ r01 ≤ 1 .
În cazul regresiei liniare multiple, reprezentativitatea modelului este
caracterizată de coeficientul de corelaţie multiplă:

σ 012 n
r01n = 1 − (4)
σ 02

cu σ 012 n = M [Y − (a0 + a1 X 1 +  + a n X n )]
2

sau după înlocuirea parametrilor

M ( n +1 )
r01n = 1 − (5)
m00 ⋅ M 00(n +1)

În cazul neliniar coeficientul de corelaţie este dat de (4) şi depinde


de parametrii funcţiei de regresie.

7. Aplicaţie

Pentru un produs alimentar, la nivelul unei populaţii date, s-a


efectuat o observare statistică în raport cu cererea, veniturile populaţiei şi
preţurile la care produsul în cauză se cumpără. Rezultatul observării s-a
concretizat în următorul tabel ([6]):

157
Nr. crt. Cerere Venit Preţ Nr. crt. Cerere Venit Preţ
1. 50 500 2,7 28 100 1000 2,1
2. 70 600 2,5 29 40 350 2,7
3. 80 700 2,4 30 50 650 2,5
4. 100 900 2,2 31. 70 800 2,3
5. 100 1000 2,1 32. 100 900 2,2
6. 120 1200 2,0 33. 40 350 2,6
7. 100 1100 2,1 34. 70 800 2,4
8. 30 300 2,7 35. 100 900 2,3
9. 40 350 2,6 36. 40 700 2,5
10. 50 400 2,5 37. 50 400 2,5
11. 30 450 2,7 38. 70 850 2,4
12. 40 500 2,6 39. 100 900 2,0
13. 70 600 2,4 40. 40 500 2,4
14. 70 700 2,4 41. 50 1000 2,5
15. 100 750 2,2 42. 70 700 2,4
16. 110 1000 2,0 43. 100 600 2,1
17. 80 950 2,3 44. 70 650 2,4
18. 60 800 2,5 45. 50 950 2,6
19. 100 900 2,1 46. 60 1100 2,7
20. 50 750 2,6 47. 105 1000 2,1
21. 60 600 2,5 48. 95 800 2,2
22. 75 700 2,4 49. 85 600 2,2
23. 45 400 2,7 50. 90 700 2,3
24. 60 500 2,6 51. 100 900 2,1
25. 45 600 2,5 52. 115 1000 2,0
26. 50 650 2,6 53. 100 950 2,1
27. 70 700 2,4

Se cere:
1. Precizaţi variabila dependentă şi variabilele independente şi alcătuiţi
tabelul de corelaţie pentru fiecare cuplu (variabilă dependentă, variabilă
independentă).
2. Analizaţi intensitatea legăturii pentru fiecare cuplu de variabile găsit la
punctul precedent.
3. Să se găsească parametrii modelului dintre cele trei variabile de natură
economică.
Rezolvare:
1. Variabila Cerere (C) este variabila dependentă, iar variabilele
Venit (V) şi Preţ (P) reprezintă variabilele independente.

158
Tabelul de corelaţie dintre cerere şi venit este:

Venit
300-500 500-700 700-900 900-1100 1100-1300 Total
Cerere
110-130 2 1 3
90-110 1 3 10 1 15
70-90 4 8 1 13
50-70 2 5 2 2 1 12
30-50 6 3 1 10
Total 8 13 14 15 3 53

Tabelul de corelaţie dintre cerere şi preţ este:

Preţ
2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 Total
Cerere
110-130 3 3
90-110 1 8 4 2 15
70-90 1 2 9 1 13
50-70 6 4 2 12
30-50 1 2 3 4 10
Total 4 8 5 4 10 9 7 6 53

2. Observând tabelul de corelaţie dintre cerere şi venit se poate


observa o legătură directă între acestea şi de intensitate suficient de mare,
având în vedere dispunerea frecvenţelor după prima diagonală şi încadrarea
acestora într-o bandă în care frecvenţele cele mai mari se dispun aproape în
centrul benzii.
În vederea determinării intensităţii legăturii dintre cerere şi venit,
plecând de la tabelul de corelaţie corespunzător, se calculează raportul de
corelaţie. În acest sens aplicăm formula de calcul raportului de corelaţie:
σ 012
R01 = 1 −
σ 02
unde:
n

∑σ 2
C v = vi ⋅ Ni .
σ 2
01 = i =1
n

∑ (N . − 1)
i =1
i

159
∑ (C )
n
2
i − C ⋅ N .i
σ 02 = i =1
n

∑ N.
i =1
i

( )
m
1
⋅ ∑ C j − C v = vi
2
σ C2 V =V = ⋅ N ij
i
N i . − 1 j =1
iar C reprezintă cererea medie, C v = vi reprezintă cererea medie atunci
când venitul ia valoarea Vi .
Pornind de la tabelul de corelaţie dintre cerere si venit, înlocuind
corespunzător în relaţiile de mai sus şi făcând calculele necesare se obţine:

σ 012 = 338,14; σ 02 = 590,13; R01 = 0,65

ceea ce înseamnă o legătură suficient de intensă între cele două variabile la


nivelul populaţiei în cauză.
În mod analog, plecând de la tabelul de corelaţie dintre cerere şi preţ,
aplicând aceleaşi relaţii de mai sus unde venitul (V) se substituie cu preţul
(P) se obţine:

σ 022 = 118,19; R02 = −0,89

ceea ce anticipează o legătură inversă între cerere şi preţ, dar suficient de


intensă, lucru care se poate constata şi din modul de dispunere a frecvenţelor
în cadrul tabelului de corelaţie.
3. Pe baza rezultatelor obţinute la cele două puncte precedente se
poate anticipa o legătură liniară între cele trei variabile de forma:

C (V , P ) = a0 + a1 ⋅ V + a 2 ⋅ P

În vederea calculării celor trei parametrii ai modelului liniar se va


calcula iniţial matricea de variaţie şi covariaţie dintre cele trei variabile:

 m00 m01 m2   590,13 3949,43 − 5,05 


(3 )    
M =  m10 m11 m12  =  3949,43 54455,73 − 36,3 
m m22   − 5,05 − 36,3 0,048 
 20 m21

160
unde:
mij = M (X i ⋅ X j ) − M ( X i ) ⋅ M (X j )
Coeficienţii de regresie se obţin pornind de la ecuaţia de regresie de
forma:

( )
M 00(3 ) ⋅ C (V , P ) − M (C ) + M 01(3 ) ⋅ (V − M (V )) + M 02(3 ) ⋅ (P − M (P )) = 0

Aducând-o la forma normală, rezultă:

a 0 = 313,71; a1 = 0,005; a 2 = −101,5 .


C (V , P ) = 313,71 + 0,005 ⋅ V − 101,5 ⋅ P

8.Test de autoevaluare IV

8.1.Enunţ

1.Relativ la datele din problema 3, test III,capitolul III – realizaţi analiza


statistică a intensităţii legăturii dintre salariul unui angajat şi numărul de
proiecte în care acesta este implicat şi trageţi o concluzie.
2. În scopul stabilirii preţului pentru un nou tip de detergent, firma
producătoare cere un sondaj de opinie pe un eşantion de 200 persoane,
cercetate în raport cu preţul pe care ar fi dispuse să-l plătească pentru noul
produs. Cele 200 de persoane se observă de asemenea şi în raport cu salariul
lunar X .Rezultatele observării au fost următoarele :

X [0-2) [2-4) [4-6) Total


Y
[40-50) 11 4 15
[30-40) 1 158 1 160
[20-30) 14 11 25
Total 15 180 5 200

X – în u.m., Y – în u.m.

Se cere:
a) Analizaţi dacă între cele două variabile există o anumită legatură
b) Realizaţi analiza statistică a intensităţii legăturii (dacă e cazul)

161
c) Formulaţi o ipoteză cu privire la forma matematică a legăturii
dintre cele două variabile , în cazul în care această legatură este
semnificativă
d) Determinaţi parametrii modelului de regresie propus la punctul
anterior
e) Realizaţi analiza statistică a reprezentativităţii modelului
regresional ales
f) Precizaţi , folosind modelul regresional ales , care este preţul
mediu pe care ar fi dispus să-l platească un client cu un salar de 8 u.m..
3.Realizaţi analiza statistică a legăturii dintre numărul de staţiuni turistice
vizitate de o persoană pe parcursul unui an şi mediul din care această
persoană provine , folosindu-vă de următorul tabel de corelaţie alcătuit pe
baza răspunsului a 50 de persoane (X-mediul , Y-numărul de staţiuni
turistice frecventate / an) . Cele 50 de persoane au fost astfel alese încât să
aibă aceeaşi situaţie materială .

X Rural Urban Total


Y
3 3 3
2 6 6
1 5 21 26
0 10 5 15
Total 15 35 50

8.2. Rezolvare

Problema 1

X
Y 0 1 2 3 Total
[14,5-18,5) 2 4 2 8
[10,5-14,5) 2 30 10 2 44
[6,5-10,5) 3 20 6 1 30
[2,5-6,5) 10 8 18
Total 15 60 20 5 100

În vederea stabilirii intensităţii legăturii (şi implicit a existenţei acesteia ) se


calculează raportul de corelaţie

162
∈ [0,1] .
VEXP
r01 =
VTOT

Vom spune că legătura este cu atât mai intensă cu cât r 01 se apropie de 1.


În rezolvarea problemei 3 din testul III pe aceleaşi date s-au obţinut
rezultatele V EXP =3,41, V TOT =12,21.
3,41
Aşadar r01 = ≅ 0,52 .
12,21
Putem spune că legătura dintre cele două variabile este relativ
intensă (la jumătatea intervalului (0,1)). Pentru ca legătura să merite a fi
studiată amănunţit, trebuie ca intensitatea să fie destul de mare, adică r 01 să
fie aproape de 1.

Problema 2

X
Y [0-2) [2-4) [4-6) Total
[40-50) 11 4 15
[30-40) 1 158 1 160
[20-30) 14 11 25
Total 15 180 5 200

a) Analiza statistică a existenţei legăturii:


Se calculează parametrul

χ = ∑∑
2
(N ij − N ij' )
2

,
j i N ij'
unde
N i• ⋅ N • j
N ij' = , N ij este frecvenţa căsuţei aflate la intersecţia liniei i cu
N
coloana j iar N ij' este frecvenţa ideală corespunzătoare acestei căsuţe în
cazul când variabilele ar fi independente.
15 ⋅15
De exemplu N 11 =0 şi N 11' = , unde 0 este numărul de persoane
200
cu salariul în [0-2) şi care oferă un preţ în [40-50), 15 este totalul primei
coloane, adică persoanele cu un salar în [0-2) iar celălalt 15 este totalul
primei linii adică persoanele care oferă un preţ de[40-50].

163
Dacă χ 2 = 0 , adică N ij = N ij' , atunci variabilele ar fi independente.

2 2 2
 15 ⋅ 15   180 ⋅ 15   5 ⋅ 15 
0 −  11 −  4 − 
 200   200   200 
χ =
2
+ + +
15 ⋅ 15 180 ⋅ 15 5 ⋅ 15
200 200 200
2 2 2
 15 ⋅ 160   180 ⋅ 160   5 ⋅ 160 
1 −  158 −  1 − 
 200   200   200 
+ + + +
15 ⋅ 160 180 ⋅ 160 5 ⋅ 160
200 200 200
2 2
180 ⋅ 25  5 ⋅ 25 
2
 15 ⋅ 25   
14 −  11 −  0 − 
 200   200   200 
+ + + ≅ 135,21
15 ⋅ 25 180 ⋅ 25 5 ⋅ 25
200 200 200

Deoarece χ 2 = 135,21 ≠ 0 , variabilele nu sunt independente adică


legătura există.

b) Analiza intensităţii legăturii:


Această etapă se parcurge numai când la prima etapă am găsit un
răspuns pozitiv. Totuşi se poate utiliza de la început pentru că oferă
informaţii asupra existenţei legăturii.
VEXP
r01 =
VTOT
Calculul lui V TOT :

25 ⋅ 25 + 35 ⋅ 160 + 45 ⋅ 15
Y= = 34,5
200

VTOT = σ Y2 =
(25 − 34,5)2 ⋅ 25 + (35 − 34,5)2 ⋅ 160 + (45 − 34,5)2 ⋅ 15 = 19,75
200

Calculul lui V EXP :

25 ⋅ 14 + 35 ⋅ 1
Y / X ∈[0, 2 ) = = 25,66
15
164
25 ⋅ 11 + 35 ⋅ 158 + 45 ⋅ 11
Y / X ∈[2, 4 ) = = 35
180

35 ⋅ 1 + 45 ⋅ 4
Y / X ∈[4, 6 ) = = 43
5

VEXP = σ Y2 / X =
(25,66 − 34,5)2 ⋅ 15 + (35 − 34,5)2 ⋅ 180 + (43 − 34,5)2 ⋅ 5 ≅ 7,89
200

7,89
≅ 0,63 r01 =
19,75
Deoarece r01 > 0,5 , apropiindu-se de 1, putem spune că legătura este de
intensitate relativ mare.
c) Formularea unei ipoteze cu privire la forma legăturii:
În acelaşi sistem de axe se desenează norul statistic şi curba empirică de
regresie, ambele sugerând forma legăturii. Deoarece la modulul de
probleme rezolvate s-a explicat modul de realizare a norului statistic, vom
face aici numai curba empirică de regresie care va trece prin punctele de
coordonate (1;25,66), (3;35) şi (5;43) unde 1,3 şi 5 sunt mijloacele
intervalelor de valori ale variabilei X iar 25,66; 35 şi 43 sunt mediile lui Y
condiţionate de clasele lui X.

Curba empirică de regresie


mediile lui Y condiţionate de

50
45
43
40
35 35
30
25 25.66
X

20
15
10
5
0
1 2 3
X

165
Având în vedere forma curbei empirice de regresie vom presupune că e
vorba de o dreaptă, adică Y ( X ) = a + bX sau Y ( X ) = a + bX + ε căci
Y (X ) = Y (X ) + ε .

d) Determinarea parametrilor funcţiei de regresie:


Vom folosi formulele:

 m10
a = M (Y ) − M ( X ) ⋅ m

11
m10
 b=
 m11

unde m11 = σ X2 , m10 = cov( X , Y ) = M ( XY ) − M ( X ) ⋅ M (Y )


1 ⋅ 15 + 3 ⋅ 180 + 5 ⋅ 5
M (X ) = X = = 2,9
200

m11 = σ X =
2 (1 − 2,9) ⋅ 15 + (3 − 2,9) ⋅ 180 + (5 − 2,9) ⋅ 5
2 2 2
= 0,39
200

M ( XY ) =
1
[1 ⋅ 25 ⋅ 14 + 1 ⋅ 35 ⋅ 1 + 3 ⋅ 25 ⋅ 11 + 3 ⋅ 35 ⋅ 158 + 3 ⋅ 45 ⋅ 11 + 5 ⋅ 35 ⋅ 1 + 5 ⋅ 45 ⋅ 4] = 101,8 
200

m10 = 101,8 − 2,9 ⋅ 34,5 = 1,75 

1,75
b= ≅ 4,48 
0,39
a = 34,5 − 2,9 ⋅ 4,48 ≅ 21,5 
Aşadar forma matematică a legăturii între cele două variabile este dată de
ecuaţia
Y ( X ) = 21,5 + 4,48 X sau Y ( X ) = 21,5 + 4,48 X + ε , numită şi ecuaţie de
regresie.

e) Analiza statistică a reprezentativităţii dreptei de regresie:


Se calculează coeficientul de corelaţie liniară.

det M
R01 = 1 −
m00 ⋅ m11

166
unde
m m01 
M =  00 
 m10 m11 

este matricea varianţelor şi covarianţelor

m00 = σ Y2 , m11 = σ X2 , m01 = m10 = cov( X , Y )


det M = m00 m11 − m01 m10 .

Cu cât R 01 se apropie mai mult de 1, cu atât modelul ales este mai


reprezentativ. În general
R01 ∈ [0,1] .

19,75 ⋅ 0,39 − 1,75 2


R01 = 1 − ≅ 0,63 .
19,75 ⋅ 0,39

În cazul acesta putem spune că modelul ales este destul de reprezentativ


(0,63>0,5).

f) Y (8) = 21,5 + 4,48 ⋅ 8 = 57,34

În medie, un client care are un salariu de 8 u.m. este dispus să ofere un


preţ de 57,34 u.m..

Problema 3

X
RURAL URBAN TOTAL
Y
3 3 3
2 6 6
1 5 21 26
0 10 5 15
TOTAL 15 35 50

167
Analiza existenţei legăturii:
2 2 2 2
 15 ⋅ 3   35 ⋅ 3   15 ⋅ 6   35 ⋅ 6 
0 −  3 −  0 −  6 − 
 50   50   50   50 
χ =
2
+ + + +
15 ⋅ 3 35 ⋅ 3 15 ⋅ 6 35 ⋅ 6
50 50 50 50
2 2 2
15 ⋅ 15  35 ⋅ 15 
2
 15 ⋅ 26   35 ⋅ 26   
5 −   21 −  10 −  5 − 
50  50 
+
50 
+
50 
+ + = 14,88
15 ⋅ 26 35 ⋅ 26 15 ⋅ 15 35 ⋅ 15
50 50 50 50

Deoarece χ 2 ≠ 0 rezultă că între variabile există legătură.


Analiza intensităţii legăturii:
Deoarece variabila Y este cantitativă, se poate calcula r 01 . Prezentăm
aici însă un alt parametru şi anume coeficientul de contingenţă a lui
Pearson care se poate aplica şi atunci când de exemplu variabila Y ar fi
calitativă (X nu contează) şi nu se mai pretează utilizarea lui r 01 :

χ2
c= ∈ [0,1]
χ2 + N
14,88
c= ≅ 0,47 .
14,88 + 50

Interpretarea se face ca şi la r 01 deci putem spune că legătura este de


intensitate destul de slabă (0,47<0,5).
Observaţie.
Analiza statistică a legăturii între variabile se opreşte aici deoarece una
dintre variabile (X) fiind calitativă, nu mai putem vorbi despre o legătură
tradusă matematic.

168
BIBLIOGRAFIE

1. Andrei T., Stancu S., Statistică. Teorie şi aplicaţii, Ed. All,


Bucuresti,1995
2. Anghelache C., Bugudui E., Gresoi S., Niculescu E., Statistică
aplicată, Indicatori, sinteze, studii de caz, Ed. Economica, Bucureşti,
2006
3. Antonescu C., Isaic-Maniu A., Statistică economică generală,
Ed.XXX, Bucureşti 1993
4. Baron T., Biji E., Statistică teoretică şi economică, Ed. Didactică şi
pedagogică, Bucureşti, 1996
5. Breaz N., Statistică descriptivă - Teorie şi aplicaţii, Seria Didactică
a Univ. “1 Decembrie 1918” Alba Iulia, 2003
6. Florea I., Parpucea I., Buiga A., Statistică descriptivă - teorie şi
aplicaţii, Ed. Continental - Aisteda, Alba Iulia, 1998
7. Keller G., Warrack B., Bartel H., Statistics for management and
economics, Wadsworth Publishing Company 1988
8. Korka M., Begu L.S., Tuşa E., Bazele statisticii pentru economişti,
Ed. Tribuna Economică, Bucureşti 2002
9. Korka M., Begu L.S., Tuşa E., Manole C., Bazele statisticii pentru
economişti-Aplicaţii, Ed. Tribuna Economică, Bucureşti 2002
10. Maurice E., Dictionaire de statistique, Edition Dunod, Paris 1968
11. Petcu N., Statistică în turism-Teorie şi aplicaţii, Ed. Albastră, Cluj
Napoca, 2000
12. Titan E., Ghiţa S., Trandaş C., Statistică aplicată, Ed. Meteor Press,
Bucureşti, 2004
13. Tovissi L., Andrei T., Spircu L., Analiza seriilor de timp şi procese
dinamice, Ed. All, Bucureşti 1995
14. Trebici V., Mica enciclopedie de statistică, Ed. Ştiinţifică şi
Enciclopedică, Bucureşti, 1985
15. Voineagu V., Lilea E., Goschin Z., Vatui M., Boldeanu D., Statistică
economică, Teorie şi aplicaţii, Ed. Tribuna Economică, Bucureşti,
2002

169

S-ar putea să vă placă și