Documente Academic
Documente Profesional
Documente Cultură
Parametrii de structură
Frecvente sunt cazurile când este necesară studierea structurii unei populaţii în raport cu o
variabilă sau alta. Parametrii statistici, în forma cea mai generală, folosiţi în caracterizarea
structurii unei populaţii poartă denumirea de valori quantile (în unele materiale în limba
română se folosește și scrierea valori cuantile). Valorile quantile ale unei serii de repartiţie
unidimensionale sunt acele mărimi înregistrate de variabila X, care împart seria în n părţi
egale (mai precis împart populaţia sau eșantionul în n părţi egale). În acest caz se vor calcula
n-1 quantile.
Pentru o serie oarecare, quantila de ordinul p poate fi definită astfel:
FN q p p
1 N
sau N (q p ) p , p 1, n - 1 (3.33)
n n
unde: p – arată a câtea quantilă este calculată, n – arată numărul de părţi în care este împărţită
populaţia, N – volumul populaţiei. A se nota că întreaga discuție se poate aplica și unui
eșantion dintr-o populație pentru că formulele necesare calculului valorilor quantile sunt
aceleași, fie că e vorba de populație sau eșantion.
Modul de calcul a valorilor quantile diferă în raport cu tipul seriei. Fie o serie de
repartiţie, care are la bază o variabilă X discretă, de următoarea formă:
x x2 ... xi ... x R
X : 1
N1 N 2 ... N i ... N R
b) dacă p·N nu se divide cu n atunci quantila de ordin p este egală cu acea valoare a variabilei
X corespunzătoare părţii întregi a rangului majorat cu 1:
q p x[ rq 1]
(3.36)
p
Calculul quantilei pentru o listă de observații poate să apară aici ca și caz particular,
ordonând crescător valorile variabilei (incluzând toate repetițiile) și numărând până la
valoarea celei de rang rq p 1 .
În cazul seriilor care au la bază o variabilă continuă, se determină intervalele cărora
aparțin quantilele:
x x1 x1 x2 ... xi 1 xi ... x R 1 x R
X : 0
N1 N2 ... Ni ... N R
X Me M e xmax
X : min
50% 50%
semnificând faptul că jumătate din populaţia supusă studiului a înregistrat pentru variabila X
valori cuprinse între valoarea minimă a lui X şi mediană, iar cealaltă jumătate din populaţie a
înregistrat pentru X valori cuprinse între mediană şi valoarea maximă a lui X. Formula de
calcul a Me se poate găsi ca un caz particular, n=2, a relaţiilor (3.35) și (3.36).
Valorile quartile (în unele materiale în limba română se folosește și scrierea valori
cuartile) reprezintă acel caz particular al valorilor quantile pentru care n=4. Cele trei quartile,
care se obţin, notate: Q1, Q2 şi Q3 sunt acei parametri de structură care împart populaţia în
patru părţi egale.1 Cunoscându-se cele trei quartile, rezultă următoarea structură a populaţiei
în raport cu variabila X:
x Q1 Q1 Q2 Q2 Q3 Q3 X max
X : min
25% 25% 25% 25%
1
Quartila întâi Q1, se numeşte quartila mică (inferioară), quartila a doua Q2 coincide cu mediana şi se numeşte
quartila mijlocie, iar quartila a treia Q3 se numeşte quartila mare (superioară).
Aceasta înseamnă că 25% din unităţile popupaţiei înregistrează valori pentru variabila X mai
mici decât quartila mică, 25% din unităţile populaţiei înregistrează valori, în raport cu aceeaşi
variabilă X, cuprinse între quartila mică şi cea mijlocie, 25% vor avea valori cuprinse între
quartila mijlocie şi quartila mare, iar restul 25% din unităţile populaţiei vor avea valorile
pentru variabila X cuprinse între quartila mare şi valoarea maximă a lui X.
Relaţiile de calcul pentru quartile sunt cazuri particulare ale relaţiilor de calcul pentru
quantilele de ordin p( p 1, n 1) . Etapele sunt aceleaşi, presupunându-se mai întâi calculul
rangurilor celor 3 quartile, apoi determinarea efectivă a acestora. Valorile efective pentru cele
3 quartile se determină în mod diferit, după cum seria este discretă sau continuă. În continuare
se va detalia modul de calcul al quartilelor, separat pentru fiecare tip de serie în parte. Pentru
cazul seriilor discrete calculul rangurilor pentru cele trei quartile se face conform formulelor:
1 R 1 R 1 R 1 R 1 R
rQ1 1 N i N i ; rQ2 2 N i N i ; rQ3 3 N i
4 i 1 4 i 1 4 i 1 2 i 1 4 i 1
(3.37)
R
Dacă p N i , ( p 1,3) , se divide cu 4 atunci relaţia de calcul pentru quartila p este:
i 1
Calculul quartilelor pentru o listă de observații apare ca și caz particular al formulelor (3.38)
și/sau (3.39) în aceeași manieră ca și cea descrisă pentru cazul general de quantile.
Exemplu
Reluăm exemplul cu greutatea (în kg) a 10 femei însărcinate: 60, 65, 68, 68, 70, 72,
75, 77, 80, 82. Mediana reprezintă quartila a doua și are valoarea de 71 (vezi exemplul
de la mediană).
1
Pentru calculul quartilei 1 se determină, mai întâi, rangul acesteia, rQ1 1 10 2,5. Având
4
în vedere că 1 10 nu se divide cu 4, quartila 1 va fi: Q1 x[ rQ 1] x2,51 x3 68,
1
Exemplu
Reconsiderăm exemplul privind distribuţia angajaţilor unei societăţi comerciale în
raport cu salariul lunar:
160 200 200 240 240 280 280 320 320 360 360 400
X :
7 13 18 6 4 2
unde variabila X este exprimată în euro.
Pentru a determina intervalul quartilei întâi, vom calcula mai întâi rangul quartilei:
1
rQ1 (7 13 18 6 4 2) 12,5. Adunând primele două frecvențe (7+13=20) obținem
4
un număr mai mare decât rangul medianei, ceea ce înseamnă că ultima frecvență cumulată
(i.e., 13) este frecvența corespunzătoare intervalului quartilei întâi: Q1 aparține intervalului
200-240. După cum am stabilit anterior, quartila doi, adică mediana, aparține intervalului 240-
1
280. Rangul quartilei trei este rQ3 3 (7 13 18 6 4 2) 37,5. Pentru a depăși
4
rangul quartilei trebuie adunate primele trei frecvențe (7+13+18=38), iar ultima frecvență
cumulată (i.e., 18) este frecvența corespunzătoare intervalului 240-280.
Valorile decile constituie acel caz particular al valorilor quantile pentru care n=10.
Valorile decile reprezintă acei indicatori de structură care împart populaţia supusă studiului în
10 părţi egale. Urmând acelaşi procedeu, relaţiile de calcul pentru valorile decile se deduc din
cazul general ca şi pentru cazul medianei şi al quartilelor. Pentru cazul seriilor de repartiţie
discrete în prima fază se calculează rangurile în conformitate cu următoarea formulă de
1 R R
calcul: rD p p N i ; p 1,9 . Dacă valoarea expresiei p N i se divide cu 10,
10 i 1 i 1
2
Graficul specific descris în capitolul 2.
2º Dacă frecvenţele absolute ale unei serii se simplifică (sau amplifică) cu un anumit număr,
valorile quantile nu se modifică. Această proprietate rezultă imediat din relaţiile de calcul
pentru aceşti parametri.
3º Între valorile quantile există următoarea ordine:
q1 q 2 q 3 .... q n 1
3. Parametrii variaţiei
Studiul unor populaţii statistice prezintă importanţă și din punct de vedere al unor mărimi care
variază de la o unitatea la alta sau de la un grup de unităţi la altul. Problema măsurării
variaţiei unei variabile cantitative este importantă pentru a vedea în ce măsură valoarea medie
a acesteia poate reprezenta întrega populaţie. Dacă abaterile de la valoarea medie sunt
neesenţiale atunci se poate afirma că populaţia este omogenă şi că acest parametru poate
reprezenta tendinţa centrală, iar dacă aceste abateri sunt mari atunci populaţia este eterogenă
şi valoarea medie nu are capacitatea de a reprezenta populaţia.
Pentru unele serii, valoarea medie nu se poate calcula. În asemenea cazuri, parametrul
valoarea mediană poate să-i ia locul. Aceeaşi problemă se pune şi în acest caz, de a vedea în
ce măsură valoarea mediană este sau nu reprezentativă pentru populaţia în cauză. O altă
problemă care nu se poate rezolva fără a studia şi măsura variaţia înregistrată de o variabilă în
raport cu care este studiată o populaţie, o constituie verificarea de ipoteze. În activitatea
practică, de multe ori, pornind de la valorile unor parametrii calculaţi pe baza datelor culese
relativ la un număr mic de unităţi, este necesar a fi extinşi la nivelul întregii populaţii sau de a
se verifica anumite ipoteze statistice.
Parametrii variaţiei se pot calcula atât sub formă absolută cât şi relativă, şi măsoară
împrăştierea valorilor unei variabile cantitative faţă de valoarea medie sau valoarea mediană.
Ca urmare, în funcţie de elementul de referinţă folosit în măsurarea variaţiei, deosebim:
- parametrii variaţiei în raport cu valoarea medie;
- parametrii variaţiei în raport cu valoarea mediană.
Din această grupă fac parte: amplitudinea sau variaţia maximă; variaţia maximă şi variaţia
minimă faţă de valoarea medie; abaterea medie liniară; abaterea medie pătratică. În afară de
abaterea medie pătratică, pentru restul parametrilor formulele de calcul pentru eșantion nu
diferă față de formulele de calcul pentru întrega populație.
Exemplu:
Prețul unui produs (în RON) înregistrat pe 15 piețe diferite are următoarele valori: 30,
37, 45, 48, 51, 52, 45, 37, 50, 52, 48, 48, 30,45, 52.
Amplitudinea este în acest caz: Wx= 52-30 = 22 RON.
dx M ( X X ) (3.45)
x
i 1
i X Ni
dx R
(3.46)
N
i 1
i
pentru o serie discretă formată cu frecvenţe relative. Pentru o listă de observații, formula care
se aplică este (3.46), particularizată pentru Ni=1 pentru fiecare observație xi.
Dacă seria are la bază o variabilă continuă atunci pentru abaterea medie liniară se
utilizează următoarele formule:
R
x '
X Ni R
sau d x x 'i X fi
i
dx i 1
R
(3.48)
N
i 1
i
i 1
după cum seria în cauză este formată cu frecvenţe absolute sau relative, unde
x xi
x i' i 1 , i 1, R este mijlocul intervalului “i”.
2
Acest parametru serveşte caracterizării sintetice a gradului de reprezentativitate a
valorii medii, arătând cu cât se abate în medie orice valoare a variabilei X de la valoarea
medie X , într-un sens sau altul. Sub formă relativă, acest indicator poartă denumirea de
coeficient simplu de variaţie şi se calculează conform relaţiei:
dx
Vx 100% (3.49)
X
Coeficientul simplu de variaţie (Vx) arată cu cât se abate în medie orice valoare a variabilei X
de la valoarea medie echivalentă cu 1 sau 100%. Calculat pentru două serii diferite se poate
aprecia gradul de reprezentativitate a celor două medii. Se apreciază mai reprezentativă acea
valoare medie pentru care coeficientul simplu de variaţie este mai mic.
Exemple
a) Revenim la exemplul celor 5 secții de producție ale aceleiași companii care produc
același bun, identic din toate punctele de vedere, la costurile unitare de producție
1100, 1300, 1700, 2300, 1900 (unități monetare pe unitate de produs). Media era de
1660 unități monetare.
560 360 40 640 240
În acest caz d x 368 , adică conform acestui indicator costurile
5
de producție deviază în medie de la medie cu 368 unități monetare. Conform aceluiași
indicator, în termeni procentuali, costurile de producție deviază în medie de la medie cu
368
22,16% , această însemnând că acel cost mediu calculat este reprezentativ (o regulă ce
1660
vine din practică ar fi ca un coeficient de variație să fie mai mic decât 30% ca să avem
omogeneitate a populației în raport cu o variabilă de interes, respectiv reprezentativitatea
mediei pentru distribuția variabilei de interes).
0 1
b) Fie o serie alternativă de forma X : pentru care aplicând relaţia (3.47)
q p
R
se obţine d x xi X f i 0 p q 1 p p pq pq 2 pq .
i 1
Parametrul abaterea medie liniară, în forma absolută sau relativă, prezintă unele
deficienţe deoarece nu este suficient de sensibil la abaterile mici, adăugându-se şi unele
inconveniente de natură teoretică, generate de exprimarea abaterilor în valoarea absolută.
Înlăturarea acestor deficienţe se poate realiza apelând la un nou parametru privind măsurarea
variaţiei, numit abatarea medie pătratică.
x M (X X )2 (3.50)
Valoarea lui ne arată cu cât se abat în medie valorile variabilei în raport cu media. Un
calcul intermediar în aflarea acestui parametru, îl constituie calcularea pătratului abaterii
medii pătratice, care se numeşte dispersie sau varianţă şi are următoarea expresie de calcul:
x2 M ( X X ) 2 V ( X ) (3.51)
V(x) reprezintă o altă notaţie pentru varianţă, pe lângă σ2x . Varianţa fiind un calcul
intermediar în aflarea abaterii medii pătratice, în cele ce urmează se va prezenta modul de
calcul al acesteia. Relaţia de calcul a varianţei (3.98) se particularizează în raport cu tipul
seriei. În cazul unei serii care are la bază o variabilă X discretă, conform definiţiei, varianţa
are expresia:
R
(x i X )2 Ni
x2 i 1
R
(3.52)
N i 1
i
dacă seria este formată cu frecvenţe absolute sau:
R
x2 ( x i X ) 2 f i (3.53)
i 1
dacă seria este formată cu frecvenţe relative. Pentru o listă de observații, formula care se
aplică este (3.52), particularizată pentru Ni=1 pentru fiecare observație xi din listă.
Pentru o serie dată, varianţa calculată nu are interpretare, dar dacă se extrage rădăcina
pătrată din aceasta se obţine un număr care se exprimă în aceleaşi unităţi de măsură ca şi
variabila de la baza seriei. Acest număr (valoare) reprezintă abaterea medie pătratică,
simbolizând cu cât se abate în medie în plus sau minus orice valoare xi a variabilei X de la
valoarea medie X .
Parametrul abaterea medie pătratică se poate exprima şi sub formă relativă, caz în care
se numeşte coeficientul de variaţie a lui Pearson, şi se notează cu Vx (uneori se folosește și
notația CVx). Expresia de calcul este:
x
Vx 100% (3.56)
X
şi arată cu câte procente se abat în medie valorile variabilei faţă de medie. Coeficientul de
variaţie a lui Pearson calculat pentru două sau mai multe serii, poate fi folosit în aprecieri
comparative privind gradul de reprezentativitate a valorii medii calculate. Deoarece gradul de
reprezentativitate a valorii medii este în raport invers cu mărimea coeficientului de variaţie a
lui Pearson, se poate afirma, în cazul mai multor serii, că este mai reprezentativă valoarea
medie a acelei serii pentru care Vx este mai mic. În concluzie, trebuie reţinut că parametrul
abaterea medie pătratică sub formă absolută σx şi sub formă relativă Vx sunt indicatori
fundamentali utilizaţi în măsurarea variaţiei unei variabile.
Atât abaterea medie liniară, cât şi abaterea medie pătratică constituie o măsură a
variaţiei medii, primul o medie de ordinul unu, iar al doilea o medie de ordinul doi (d x x ) .
Deoarece calcularea abaterii medii pătratice şi implicit a varianţei necesită un volum mare de
calcule, prezentarea unor proprietăţi ale varianţei în vederea reducerii volumului de muncă
este inevitabilă.
Exemplu
Reluăm exemplul cu prețurile unui produs înregistrat pe 15 piețe (naționale) diferite:
30, 37, 45, 48, 51, 52, 45, 37, 50, 52, 48, 48, 30, 45, 52.
Pentru a calcula varianța și abaterea medie pătratică, o să prezentăm, mai întâi, seria de
30 37 45 48 50 51 52
repartiție a variabilei preț, și anume X : . În al doilea rând, o să
2 2 3 3 1 1 3
calculăm media variabilei X:
30 2 37 2 45 3 48 3 50 51 52 2 618
X 44,67 (RON)
15 15
Varianța este în acest caz:
(30 44,67) 2 2 (37 44,67) 2 2 (45 44,67) 2 3 (48 44,67) 2 5 (50 44,67) 2
x2
15
(51 44,67) (52 44,67) 2
2 2
54,09 RON 2 .
15
Abaterea medie pătratică este:
4º Varianţa sumei a două variabile X şi Y este egală cu suma varianţelor acestor variabile,
dacă cele două variabile sunt independente. Varianţa diferenţei dintre două variabile
independente este egală cu suma varianţelor acelor variabile:
V X Y V X V Y , V X Y V X V Y (3.60)
6º Varianţa sumei a două variabile dependente este egală cu suma varianţelor celor două
variabile plus covarianţa dintre cele două variabile:
V X Y V X V Y 2M X X Y Y (3.61)
Exemplu
Următorul exemplu constituie un model de calcul al varianţei şi abaterii medii
pătratice utilizând definiţia. În acest sens se consideră distribuţia agenţilor economici
care au realizat profit la sfârşitul anului trecut. Se consideră populaţia agenţilor
economici în cauză care îşi desfăşoară activitatea într-o anumită zonă geografică. Seria
de repartiţie a celor 1160 de agenţi economici, care au realizat profit este:
x
5
2
'
i X Ni
X2 i 1
5
N i 1
i
25 1222 17 75 1222 25 125 1222 35
116
(175 122) .26 (225 122) 2 .13
2
116
96,552 17 46,552 25 3,452 35 53,452 26 103,452 13
116
426.444
3676,24
116
de unde:
Valoarea obţinută pentru σx de 60,63 mil. lei reprezintă cu cât se abate în medie profitul
fiecărui agent economic de la profitul mediu considerat de 121,98 mil. lei. Abaterea medie
pătratică exprimată sub formă relativă, prin intermediul coeficientului de variaţie Pearson
este:
X 60,63
VX 100% 100% 49,70%
X 121,98
reprezentând abaterea medie în procente a profiturilor înregistrate de cei 1160 de agenţi
economici de la profitul mediu. Deci, profitul mediu al agenților din acea regiune geografică
nu este reprezentativ pentru valorile profiturilor înregistrate de aceași agenți. (O regulă din
practică ar fi ca un coeficient de variație să fie mai mic decât 30% ca să avem omogeneitate a
populației în raport cu o variabilă de interes, respectiv reprezentativitatea mediei pentru
distribuția variabilei de interes.)