Sunteți pe pagina 1din 13

2.

Parametrii de structură

Frecvente sunt cazurile când este necesară studierea structurii unei populaţii în raport cu o
variabilă sau alta. Parametrii statistici, în forma cea mai generală, folosiţi în caracterizarea
structurii unei populaţii poartă denumirea de valori quantile (în unele materiale în limba
română se folosește și scrierea valori cuantile). Valorile quantile ale unei serii de repartiţie
unidimensionale sunt acele mărimi înregistrate de variabila X, care împart seria în n părţi
egale (mai precis împart populaţia sau eșantionul în n părţi egale). În acest caz se vor calcula
n-1 quantile.
Pentru o serie oarecare, quantila de ordinul p poate fi definită astfel:

FN q p   p 
1 N
sau N (q p )  p  ,  p  1, n - 1 (3.33)
n n
unde: p – arată a câtea quantilă este calculată, n – arată numărul de părţi în care este împărţită
populaţia, N – volumul populaţiei. A se nota că întreaga discuție se poate aplica și unui
eșantion dintr-o populație pentru că formulele necesare calculului valorilor quantile sunt
aceleași, fie că e vorba de populație sau eșantion.
Modul de calcul a valorilor quantile diferă în raport cu tipul seriei. Fie o serie de
repartiţie, care are la bază o variabilă X discretă, de următoarea formă:

 x x2 ... xi ... x R 
X :  1 
 N1 N 2 ... N i ... N R 

Pentru calculul valorii quantile de ordinul p( p  1, n  1) , în prima etapă trebuie determinat


rangul acesteia:
N
rq p  N (q p )  p  (3.34)
n
Se disting două cazuri:
a) dacă p·N se divide cu n atunci quantila de ordin p se calculează ca o medie aritmetică
simplă a valorilor variabilei X, de ordinul rangului şi al rangului majorat cu o unitate, după
cum urmează:
xrq  x( rq 1)
qp  p p
(3.35)
2
Calculul quantilei pentru o listă de observații poate să apară aici ca și caz particular,
ordonând crescător valorile variabilei (incluzând toate repetițiile) și numărând până la valorile
de rang rq p și rq p +1, cu acestea facându-se medie aritmetică.

b) dacă p·N nu se divide cu n atunci quantila de ordin p este egală cu acea valoare a variabilei
X corespunzătoare părţii întregi a rangului majorat cu 1:
q p  x[ rq 1]
(3.36)
p
Calculul quantilei pentru o listă de observații poate să apară aici ca și caz particular,
ordonând crescător valorile variabilei (incluzând toate repetițiile) și numărând până la

valoarea celei de rang rq p  1 . 
În cazul seriilor care au la bază o variabilă continuă, se determină intervalele cărora
aparțin quantilele:

 x  x1 x1  x2 ... xi 1  xi ... x R 1  x R 
X :  0 
 N1 N2 ... Ni ... N R 

În prima etapă se determină rangul quantilei de ordinul p( p  1, n  1) conform următoarei


1 R
relaţii: rq p  N (q p )  p    N i (a se vedea formula (3.34)). Cunoscând rangul, se poate
n i 1
identifica intervalul în care se află quantila de ordinul p, numit şi intervalul quantilei de
ordinul p( p  1, n  1) . Cumulând frecvenţele pe clase până la egalarea sau depăşirea
1 R
rangului, conform inegalităţii: N 1  N 2  ...  N i  p    N i , ultima frecvenţă adunată va
n i 1
corespunde intervalului quantilei de ordinul p( p  1, n  1) . Calculul valorii exacte a quantilei
pentru o serie de distribuție continuă presupune formule relativ complexe de calcul şi, din
acest motiv am prezentat doar modalitatea de determinare a intervalului în care este cuprinsă
quantila de interes.
Valoarea mediană (Me) este şi un parametru de structură obţinându-se ca un caz
particular de quantilă, când n=2. Dacă pentru o serie se cunoaşte Me (quantila de ordinul 2),
atunci structura populaţiei poate fi redată astfel:

 X  Me M e  xmax 
X :  min 
 50% 50% 

semnificând faptul că jumătate din populaţia supusă studiului a înregistrat pentru variabila X
valori cuprinse între valoarea minimă a lui X şi mediană, iar cealaltă jumătate din populaţie a
înregistrat pentru X valori cuprinse între mediană şi valoarea maximă a lui X. Formula de
calcul a Me se poate găsi ca un caz particular, n=2, a relaţiilor (3.35) și (3.36).
Valorile quartile (în unele materiale în limba română se folosește și scrierea valori
cuartile) reprezintă acel caz particular al valorilor quantile pentru care n=4. Cele trei quartile,
care se obţin, notate: Q1, Q2 şi Q3 sunt acei parametri de structură care împart populaţia în
patru părţi egale.1 Cunoscându-se cele trei quartile, rezultă următoarea structură a populaţiei
în raport cu variabila X:

 x  Q1 Q1  Q2 Q2  Q3 Q3  X max 
X :  min 
 25% 25% 25% 25% 

1
Quartila întâi Q1, se numeşte quartila mică (inferioară), quartila a doua Q2 coincide cu mediana şi se numeşte
quartila mijlocie, iar quartila a treia Q3 se numeşte quartila mare (superioară).
Aceasta înseamnă că 25% din unităţile popupaţiei înregistrează valori pentru variabila X mai
mici decât quartila mică, 25% din unităţile populaţiei înregistrează valori, în raport cu aceeaşi
variabilă X, cuprinse între quartila mică şi cea mijlocie, 25% vor avea valori cuprinse între
quartila mijlocie şi quartila mare, iar restul 25% din unităţile populaţiei vor avea valorile
pentru variabila X cuprinse între quartila mare şi valoarea maximă a lui X.
Relaţiile de calcul pentru quartile sunt cazuri particulare ale relaţiilor de calcul pentru
quantilele de ordin p( p  1, n  1) . Etapele sunt aceleaşi, presupunându-se mai întâi calculul
rangurilor celor 3 quartile, apoi determinarea efectivă a acestora. Valorile efective pentru cele
3 quartile se determină în mod diferit, după cum seria este discretă sau continuă. În continuare
se va detalia modul de calcul al quartilelor, separat pentru fiecare tip de serie în parte. Pentru
cazul seriilor discrete calculul rangurilor pentru cele trei quartile se face conform formulelor:
1 R 1 R 1 R 1 R 1 R
rQ1  1    N i    N i ; rQ2  2    N i    N i ; rQ3  3    N i
4 i 1 4 i 1 4 i 1 2 i 1 4 i 1
(3.37)
R
Dacă p   N i , ( p  1,3) , se divide cu 4 atunci relaţia de calcul pentru quartila p este:
i 1

x rQp  x( rQp 1)


Qp  (3.38)
2
R
iar dacă p   N i , ( p  1,3) , nu se divide cu 4 atunci relaţia de calcul pentru quartila p este:
i 1

Q p  x[ rQp 1] (3.39)

Calculul quartilelor pentru o listă de observații apare ca și caz particular al formulelor (3.38)
și/sau (3.39) în aceeași manieră ca și cea descrisă pentru cazul general de quantile.

Exemplu
Reluăm exemplul cu greutatea (în kg) a 10 femei însărcinate: 60, 65, 68, 68, 70, 72,
75, 77, 80, 82. Mediana reprezintă quartila a doua și are valoarea de 71 (vezi exemplul
de la mediană).
1
Pentru calculul quartilei 1 se determină, mai întâi, rangul acesteia, rQ1  1 10  2,5. Având
4
în vedere că 1  10 nu se divide cu 4, quartila 1 va fi: Q1  x[ rQ 1]  x2,51  x3  68,
1

însemnând că 25% dintre femei au o greutate mai mică de 68 kg.


1
Rangul quartilei 3 este rQ3  3   10  7,5 .
4
Quartila 3 va avea valoarea de:
Q3  x[ r 1]  x7,51  x8  77 .
Q3
Greutatea minimă pentru 25% dintre femeile însărcinate, cele cu cea mai mare greutate, este
de 77 kg.

În cazul seriilor de repartiţie continue etapele privind determinarea celor 3 quartile


sunt aceleaşi. Mai întâi se calculează rangul corespunzător pentru fiecare din cele trei quartile,
urmând ca pe baza acestora să se determine intervalele care conțin quartilele. Rangul quartilei
1 R
întâi se determină conform relaţiei rQ1    N i , iar primul interval care satisface
4 i 1
1 R
inegalitatea N1  N 2  ...  N i    N i va reprezenta intervalul quartilei mici. Pentru
4 i 1
quartila mijlocie, Q2, calculele se pot face în conformitate cu procedeul dat pentru mediană. În
1 R
cazul quartilei mari, Q3, rangul se calculează astfel rQ3  3    N i , iar primul interval care
4 i 1
1 R
satisface inegalitatea N1  N 2  ...  Ni  3    Ni va constitui intervalul quartilei mari.
4 i 1

Exemplu
Reconsiderăm exemplul privind distribuţia angajaţilor unei societăţi comerciale în
raport cu salariul lunar:

160  200 200  240 240  280 280  320 320  360 360  400 
X :  
 7 13 18 6 4 2 
unde variabila X este exprimată în euro.
Pentru a determina intervalul quartilei întâi, vom calcula mai întâi rangul quartilei:
1
rQ1   (7  13  18  6  4  2)  12,5. Adunând primele două frecvențe (7+13=20) obținem
4
un număr mai mare decât rangul medianei, ceea ce înseamnă că ultima frecvență cumulată
(i.e., 13) este frecvența corespunzătoare intervalului quartilei întâi: Q1 aparține intervalului
200-240. După cum am stabilit anterior, quartila doi, adică mediana, aparține intervalului 240-
1
280. Rangul quartilei trei este rQ3  3   (7  13  18  6  4  2)  37,5. Pentru a depăși
4
rangul quartilei trebuie adunate primele trei frecvențe (7+13+18=38), iar ultima frecvență
cumulată (i.e., 18) este frecvența corespunzătoare intervalului 240-280.

Valorile decile constituie acel caz particular al valorilor quantile pentru care n=10.
Valorile decile reprezintă acei indicatori de structură care împart populaţia supusă studiului în
10 părţi egale. Urmând acelaşi procedeu, relaţiile de calcul pentru valorile decile se deduc din
cazul general ca şi pentru cazul medianei şi al quartilelor. Pentru cazul seriilor de repartiţie
discrete în prima fază se calculează rangurile în conformitate cu următoarea formulă de
1 R R
calcul: rD p  p    N i ; p  1,9 . Dacă valoarea expresiei p  N i se divide cu 10,
10 i 1 i 1

atunci relaţiile de calcul pentru decile sunt:


xrD  xrD 1
Dp  p p
; p  1,9 (3.40)
2
R
iar dacă valoarea expresiei p  N
i 1
i nu se divide cu 10, atunci relaţiile de calcul pentru

valorile decile sunt:

D p  x[ rD 1] ; p  1,9 (3.41)


p

În cazul seriilor de variaţie continuă, prima fază constă în calcularea rangurilor


1 R
rD p  p    N i ; p  1,9 . Pentru fiecare decilă Dp, p  1,9 , se determină intervalul decil
10 i 1
1 R
corespunzător, conform inegalităţii N1  N 2  ...  Ni  p    Ni ; p  1,9 .
10 i 1 .
În statistică este foarte des folosit așa numitul Sumar a celor cinci valori. Cele cinci
valori sunt:
valoarea minimă,
prima quartilă (Q1) – este valoarea maximă pentru 25% din eșantion,
mediana (Me) – parametrul care împarte distribuția în două părți egale,
a treia quartilă (Q3) – reprezintă valoarea maximă pentru 75% din eșantion,
valoarea maximă.
Valoarea minimă și maximă nu sunt întotdeauna minimul și maximul efective. Ele
sunt valorile rezultate prin aplicarea unui interval de variație de [Q1-1,5(Q3 - Q1); Q3+1,5(Q3 -
Q1)]. În multe aplicații, valorile din afara acestui interval sunt considerate valori atipice
(outlieri). Acest sumar permite evaluarea nivelului de împrăștiere al distribuției analizate și
gradul său de asimetrie fără a se face vreun calcul legat de forma distribuției. Evaluarea celor
5 valori poate fi făcută efectiv numeric sau grafic, prin boxplot2. În practică, de cele mai multe
ori este utilizată varianta grafică, mult mai simplu de interpretat. Această redare a structurii
unei repartiții permite comparații facile între mai multe distribuții.

Proprietăţi ale quantilelor


Câteva din proprietăţile quantilelor vor întregi imaginea cu privire la această categorie de
parametri.
1º Valorile quantile pentru o serie dată sunt valori ale variabilei X cuprinse între cea mai mică
şi cea mai mare dintre valorile acesteia.

2
Graficul specific descris în capitolul 2.
2º Dacă frecvenţele absolute ale unei serii se simplifică (sau amplifică) cu un anumit număr,
valorile quantile nu se modifică. Această proprietate rezultă imediat din relaţiile de calcul
pentru aceşti parametri.
3º Între valorile quantile există următoarea ordine:
q1  q 2  q 3  ....  q n 1

3. Parametrii variaţiei

Studiul unor populaţii statistice prezintă importanţă și din punct de vedere al unor mărimi care
variază de la o unitatea la alta sau de la un grup de unităţi la altul. Problema măsurării
variaţiei unei variabile cantitative este importantă pentru a vedea în ce măsură valoarea medie
a acesteia poate reprezenta întrega populaţie. Dacă abaterile de la valoarea medie sunt
neesenţiale atunci se poate afirma că populaţia este omogenă şi că acest parametru poate
reprezenta tendinţa centrală, iar dacă aceste abateri sunt mari atunci populaţia este eterogenă
şi valoarea medie nu are capacitatea de a reprezenta populaţia.
Pentru unele serii, valoarea medie nu se poate calcula. În asemenea cazuri, parametrul
valoarea mediană poate să-i ia locul. Aceeaşi problemă se pune şi în acest caz, de a vedea în
ce măsură valoarea mediană este sau nu reprezentativă pentru populaţia în cauză. O altă
problemă care nu se poate rezolva fără a studia şi măsura variaţia înregistrată de o variabilă în
raport cu care este studiată o populaţie, o constituie verificarea de ipoteze. În activitatea
practică, de multe ori, pornind de la valorile unor parametrii calculaţi pe baza datelor culese
relativ la un număr mic de unităţi, este necesar a fi extinşi la nivelul întregii populaţii sau de a
se verifica anumite ipoteze statistice.
Parametrii variaţiei se pot calcula atât sub formă absolută cât şi relativă, şi măsoară
împrăştierea valorilor unei variabile cantitative faţă de valoarea medie sau valoarea mediană.
Ca urmare, în funcţie de elementul de referinţă folosit în măsurarea variaţiei, deosebim:
- parametrii variaţiei în raport cu valoarea medie;
- parametrii variaţiei în raport cu valoarea mediană.

3.1. Parametrii variaţiei în raport cu valoarea medie

Din această grupă fac parte: amplitudinea sau variaţia maximă; variaţia maximă şi variaţia
minimă faţă de valoarea medie; abaterea medie liniară; abaterea medie pătratică. În afară de
abaterea medie pătratică, pentru restul parametrilor formulele de calcul pentru eșantion nu
diferă față de formulele de calcul pentru întrega populație.

Amplitudinea (variaţia maximă)


Acest parametru se notează cu W şi se defineşte ca fiind diferenţa între valoarea maximă şi
valoarea minimă înregistrate de variabilă. Amplitudinea, sub formă absolută, conform
definiţiei se exprimă astfel:
Wx = xmax - xmin (3.42)
şi caracterizează împrăştierea maximă a variabilei X. Amplitudinea sub formă relativă, se
exprimă astfel:
Wx xmax  xmin Wx xmax  xmin
 sau  100%   100% (3.43)
X X X X
şi măsoară împrăştierea între valorile extreme ale variabilei X în ipoteza că valoarea medie ar
fi fost 1 sau 100.
Indiferent de forma de exprimare, amplitudinea dă o imagine neconcludentă privitor la
gradul de împrăştiere a unităţilor din populaţie în raport cu variabila X. Acest parametru nu dă
nicio informaţie cu privire la gradul de reprezentativitate a valorii medii.

Exemplu:
Prețul unui produs (în RON) înregistrat pe 15 piețe diferite are următoarele valori: 30,
37, 45, 48, 51, 52, 45, 37, 50, 52, 48, 48, 30,45, 52.
Amplitudinea este în acest caz: Wx= 52-30 = 22 RON.

Variaţia maximă şi variaţia minimă de la valoarea medie

Diferenţa x max  X  x R  X reprezintă variaţia maximă de la valoarea medie şi arată care


este cea mai mare abatere în plus de la valoarea medie. Diferenţa xmin  X  x1  X reprezintă
variaţia minimă de la valoarea medie şi arată care este cea mai mare abatere în minus de la
valoarea medie. Exprimaţi sub formă relativă, cei doi parametrii se calculează conform
relaţiilor:

xmax  X xmax  X x X xmin  X


sau 100%; min sau 100% (3.44)
X X X X
şi reprezintă abaterea maximă în plus sau minus de la valoarea medie, dacă aceasta se ia 1 sau
100. Evident, nici aceşti indicatori nu pot caracteriza sintetic gradul de reprezentativitate a
valorii medii şi nu pot servi şi altor scopuri.

Abaterea medie liniară

Abaterea medie liniară, notată cu d x , reprezintă media aritmetică a abaterilor variabilei X de


la valoarea medie a acesteia, luate în valoare absolută:

dx  M ( X  X ) (3.45)

Relaţia (3.91) se particularizează în:


R

x
i 1
i  X  Ni
dx  R
(3.46)
N
i 1
i

pentru o serie discretă formată cu frecvenţe absolute şi în:


R
d x   xi  X  f i (3.47)
i 1

pentru o serie discretă formată cu frecvenţe relative. Pentru o listă de observații, formula care
se aplică este (3.46), particularizată pentru Ni=1 pentru fiecare observație xi.
Dacă seria are la bază o variabilă continuă atunci pentru abaterea medie liniară se
utilizează următoarele formule:
R

x '
 X  Ni R
sau d x   x 'i  X  fi
i

dx  i 1
R
(3.48)
N
i 1
i
i 1

după cum seria în cauză este formată cu frecvenţe absolute sau relative, unde
x  xi
x i'  i 1 , i  1, R este mijlocul intervalului “i”.
2
Acest parametru serveşte caracterizării sintetice a gradului de reprezentativitate a
valorii medii, arătând cu cât se abate în medie orice valoare a variabilei X de la valoarea
medie X , într-un sens sau altul. Sub formă relativă, acest indicator poartă denumirea de
coeficient simplu de variaţie şi se calculează conform relaţiei:

dx
Vx  100% (3.49)
X
Coeficientul simplu de variaţie (Vx) arată cu cât se abate în medie orice valoare a variabilei X
de la valoarea medie echivalentă cu 1 sau 100%. Calculat pentru două serii diferite se poate
aprecia gradul de reprezentativitate a celor două medii. Se apreciază mai reprezentativă acea
valoare medie pentru care coeficientul simplu de variaţie este mai mic.

Exemple
a) Revenim la exemplul celor 5 secții de producție ale aceleiași companii care produc
același bun, identic din toate punctele de vedere, la costurile unitare de producție
1100, 1300, 1700, 2300, 1900 (unități monetare pe unitate de produs). Media era de
1660 unități monetare.
560  360  40  640  240
În acest caz d x   368 , adică conform acestui indicator costurile
5
de producție deviază în medie de la medie cu 368 unități monetare. Conform aceluiași
indicator, în termeni procentuali, costurile de producție deviază în medie de la medie cu
368
 22,16% , această însemnând că acel cost mediu calculat este reprezentativ (o regulă ce
1660
vine din practică ar fi ca un coeficient de variație să fie mai mic decât 30% ca să avem
omogeneitate a populației în raport cu o variabilă de interes, respectiv reprezentativitatea
mediei pentru distribuția variabilei de interes).

0 1 
b) Fie o serie alternativă de forma X :   pentru care aplicând relaţia (3.47)
q p
R
se obţine d x   xi  X  f i  0  p  q  1  p  p  pq  pq  2 pq .
i 1

Deci, spre exemplu, pentru a distribuție balansată a genului într-o populație,


d x  2  50%  50%  2  0,5  0,5  0,5 .

Parametrul abaterea medie liniară, în forma absolută sau relativă, prezintă unele
deficienţe deoarece nu este suficient de sensibil la abaterile mici, adăugându-se şi unele
inconveniente de natură teoretică, generate de exprimarea abaterilor în valoarea absolută.
Înlăturarea acestor deficienţe se poate realiza apelând la un nou parametru privind măsurarea
variaţiei, numit abatarea medie pătratică.

Abaterea medie pătratică


Acest indicator este utilizat atât pentru caracterizarea gradului de reprezentativitate a valorii
medii cât şi în scopul estimării unor parametri necunoscuţi. Pentru întreaga populație,
abaterea medie pătratică, notată cu σx , se defineşte ca fiind media pătratică a abaterilor
valorilor variabilei X, de la valoarea medie X , adică:

 x  M (X  X )2 (3.50)

Valoarea lui ne arată cu cât se abat în medie valorile variabilei în raport cu media. Un
calcul intermediar în aflarea acestui parametru, îl constituie calcularea pătratului abaterii
medii pătratice, care se numeşte dispersie sau varianţă şi are următoarea expresie de calcul:

 x2  M ( X  X ) 2  V ( X ) (3.51)

V(x) reprezintă o altă notaţie pentru varianţă, pe lângă σ2x . Varianţa fiind un calcul
intermediar în aflarea abaterii medii pătratice, în cele ce urmează se va prezenta modul de
calcul al acesteia. Relaţia de calcul a varianţei (3.98) se particularizează în raport cu tipul
seriei. În cazul unei serii care are la bază o variabilă X discretă, conform definiţiei, varianţa
are expresia:
R

 (x i  X )2  Ni
 x2  i 1
R
(3.52)
N i 1
i
dacă seria este formată cu frecvenţe absolute sau:
R
 x2   ( x i  X ) 2  f i (3.53)
i 1

dacă seria este formată cu frecvenţe relative. Pentru o listă de observații, formula care se
aplică este (3.52), particularizată pentru Ni=1 pentru fiecare observație xi din listă.
Pentru o serie dată, varianţa calculată nu are interpretare, dar dacă se extrage rădăcina
pătrată din aceasta se obţine un număr care se exprimă în aceleaşi unităţi de măsură ca şi
variabila de la baza seriei. Acest număr (valoare) reprezintă abaterea medie pătratică,
simbolizând cu cât se abate în medie în plus sau minus orice valoare xi a variabilei X de la
valoarea medie X .
Parametrul abaterea medie pătratică se poate exprima şi sub formă relativă, caz în care
se numeşte coeficientul de variaţie a lui Pearson, şi se notează cu Vx (uneori se folosește și
notația CVx). Expresia de calcul este:
x
Vx  100% (3.56)
X
şi arată cu câte procente se abat în medie valorile variabilei faţă de medie. Coeficientul de
variaţie a lui Pearson calculat pentru două sau mai multe serii, poate fi folosit în aprecieri
comparative privind gradul de reprezentativitate a valorii medii calculate. Deoarece gradul de
reprezentativitate a valorii medii este în raport invers cu mărimea coeficientului de variaţie a
lui Pearson, se poate afirma, în cazul mai multor serii, că este mai reprezentativă valoarea
medie a acelei serii pentru care Vx este mai mic. În concluzie, trebuie reţinut că parametrul
abaterea medie pătratică sub formă absolută σx şi sub formă relativă Vx sunt indicatori
fundamentali utilizaţi în măsurarea variaţiei unei variabile.
Atât abaterea medie liniară, cât şi abaterea medie pătratică constituie o măsură a
variaţiei medii, primul o medie de ordinul unu, iar al doilea o medie de ordinul doi (d x   x ) .
Deoarece calcularea abaterii medii pătratice şi implicit a varianţei necesită un volum mare de
calcule, prezentarea unor proprietăţi ale varianţei în vederea reducerii volumului de muncă
este inevitabilă.

Exemplu
Reluăm exemplul cu prețurile unui produs înregistrat pe 15 piețe (naționale) diferite:
30, 37, 45, 48, 51, 52, 45, 37, 50, 52, 48, 48, 30, 45, 52.
Pentru a calcula varianța și abaterea medie pătratică, o să prezentăm, mai întâi, seria de
 30 37 45 48 50 51 52 
repartiție a variabilei preț, și anume X :   . În al doilea rând, o să
2 2 3 3 1 1 3
calculăm media variabilei X:
30  2  37  2  45  3  48  3  50  51  52  2 618
X    44,67 (RON)
15 15
Varianța este în acest caz:
(30  44,67) 2  2  (37  44,67) 2  2  (45  44,67) 2  3  (48  44,67) 2  5  (50  44,67) 2 
 x2 
15
 (51  44,67)  (52  44,67)  2
2 2
 54,09 RON 2 .
15
Abaterea medie pătratică este:

 x  54,09  7,35 RON.

Sub formă relativă, se calculează coeficientul de variație a lui Pearson:


x 7,35
Vx  100%  100%  16,45%
X 44,67
ceea ce înseamnă o abatere mică de la medie și media este, astfel, reprezentativă pentru
valorile prețului.

Proprietăți ale varianţei


1º Varianţa unei constante este egală cu zero. Luându-se X = C şi aplicând relaţia de calcul a
varianţei se obţine:
V(X) = V(C) = M[(C-C)2] = M(0) = 0 (3.57)
2º Dacă între două variabile Y şi X există următoarea relaţie liniară: Y = a·X+b, atunci are loc
următoarea egalitate (caz particular b=0):
V(Y) = a2V(X) (3.58)
3º Varianţa unei variabile, fiind un moment centrat de ordinul doi, se poate exprima cu
ajutorul diferenţei dintre momentul de ordinul doi şi pătratul momentului de ordinul întâi al
variabilei, adică:
 
V  X   M X 2  M  X 
2
(3.59)

4º Varianţa sumei a două variabile X şi Y este egală cu suma varianţelor acestor variabile,
dacă cele două variabile sunt independente. Varianţa diferenţei dintre două variabile
independente este egală cu suma varianţelor acelor variabile:
V  X  Y   V  X   V Y  , V  X  Y   V  X   V Y  (3.60)

6º Varianţa sumei a două variabile dependente este egală cu suma varianţelor celor două
variabile plus covarianţa dintre cele două variabile:
 
V  X  Y   V  X   V Y   2M X  X Y  Y  (3.61)

7º Regula de adunare a varianţelor. Această regulă foarte importantă va fi prezentată în detaliu


în capitolul de analiză a legăturilor dintre variabile!
Varianţa totală = Varianţa explicită + Varianţa reziduală
 X2  X2
sau 100%  2  100%  2  100% i i
(3.65)
x x

Componenta de dispersie  x2i reprezintă media dispersiilor grupelor, componenta de dispersie


 X2 reprezintă varianţa dintre grupe, unde grupele sunt determinate în principiu de o variabilă
i

categorială (nominală sau ordinală).

Exemplu
Următorul exemplu constituie un model de calcul al varianţei şi abaterii medii
pătratice utilizând definiţia. În acest sens se consideră distribuţia agenţilor economici
care au realizat profit la sfârşitul anului trecut. Se consideră populaţia agenţilor
economici în cauză care îşi desfăşoară activitatea într-o anumită zonă geografică. Seria
de repartiţie a celor 1160 de agenţi economici, care au realizat profit este:

 0  50 50  100 100  150 150  200 200  250 


X :  
 170 250 350 260 130 

unde variabila profit X are valorile exprimate în milioane lei.

Profitul mediu X este:


25 17  75  25  125  35  175  26  225 13 14.150
X   121,98 mil.lei
116 116
Varianţa calculată conform definiţiei este:

 x 
5
2
'
i  X  Ni
 X2  i 1
5

N i 1
i


25  1222 17  75  1222  25  125  1222  35 
116
(175  122) .26  (225  122) 2 .13
2
 
116


96,552 17  46,552  25  3,452  35  53,452  26  103,452 13 
116
426.444
  3676,24
116
de unde:

 X   X2  3676,428  60,63 mil.lei

Valoarea obţinută pentru σx de 60,63 mil. lei reprezintă cu cât se abate în medie profitul
fiecărui agent economic de la profitul mediu considerat de 121,98 mil. lei. Abaterea medie
pătratică exprimată sub formă relativă, prin intermediul coeficientului de variaţie Pearson
este:
X 60,63
VX  100%  100%  49,70%
X 121,98
reprezentând abaterea medie în procente a profiturilor înregistrate de cei 1160 de agenţi
economici de la profitul mediu. Deci, profitul mediu al agenților din acea regiune geografică
nu este reprezentativ pentru valorile profiturilor înregistrate de aceași agenți. (O regulă din
practică ar fi ca un coeficient de variație să fie mai mic decât 30% ca să avem omogeneitate a
populației în raport cu o variabilă de interes, respectiv reprezentativitatea mediei pentru
distribuția variabilei de interes.)

S-ar putea să vă placă și