Sunteți pe pagina 1din 27

STATISTICĂ

Prof.univ.dr. EMILIA ŢIŢAN

INDICATORII VARIATIEI
INDICATORII ASIMETRIEI

1
ANALIZA VARIABILITĂŢII

Necesitate:

- Statistica studiază fenomene de masă, adică fenomene care se


produc la numeroase unităţi statistice şi variază ca nivel de la o unitate
la alta. Cu cât fenomenele sunt influenţate de mai mulţi factori, cu atât
sunt mai complexe şi prezintă un grad mai mare de variaţie.
- pentru folosirea corectă a indicatorilor medii, este necesară
verificarea reprezentativităţii lor. Media este reprezentativă doar dacă
seria de date din care s-a calculat este omogenă (prezintă un grad
scăzut de variaţie).
- variabilitatea este, deci, o trăsătură esenţială a fenomenelor şi
proceselor care formează obiectul de studiu al statisticii, indicatorii de
măsurare a variabilităţii completează informaţiile aduse de indicatorii
descriptivi ai tendinţei centrale, pentru o analiză mai aprofundată a
unui set de date.
2
ni ni
B A B

xi

xi

x b) xA xB
a)
B
ni Două distribuţii pot avea:
- tendinţe centrale asemănătoare, dar
A grade diferite de împrăştiere a
valorilor (a)
- tendinţe centrale diferite, dar grade
xi identice de dispersare a valorilor (b)
c) xA xB - tendinţe centrale diferite, dar si grade
diferite de variabilitate a valorilor (c)

3
Sistemul de indicatori ai variabilităţii:

Variabilitatea este caracterizată şi măsurată printr-un sistem de


indicatori, care se pot clasifica după următoarele criterii:

A. după nivelul la care se calculează şi aria de cuprindere, avem:


 indicatori simpli ai variaţiei (calculaţi la nivelul unei unităţi

statistice);
 indicatori sintetici ai variaţiei (calculaţi la nivelul întregii

colectivităţi sau al unei grupe a acesteia).

B. după forma de exprimare, pot fi:


 indicatori absoluţi (exprimă variaţia în unităţi concrete de

măsură);
 indicatori relativi (exprimă variaţia în procente sau

coeficienţi).

4
A. Indicatorii simpli ai variabilităţii

I. Indicatorii simpli absoluţi ai variaţiei compară sub formă


de diferenţă mărimea a doi termeni ai seriei sau mărimea unui
termen al seriei cu nivelul mediu al acesteia. Se exprimă în unitatea
de măsură a caracteristicii pentru care s-au calculat.

 Amplitudinea absolută a variaţiei:


A  x max  x min

Observaţii:
- dacă cele două valori extreme sunt valori aberante,
amplitudinea nu mai prezintă o semnificaţie deosebită (este
sensibilă la valorile extreme);
- nu poate fi folosită în comparaţii, decât pentru serii care se
referă la aceeaşi caracteristică (care se exprimă în aceeaşi
unitate de măsură);.
- este destul de instabilă, pe măsura adăugării de noi date;
- dacă într-o distribuţie de frecvenţe pe intervale de valori nu
se cunosc limitele inferioară şi superioară, atunci
amplitudinea nu poate fi calculată, decât făcând anumite
presupuneri pe baza mărimii intervalelor de grupare.
5
A. Indicatorii simpli ai variabilităţii

 Abaterea (devierea) individuală absolută:

d i  xi  x , cu i  1, n
reprezentând unitatea statistică.
 Abaterea maximă pozitivă (în expresie absolută):


d max  x max  x

 Abaterea maximă negativă (în expresie absolută):


d max  x min  x

6
B. Indicatorii sintetici ai variabilităţii

Măsoară în mod sintetic abaterea termenilor seriei faţă de nivelul mediu al


acesteia.

1. Abaterea medie absolută (sau abaterea medie liniară)

Reprezintă media aritmetică simplă sau ponderată a abaterilor individuale


luate în valoarea absolută, ale termenilor seriei faţă de media lor.
Arată cu câte unităţi de măsură concrete s-a modificat în medie un termen al
seriei faţă de nivelul mediu al acesteia.
n
 xi x
i 1
d 
 pentru o serie simplă: n
r r
 xi  x ni  xi  x ni*
i 1 i 1
d  d  r
r
 pentru o serie de frecvenţe:  ni sau  ni*
i 1 i 1

7
B. Indicatorii sintetici ai variabilităţii

Dezavantaje ale indicatorului:

- se pretează mai greu la calculele algebrice;


- depinde de unitatea de măsură a caracteristicii
pentru care se calculează, de aceea nu poate fi
folosit în compararea variaţiei unor serii diferite,
corespunzătoare unor variabile care se exprimă
în unităţi de măsură diferite;
- acordă importanţă în egală măsură abaterilor
individuale mai mari sau mai mici în valoare
absolută, a termenilor seriei faţă de media lor,
cu toate că variaţia este influenţată în primul
rând de abaterile mai mari.
8
B. Indicatorii sintetici ai variabilităţii

2. Dispersia (sau varianţa) este media aritmetică simplă sau


ponderată a pătratelor abaterilor individuale absolute, ale
termenilor seriei faţă de media lor.

  xi  x 
n 2

2 i 1
 pentru o serie simplă: s  n
  xi  x 
r
  xi  x 
r 2
2
ni ni*
i 1
s2  i 1 s2 
 pentru o serie de frecvenţe: r sau r
 ni  ni*
i 1 i 1
Observaţii:
Dispersia nu are unitate de măsură;
Cu cât este mai apropiată de 0 cu atât variaţia este mai mică; cu
cât este mai depărtată de 0, cu atât variaţia este mia mare.
Prezintă avantajul că, prin ridicarea la pătrat, acordă o importanţă
mai mare abaterilor individuale mai mari în valoare absolută faţă de
9
media seriei:
B. Indicatorii sintetici ai variabilităţii

Dispersia se poate determina şi fără calculul în prealabil


al abaterilor absolute:
2

x 
n n n
 n 
  xi   xi
2
i x 2
xi 2

  i 1 
2
s2  i 1
 i 1  x  i 1
n n n  n  (pentru serii simple)
 
 
2

 
n n n
 n 
xi  x ni  xi ni  
2 2
x 2
i in  x i i 
n
s2  i 1
 i 1
 x
2
 i 1
  i 1 
n n n  n  (pentru serii de frecvenţe)
i 1
ni i 1
ni i 1
ni   ni 
 i 1 

10
B. Indicatorii sintetici ai variabilităţii

Unele proprietăţi ale dispersiei

1. Pentru un şir de valori constante, dispersia este întotdeauna


nulă.
2. Dacă într-o serie (simplă sau de frecvenţe) fiecare termen se
măreşte sau se micşorează cu o aceeaşi constantă „a”, atunci
dispersia seriei nu se modifică.
3. Dacă într-o serie (simplă sau de frecvenţe), fiecare termen se
măreşte sau se micşorează de un acelaşi număr de ori (h),
atunci dispersia seriei se va modifica şi ea în acelaşi sens de „h2”
ori, faţă de dispersia seriei iniţiale.
11
REGULA ADUNARII DISPERSIILOR
 O serie statistică poate să fie structurată în grupuri (serii componente) după un
factor principal de grupare sau după un criteriu organizatoric.
 Dacă o serie statistică este alcătuită din mai multe serii componente, am văzut,
atunci când am studiat media aritmetică, că media întregii serii poate fi calculată
ca o medie din mediile parţiale. Pentru dispersie, compunerea se face însă după o
schemă ceva mai elaborată, cunoscută ca regula adunării dispersiilor.
 Astfel, dacă o serie este compusă din m serii componente (grupuri), fiecare serie
componentă fiind de volum n j, j  1, m , atunci se pot calcula mediile seriilor
componente, x j , j  1, m şi dispersiile seriilor componente:

 x  x 
nj
2

i j

s 
2 i 1
, j  1, m
xj
nj .

12
REGULA ADUNARII DISPERSIILOR
 Dispersia generală (totala) a colectivităţii poate fi scrisă în funcţie de dispersiile
seriilor componente (grupurilor):

 x 
m m

s n j
2
2
xj j  x nj
j 1 j1
s 2x  m
 m

n
j 1
j n
j1
j
,

unde x este media întregii colectivităţi studiate.


 Media dispersiilor parţiale (de grupa) este
m

2
s
j 1
2
xj nj
s x  m

n j 1
j

Ea sintetizează împrăştierea valorilor din interiorul seriilor componente, împrăştierea


datorată altor factori, mai puţin celui după care s-a structurat colectivitatea în cele m
grupuri.
13
REGULA ADUNARII DISPERSIILOR

 Dispersia dintre grupe sintetizează împrăştierea valorilor de la media generală


doar ca urmare a acţiunii factorului după care s-au alcătuit grupurile, seriile
componente.
 Prin calculul mediilor parţiale, ceilalţi factori au fost balansaţi, echilibraţi. Singurul
factor care poate duce la diferenţe între mediile parţiale ale grupurilor este, deci,
factorul după care s-au alcătuit seriile componente. Cu cât seriile componente sunt
mai diferite între ele din punctul de vedere al acestui factor, cu atât mediile parţiale
vor diferi mai mult una faţă de alta şi faţă de media generală.

x 
m
2
j x nj
j 1
 x2  m

n
j 1
j

14
REGULA ADUNARII DISPERSIILOR
 Regula de adunare a dispersiilor este, deci:
2
s  s   x2 , adica dispersia totală este egală cu media dispersiilor de
2
x x

grupă plus dispersia dintre grupe.


 Cu cât dispersia mediilor parţiale de la media generală, adică dispersia dintre
grupe  x2  , are o pondere mai mare în dispersia totală s x , cu atât acest lucru
2

înseamnă că factorul după care s-a împărţit colectivitatea în serii componente


explică mai mult variaţia variabilei studiate.

 s 2x 
 Cu cât media dispersiilor parţiale   are o pondere mai mare în dispersia
2
totală s x , cu atât acest lucru semnifică o importanţă mai mare în variaţia
variabilei, a altor factori.

15
REGULA ADUNARII DISPERSIILOR

 Putem spune, deci, că  x  explică măsura în care factorul de grupare


2

determină variaţia variabilei studiate şi putem calcula coeficientul de


determinaţie:
 2
R 2  x2
sx
sau, în expresie procentuală, gradul de determinaţie:
 2
R%2  x2 100
sx
 Coeficientul de determinaţie arată cât din variabilitatea caracteristicii studiate
este determinată de factorul de grupare, ori de criteriul organizatoric ales.

16
REGULA ADUNARII DISPERSIILOR
Exemplu

O firmă ce comercializează produse cosmetice a realizat într-o lună de vară, prin cele 30 de
magazine de desfacere situate pe litoral, o vânzare medie de 400 milioane lei pe magazin, cu
o dispersie a vânzărilor de 2500; iar prin cele 20 de magazine din zona montană, o vânzare
medie de 200 milioane lei, cu o dispersie de 1600. Pentru a afla gradul în care zona de
amplasare a magazinelor determină variaţia vânzărilor, vom nota:

n L  30; x L  400 mil lei; s 2x L  2500;


n M  20; x M  200 mil lei; s 2x M  1600

şi vom calcula:
x L  n L  x M  nM 30  400  20  200 16000
x    320 mil lei , media totală determinandu-se
n L  nM 50 50
ca o medie a mediilor de grupă.

17
REGULA ADUNARII DISPERSIILOR
2
s xL
2 nL  s xM
2
nM 2500  30  1600  20 107000
s  x    2140
n L  nM 50 50

 2

x L   
 x n L  x M  x nM  400  320  30   200  320 20 480000
2 2


2 2
  9600
x
nL  nM 50 50

Dispersia totală se determină folosind regula de adunare a dispersiilor:


2
s  s x  d 2x  2140  9600  11740
2
x

Aşadar
d 2x 9600
R  2 100 
2
% 100  81,77% ,
sx 11740
ceea ce înseamnă că o pondere de 81,77% din variaţia vânzărilor este explicată
prin zona de amplasare a magazinelor.

18
B. Indicatorii sintetici ai variabilităţii

5. Dispersia pentru o caracteristică alternativă, sistematizată sub forma:


Variantele caracteristicii Codificare numerică Nr. de unităţi statistice Frecvenţe relative
alternative (xi) (frecvenţe) (ni)
( ni* )
DA (stare favorabilă) 1 m
m
w
n
NU (stare nefavorabilă) 0 n-m nm
 1 w
n
TOTAL - n 1

va fi dată de:

salt2 
 1  w m   0  w  n  m 
2 2
2 m
 1  w   w 2
nm
 1  w  w  w2 1  w  w1  w
2

n n n
unde w este media variabilei alternative, iar m este numărul unităţilor statistice la care întâlnim varianta
„favorabilă” a caracteristicii.

19
B. Indicatorii sintetici ai variabilităţii
3. Abaterea medie pătratică (sau abatere standard, sau deviaţie standard) este media pătratică
simplă sau ponderată a abaterilor individuale absolute faţă de medie:

  xi  x 
n 2

i 1
s  s2 
 pentru o serie simplă: n

  xi  x 
r 2 *
  xi  x 
r 2
ni ni
i 1
s s 2 i 1 s  s2  r
r
 pentru o serie de frecvenţe  ni sau i
n *

i 1 i 1

20
B. Indicatorii sintetici ai variabilităţii
Observaţii:
 Deviaţia standard se măsoară în unităţi de măsură
concrete, aceeaşi unitate ca şi caracteristica pentru care
s-a calculat. De aceea, ca şi abaterea medie liniară, ea
nu poate fi utilizată pentru compararea variaţiei unor serii
care se referă la variabile diferite, ale căror unităţi de
măsură sunt diferite.
 Deviaţia standard, fiind calculată pe baza unei medii
pătratice, este, de regulă, mai mare decât abaterea
medie liniară, ce reprezintă o medie aritmetică. Evident,
acest lucru se întâmplă numai dacă ambii indicatori sunt
calculaţi pentru aceeaşi serie: sd
 Pentru o distribuţie cu tendinţă de normalitate, între
abaterea medie liniară şi cea pătratică există următoarea
4
relaţie: d  s
5
21
B. Indicatorii sintetici ai variabilităţii

4. Coeficientul de variaţie este indicatorul sintetic al


variaţiei care măsoară în mod relativ şi sintetic gradul de
împrăştiere a valorilor faţă de tendinţa centrală a seriei.
s d
v   100 v'   100
x sau x
Avantaj: Nu depinde de unitatea de măsură a caracteristicii
urmărite, de aceea poate fi folosit pentru a compara
omogenitatea sau, dimpotrivă, eterogenitatea a două sau
mai multe serii, care se referă la variabile diferite.
Interpretare:
-dacă valoarea coeficientului de variaţie este mai mică
sau cel mult egală cu 30 - 35%, atunci seria este omogenă
şi media este reprezentativă pentru valorile din care s-a
calculat.
-dacă, dimpotrivă, valoarea coeficientului de variaţie este
de peste 65-70%, seria este eterogenă, media calculată îşi
pierde semnificaţia şi nu mai este reprezentativă.
22
Indicatorii sintetici ai variabilităţii

 Exemple
1. Curs 3 pag. 6
2. Curs 3 pag. 8
3. Curs 3 pag. 18

23
Analiza formei distribuţiilor de frecvenţe
• Se pleacă de la reprezentarea grafică a acestora
(histograma sau poligonul frecvenţelor).
• distribuţiile de frecvenţe pot avea o multitudine de
forme, dar, cel mai adesea, ele sunt comparate cu
distribuţia normală.
• una dintre cele mai importante caracteristici ale
unei distribuţii este asimetria (oblicitatea).

24
Analiza formei distribuţiilor de frecvenţe:
ASIMETRIA
Oblicitatea unei distribuţii se referă la faptul că valorile nu sunt
repartizate simetric faţă de tendinţa centrală, manifestându-se
concentrarea, aglomerarea majorităţii valorilor la unul din capetele
distribuţiei (spre valorile mici sau spre cele mari ale scalei).

Coeficientul de asimetrie Pearson:

Cas 
x  Mo
Cas 

3 x  Me 
s sau s

Pentru repartiţii moderat asimetrice, există relaţia:


x  M 0  3 x  Me 
25
Analiza formei distribuţiilor de frecvenţe:
ASIMETRIA
Interpretare:
Indicatorul Cas ia valori în intervalul   1,1 .
Dacă Cas  0  x  Me  Mo , seria este perfect simetrică.
Dacă Cas  0  x  Me  Mo , seria este pozitiv asimetrică, în ea
predominând valorile mici;
Dacă Cas  0  x  Me  Mo , seria este negativ asimetrică, în ea
predominând valorile mari;
Dacă Cas ia valori apropiate de ±1, distribuţia are asimetrie
pronunţată (pozitivă sau negativă);
Dacă Cas ia valori apropiate de 0, distribuţia are asimetrie
uşoară (pozitivă sau negativă);

26
Analiza formei distribuţiilor de frecvenţe:
ASIMETRIA

Cas = 0 Cas > 0 Cas < 0

27