Sunteți pe pagina 1din 6

Curs 8

1. Regula empirică a lui Cebâşev1

Indicatorii tendinţei centrale şi ai variabilităţii oferă informaţii privind forma


distribuţiei variabilei studiate.
Media şi abaterea standard permit identificarea anumitor intervale de valori şi
determinarea proporţiei cazurilor care se încadrează în aceste intervale.
Regula empirică lui Cebâşev, evidenţiată în cazul distribuţiilor cu tendinţă de
normalitate (moderat asimetrice), afirmă că:

- aproximativ 68% din valori se situează în intervalul    , adică la cel mult o abatere
standard faţă de medie    ,     ;

- aproximativ 95% din valori se situează în intervalul   2 , adică la cel mult două
abateri standard faţă de medie   2 ,   2  ;

- aproximativ 99,8% din valori se situează în intervalul   3 , adică la cel mult trei

abateri standard faţă de medie   3 ,   3  .

Exemplul 11. Proprietarul unui restaurant ştie că distribuţia încasărilor este aproximativ normal
distribuită, în medie de 20 Eur pentru un client şi o abatere standard de 7 Eur.
Dacă într-o lună restaurantul a avut 850 de clienţi, el se aşteaptă ca:
- de la un număr aproximativ de 578 de clienţi (0,68·850) să încaseze între 13 Eur (20 - 7) şi 27 Eur
(20 + 7);
- de la un număr aproximativ de 807 clienţi (0,95·850), să încaseze între 6 Eur (20 - 2·7) şi 34 Eur (20
+2·7);
- de la un număr aproximativ de 21 clienţi (0.025·850) să încaseze mai puţin de 6 Eur, iar de la un
număr aproximativ de 21 clienţi să încaseze mai mult de 34 Eur.

2. Standardizarea variabilelor numerice. Scorurile z

Obiectivul analizelor economico-sociale este, pe de o parte, de a pune în evidenţă


relaţiile dintre diferite variabile, iar pe de altă parte, de a realiza predicţii privind evoluţia lor
în interdependenţă.
1
PAFNUTY L. CHEBYSHEV (1821-1894), matematician rus format în ştiinţele matematicii la Universitatea din Moscova,
profesor la Universitatea St. Petersburg, a fost membru al celebrei „Petersburg mathematical school”şi a avut contribuţii
importante la teoria probabilităţilor.

1
Pentru a putea compara variabile cu unităţi de măsură diferite se procedează la o
transformare a datelor, operaţie numită standardizarea variabilelor (calcularea scorurilor z).
Scorul z reprezintă o modalitate de a exprima semnificaţia unei anumite valori dintr-o serie
de date prin raportare la parametrii distribuţiei (medie şi abatere standard).
Scorul z se determină prin scăderea mediei din fiecare valoare şi împărţirea rezultatului la
abaterea standard, obţinându-se astfel distanţa dintre o anumită valoare şi medie, în unităţi
ale abaterii standard:
xi  x
- scorul z pentru o observaţie xi din eşantion: zi 
s
xi  
- scorul z pentru o observaţie xi din populaţia statistică: zi 

Se obţine astfel o nouă variabilă, numită variabilă standardizată, care are media valorilor
egală cu zero şi dispersia egală cu unu.
Astfel, dacă pentru o anumită unitate statistică, scorul z are semnul ”-” înseamnă că
individul respectiv înregistrează o performanţă sub medie, iar dacă scorul z are semnul „+”
atunci individul are o performanţă peste medie.
Analiza grafică a regulii empirice a lui Cebâşev, într-o distribuţie aproximativ normală, atât
pe baza valorilor iniţiale ale variabilei, cât şi a valorilor standardizate (figura 1.12) permite
formularea următoarelor concluzii:
aproximativ 68% dintre observaţiile situate în mijlocul distribuției au scorul z cuprins
între -1 şi 1.
aproximativ 95% dintre observaţiile situate în mijlocul distribuției au scorul z cuprins
între -2 şi 2.
aproximativ 99,8% dintre observaţiile situate în mijlocul distribuției au scorul z
cuprins între -3 şi 3.

Amplitudinea absolută a variaţiei într-o distribuţie aproximativ normală este de


patru/șase ori mai mare decât abaterea standard:

A
A  4s sau s
A
sau A  6s sau s  .
4 6

Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea
abaterii standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţiei.

2
Frecvenţe relative
34% 34%

13,5% 13,5%
2,5% 2,5%

  3   2        2   3
amplitudinea ≈ 4s
-3 -2 -1 0 1 2 3
scoruri z

Figura 1.12 . Regula empirică a lui Cebâşev

3. Indicatori ai formei distribuţiei


Analiza unui set de date univariate numerice nu este completă fără a face aprecieri asupra
formei distribuţiei. Se studiază astfel modul în care valorile individuale ale variabilei sunt
concentrate/deplasate comparativ cu valorile tipice ale distribuţieie (tendinţa centrală).
Distribuţiile empirice se raportează, de regulă, la distribuţia normală teoretică şi se doreşte
analiza a două aspecte:
 Măsura în care distribuţia se abate de la forma perfectă de simetrie a valorilor în jurul
tendinţei centrale, analizându-se în acest caz oblicitatea sau asimetria;
 Măsura în care valorile variabilei sunt mai împrăştiate sau mai concentrate în raport cu
tendinţa centrală (distribuţia este mai aplatizată sau mai alungită în raport cu distribuţia
normală teoretică), analizându-se în acest caz boltirea sau aplatizarea.

Asimetria (skewness, în engl.) unei serii de distribuţie de frecvenţe poate fi


evidenţiată vizual prin reprezentarea grafică - histogramă sau poligonul frecvenţelor.
Relaţia existentă între valorile indicatorilor tendinţei centrale permite, de asemenea,
formularea unor aprecieri asupra oblicităţii distribuţiei.

3
Figura 1.13
a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă

Pentru aprecierea intensităţii şi a sensului oblicităţii unei variabile în eşantionul


studiat se utilizează o serie de indicatori/coeficienţi (notaţi CAS) specifici, absoluţi şi relativi,
bazaţi pe relaţia dintre indicatorii tendinţei centrale, dintre indicatorii medii de poziţie, precum şi
pe indicatori ai variabilităţii:

CAS 
x  M0
sau CAS 
3 x  Me  
, coeficient ce are la bază relaţia existentă între
s s

indicatorii tendinţei centrale în cazul distribuţiilor moderat asimetrice: x  Mo  3 x  Me  


CASQ = Q3+Q1 - 2Me sau CASQ 
Q3  Me  Me  Q1   Q3  Q1  2Me ,
Q3  Me  Me  Q1  Q3  Q1
coeficient ce are la bază relaţia existentă între indicatorii medii de poziţie.

 x  x 
n

 x  x  3 2
i i
n i 1
unde s 
i 1
CAS  , coeficient implementat de
n  1n  2 s 3 n 1
cele mai multe pachete software specialiate în analiza datelor.

Atât semnul, cât şi valoarea indicatorilor oferă informaţii privind dezechilibrul distribuţiei:

Dacă CAS  0 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în
serie predomină valorile mici;

Dacă CAS  0 , avem asimetrie negativă, coada distribuţiei este mai alungită la stânga, în
serie predomină valorile mari;

Dacă CAS  0 , avem serie perfect simetrică;

Dacă CAS  0, CAS  0.3 seria este moderat asimetrică;

4
Dacă CAS  1 seria este profund asimetrică, distribuţia empirică diferă semnificativ de
distribuţia normală şi se recomandă tranformarea datelor (se logaritmează valorile
variabilei, obţinându-se astfel o distribuţie cu tendinţă de normalitate).

În EXCEL se utilizează funcţia SKEW pentru determinarea coeficientului de asimetrie în


eşantion.
Programul SPSS permite determinarea coeficientului de asimetrie (CAS) folosind
următoarea secvenţă de comenzi:
Analyze
Descriptive Statistics
Frequencies
Statistics
Skewness

Boltirea/aplatizarea distribuţiei (kurtosis, în engl.) exprimă înălţimea curbei în


raport cu distribuţia normală teoretică. Întâlnim, astfel distribuţii leptocurtice/ascuţite şi
distribuţii platicurtice/aplatizate (figura 1.14)

distribuţie leptocurtică

distribuţie platicurtică

Figura 1.14 Distribuţia leptocurtică, respectiv platicurtică

Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei


observaţii în jurul unei valori centrale şi se determină, pe eşantion, cu formula:
n n

 x  x  x  x
4 2

nn  1 3n  1
i 2 i
i 1
CBA   , unde s  i 1
.
n  1n  2n  3 s 4
n  2n  3 n 1

Dacă CBA  0 , avem distribuţie leptocurtică, valorile varibilei fiind concentrate în jurul
indicatorilor tendinţei centrale

5
Dacă CBA  0 , avem distribuţii platicurtice valorile varibilei fiind dispersate în raport cu
indicatorii tendinţei centrale
Dacă CBA  0 , avem distribuţie mezocurtică, adică distribuţia normală.

În EXCEL se utilizează funcţia KURT pentru determinarea coeficientului de boltire (CBA) în


eşantion.
Programul SPSS permite determinarea coeficientului de aplatizare (CBA) folosind următoarea
secvenţă de comenzi:
Analyze
Descriptive Statistics
Frequencies
Statistics
Kurtosis

S-ar putea să vă placă și