Documente Academic
Documente Profesional
Documente Cultură
CURS 5
1
INDICATORI MEDII DE POZIŢIE – CUANTILE
Cuantilele (percentile, în engl.) = valori ale variabilei utilizate
pentru caracterizarea poziţiei relative a unui nivel individual în
setul de date.
Cuantilele pot fi utilizate în cazul variabilelor măsurate pe scalele
ordinală şi de raport şi realizează o divizare a distribuţiei într-un
număr de „k” părţi egale.
Cele mai uzuale cuantile sunt:
Cuantila de ordin 2 ( mediana )
Cuantilele de ordin 4 (cuartile, notate Q1, Q2 = Me, Q3, care
împart seria în patru părţi egale, delimitând câte 25% din
observaţii.
Cuartilele se determină în cazul seriilor cu asimetrie redusă.
2
Cuartilele într-o serie de repartiţie
Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează câte 10% din
observaţii, D5 = Me)
3
Functii EXCEL
Funcţiile EXCEL utilizate sunt:
MODE pentru determinarea valorii modale, adică cea mai mică dintre valorile cu frecvenţa
maximă;
MEDIAN pentru determinarea valorii medianei;
AVERAGE pentru determinarea mediei.
EXCEL
Funcţia QUARTILE ce are drept argumente setul de date şi numărul cuartilei dorite (valori
Secvenţa
între 0 şide
4)comenzi
se obţinSPPS este:
valorile:
Analyze Ordinul cuartilei Valoarea
Descriptive Statistics
0 (xmin ) 140
Frequencies
1 (Q1) 170
Statistics
2 (Me) 200
3 (QMedian,
Mode, 1) Mean 230
4 (xmax) 260
4
Diagrama Box-Plot
Principalii indicatori medii de poziţie pot rezuma grafic (diagrama Box-Plot), pe de
o parte tendinţa centrală, variabilitate datelor şi forma distribuţiei variabilei studiate, iar pe
de altă parte valorile extreme şi cele aberante.
5
Diagrama Box-Plot
În cadrul diagramei Box-Plot, cutia este delimitată de cuartilele Q1 şi Q3 şi cuprinde
50% dintre valorile variabilei, situate în centrul distribuţiei.
Linia din interiorul cutiei reprezintă valoarea mediană, iar liniile inferioară, respectiv
superioară sunt date de valorile extreme ale seriei (xmin şi xmax).
Valorile extreme ale setului de date sunt fixate la o limită maximă egală cu
1,5*lungimea cutiei (lungimea cutiei este Q3-Q1).
Valorile aberante (de tip outlier) sunt considerate toate observaţiile situate la stânga
sau la dreapta valorilor extreme (dacă este cazul) şi reprezentate în diagramă.
6
VARIABILITATEA
Variabilitatea poate fi caracterizată atât prin intermediul
indicatorilor simpli cât şi a celor sintetici.
Indicatorii simpli ai variabilităţii măsoară împrăştierea
valorilor individuale ale seriei, una faţă de alta sau faţă de
o anumită valoare tipică.
Indicatorii sintetici ai variabilităţii cuantifică, într-o singură
expresie, împrăştierea tuturor valorilor din seria de date în
raport cu o anumită valoare tipică.
7
Indicatorii simpli ai variabilităţii
8
Indicatorii simpli ai variabilităţii
1. Abaterea individuală (di) măsoară împrăştierea fiecărei valori faţă de nivelul mediu al
variabilei X:
di xi x sau d i ( xi x) ni
x x 0 sau x x n 0 .
n n
i i i
i 1 i 1
9
Indicatorii simpli ai variabilităţii
10
Indicatori sintetici ai variabilităţii
xi x
r r
x i x ni x i x ni*%
d i 1
sau d i 1
r
i 1
n
ni
100
i 1
11
Indicatori sintetici ai variabilităţii
2. Dispersia (variance, în engl.) se determină ca medie aritmetică a pătratelor abaterilor
individuale.
ESTIMATOR PARAMETRU
(Dispersia variabilei în eşantion, (Dispersia variabilei în populaţia statistică)
sample variance, în engl.)
x x
n N
2
x
2
i i
s 2 i 1 2 i 1
n 1 N
x x n
r
2
i i
i 1
s2
n 1
12
Indicatori sintetici ai variabilităţii
Dispersia este cel mai utilizat indicator pentru analiza variabilităţii datelor datorită
proprietăţilor sale algebrice;
Dispersia acordă o importanţă mai mare abaterilor individuale mari (prin calcularea
pătratului abaterilor), sintetizând astfel mai fidel variabilitatea datelor;
Dispersia are o unitate de măsură dificil de interpretat (prin determinarea pătratelor
abaterilor individuale sunt ridicate la pătrat şi unităţile de măsură ale variabilei)
În cazul eşantioanelor de volum mare ( n 30 ), putem lua în calcul următoarea aproximare
n 1 n , dispersia în eşantion fiind:
x
n
2
i x
i 1
s2
n
Dispersia se poate determina şi prin metoda momentelor (dispersia este momentul centrat
de ordinul 2 şi se calculează ca diferenţă dintre momentul iniţial de ordinul 2 şi pătratul
momentului iniţial de ordinul 1):
2
n n
n
2
xi 2
xi xi
i 1
2
s i 1
2
x i 1
n n n
13
Indicatori sintetici ai variabilităţii
Abaterea standard (numită şi abatere medie pătratică) este cel mai utilizat indicator de
caracterizare a împrăştierii datelor, fiind un parametru al repartiţiei normale;
Între indicatorii variabilităţi abatere medie liniară ( d ) şi abatere standard ( s ) există
următoarea relaţie:
4
d s, d s
5
Abaterea standard are unitatea de măsură a variabilei;
În dezvoltarea teoriei statistice, majoritatea modelelor tradiţionale sunt bazate pe
distribuţii descrise de media aritmetică şi abaterea standard;
În analizele financiare abaterea standard este considerată o măsură a „riscului”:
Exemplu: Considerând două proiecte de investiţii, A şi B, pentru care profiturile medii sunt
aproximativ egale, iar deviaţia standard a proiectului A este de 3000 Eur şi deviaţia standard a
proiectului B este de aproximativ 7000 Eur, atunci investiţia prudentă (cu un risc mai redus) este
investiţia cu deviaţia standard mai mică, adică investiţia A.
14
Indicatori sintetici ai variabilităţii
3. Abaterea/deviaţia standard (standard deviation, în engl.) reprezintă rădăcina pătrată a
dispersiei.
x x x x n
n n
2 2
i i i
s s 2 i 1
sau s s 2 i 1
n 1 n 1
Abaterea standard a variabilei în populaţia statistică – parametru este:
N
ix 2
2 i 1
15
Indicatori sintetici ai variabilităţii
4. Coeficientul de variaţie reprezintă expresia relativă a variabilităţii, fiind calculat ca raport
între abaterea standard şi medie:
s
v 100
x
Indicatorii sintetici ai variabilităţii, exprimaţi în mărimi absolute, nu permit realizarea
comparaţiilor între serii statistice, din perspectiva variabilităţii/omogenităţii datelor;
Exprimarea în mărime relativă a variabilităţii, prin intermediul coeficientului de variaţie,
face posibilă compararea seriilor statistice din punctul de vedere al variabilităţii;
Omogenitatea ridicată a datelor este asigurată de valori mici ale coeficientului de variaţie;
Dacă două serii statistice au coeficienţi de variaţie diferiţi, seria care are coeficientul de
variaţie mai mic este mai omogenă;
Seriile pentru care v 30-35% sunt considerate omogene (cu variabilitate redusă), cu
medii reprezentative care caracterizează corect tendinţa centrală a seriei.
Coeficientul de variaţie nu se poate calcula dacă media este nulă ( x 0 ), iar pentru valori ale
mediei apropiate de zero, valoarea coeficientului de variaţie poate să fie lipsită de
semnificaţie.
16