Documente Academic
Documente Profesional
Documente Cultură
Noţiuni prezentate:
Statistică descriptivă
Calculul indicatorilor statistici
Indicatori de localizare
Media aritmetică (simplă)
Bibliografie | 1
Este indicatorul de bază al tendinţei de localizare. Considerăm şirul
de date x1, x2, … ,xn. Media aritmetică se notează cu X sau M(x):
n
x x2 ... xn x i
X 1 i 1
n n
a x a 2 x 2 ..... a m x m
a j 1
j xj
X 1 1
a1 a 2 ... a m n
Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi
relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă
(inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru
şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este:
1 1 n 1 1 n
, MH n
,
M H n i 1 xi 1 1 1 1
x1 x 2
...
xn
i 1 xi
n
cu condiţia xi 0 .
Considerând frecvenţele absolute notate ai obţinem următoarea
formulă de calcul a mediei armonice ponderate:
n n
MH n
m a
.
1
i 1 x i
x
j
j 1 j
Media cronologică
2 | Bibliografie
Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale
sau anuale). Formula de calcul:
X1 Xn
X 2 ... X n1
MC 2 2 .
n 1
Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor
unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu
raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de
creştere anuală sau în dinamica sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, x3, … , xn se notează de obicei
cu MG şi se calculează cu formula:
n
M G n x1 x2 x3 ... xn n x
i 1
i .
Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se
calculează cu formula (radical din media pătratelor valorilor):
n
x
2
i
MP i 1
X2 .
n
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir
trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de
tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se
notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2k+1,
avem : Me xk 1 x n1 . Dacă şirul are un număr par de valori, deci n=2k,
2
Modul (dominanta)
Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi
corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia
poate avea mai multe maxime, dar de obicei doar unul este global, celelalte
fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală,
cu două maxime se va numi bimodală, iar cu mai multe maxime este numită
polimodală sau multimodală.
Bibliografie | 3
Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul
corespunzător frecvenţei maxime se numeşte interval modal sau clasă
modală. Modul se notează cu Mo.
Valoarea centrală
Reprezintă media extremelor şirului de date studiat:
X max X min
Xc . Dacă valorile din şirul de date sunt grupate pe clase,
2
X clasa inf . X clasa sup .
formula de calcul devine: Xc .
2
Este uşor de observat că valoarea centrală este dependentă de extreme
şi nu de valorile tuturor datelor.
Indicatori de variaţie
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare
numerică a împrăştierii datelor. Variaţia luată în considerare se poate raporta
chiar la valoarea medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor
faţă de valoarea medie a şirului de date. Se notează cu 2 sau D[x]. Are
următoarea formulă de calcul (pentru volumul n al eşantionului de valori
x X
n
2
mari, n>30): 2
x 1 X x2 X ..... xn X
2 2
2
i 1
i
.
n n
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …,
am, atunci formula de calcul devine:
a x X
m
2
f i xi X .
i i m
2 i 1 2
n i 1
Făcând apel la noțiunile de statistică observăm că numărul de valori ce
compun setul de date, are influență asupra formulelor de calcul a
indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30,
atunci se aplică o corecţie asupra numitorului formulei. În acest caz ajustarea
este în sensul că nu se împarte la n ci la n-1 (numit şi numărul gradelor de
libertate).
x X x X
n n
2 2
i i
n n
2 estimat i 1
i 1
2 .
n 1 n n 1 n 1
4 | Bibliografie
Abaterea pătratică medie (deviaţia standard)
Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea
pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se
exprimă cu aceleaşi unităţi de măsură. Formula:
x X
n
2
i
D[ x] i 1
.
n
n x X .
m
ai
Ţinând cont de frecvenţele absolute avem:
2
i
i 1
Abaterea individuală
Reprezintă o măsură caracteristică fiecărei valori din setul de date. Se
calculează ca diferență față de valoarea medie. Se poate calcula în formă
absolută sau relativă conform formulelor:
xi X
d i xi X respectiv d i % 100 %
X
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat
şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de
amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime
este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât este
mai mică valoarea sa cu atât lotul este mai omogen.
Aspecte negative ale amplitudinii:
depinde de eşantion, având variaţii pentru fiecare eşantion în parte,
nu ţine seama de tipul repartiţie.
Intervalul intercuartilic
Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în
4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3
care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de
Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu
suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de
după Q3.
Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1
(ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se
numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic
va fi: Iq = Q3 – Q1.
Bibliografie | 5
Observaţie: Cuartila Q2 este tocmai mediana Me.
Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul:
Q3 Q1 Iq
q .
Q2 Me
Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media
valorilor studiate. Dacă avem o medie de 100 şi o abatere pătratică standard
5 , atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de
10, atunci variaţia este foarte mare. În concluzie, este necesară raportarea
abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea
datelor. Se defineşte coeficientul de variaţie: Cx .
X
Acest coeficient este o măsură relativă a variaţiei datelor faţă de
medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită,
pot fi comparate folosind coeficientul de variaţie.
Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a
mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei,
statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ
de asimetrie (acest indicator este adimensional, fiind astfel util pentru a
Mo
compara distribuţiile între ele): Sk . Formula actuală de calcul (de
estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este:
3
xi X
n
i 1 s
Sk pentru n mare, respectiv
n
3
n n
x X
Sk i , pentru n de valori mici (s este deviația
(n 1) (n 2) i 1 s
standard a eşantionului).
Cazuri posibile:
1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta, X Mo
.
2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, X Mo
3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).
6 | Bibliografie
În limba engleză cuvântul consacrat este skewness, folosit în
programele de statistică.
x X
n
4
4 i
2 2 3 3 , echivalentă cu: 2 i 1
3 (pentru eşantion
4 n s4
de volum mare). La valori mici ale volumului lotului pentru estimare se
foloseşte formula:
4
n (n 1) n
x X 3 (n 1) 2
2 i .
(n 1) (n 2) (n 3) i 1 s (n 2) (n 3)
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică 2 3 , 2 0.
Leptocurtică 2 3 , 2 0 .
Platicurtică 2 3 , 2 0 .
Bibliografie | 7
Nr Indicator statistic Funcţie Excel Descriere / formula
3. Media armonică Harmean() n
MH
n
x
1
i 1 i
MP x2
n
7. Mediana Median() Valoarea de mijloc a şirului ordonat
8. Valoarea modală Mode() sau Valoarea de frecvenţă maximă
(modul) Mode.sngl()
9. Dispersia Varp() sau m
n
Sk
(n 1) (n 2) s
i 1
16. Boltirea Kurt() n (n 1)
2
(n 1) (n 2) (n 3)
n 4
xi x 3 (n 1) 2
s (n 2) (n 3)
i 1
8 | Bibliografie
Figura 13-1. Indicatori statistici calculați prin statistica descriptivă.
EXERCIŢII
Fișierul Excel de lucru conține coloanele de date numerice de tip
continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu rezidenta,
stare civila, ocupatie.
1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii
statistici prezentaţi folosind formulele de calcul şi apoi folosind
opţiunea Descriptive Statistics.
2. Aranjaţi în ordine crescătoare valorile mediilor calculate:
M H , MG , X , M P .
3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media
persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi
din mediul urban, căsătorite şi pensionate folosind averageifs().
Observaţii:
În calculul mediei geometrice (versiunea Excel 2003) se poate atinge
uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să
înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri se
va obţine un mesaj de eroare.
Bibliografie | 9
Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei
logaritm de a transforma operaţia de înmulţire în adunare.
Vom folosi formula de calcul a mediei geometrice:
GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))).
10 | Bibliografie