Sunteți pe pagina 1din 10

13 STATISTICĂ DESCRIPTIVĂ (I)

Noţiuni prezentate:
Statistică descriptivă
 Calculul indicatorilor statistici

Statistica matematică este cea mai adecvată şi exactă metodă de


interpretare a fenomenelor de masă, cu posibile legături cauzale,
multifactoriale, unde legitatea se manifestă şi se poate observa prin
rezultanta unui număr mare de fapte luate în studiu.
Într-o primă formă extragerea de informaţii din date constă în
prezentarea descriptivă deci calculul indicatorilor statistici cât şi realizarea
distribuției de frecvenţă [i].
Există două tipuri de variabile (date) ce definesc natura informaţiei:
cantitative şi respectiv, calitative. Datele de tip calitativ mai sunt cunoscute şi
cu numele de variabile categoriale sau atributive. Valorile acestora variază ca
sortiment, categorie sau clasă, nu după magnitudine sau mărime. Practic, nu
putem realiza o ordonare între valorile existente (de ex. culoarea unui
produs) [ii].
Datele sau variabilele de tip cantitativ se caracterizează prin variaţie
în magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât
relaţii de genul mai mic sau mai mare au sens în acest context. După fineţea
pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi variabilele
cantitative în discrete şi continue.
O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi:
numărul de note de 10 la examenul de admitere, sau numărul de nou născuţi
într-o zi la o maternitate.
O variabilă de tip continuu poate lua orice valoare dintr-un interval
definit.

Calculul indicatorilor statistici


În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se
observă tendințe cu două aspecte: 1 – de localizare (de poziţie), 2 – de
împrăştiere (de variaţie) [5, 9, iii, iv, v].

Indicatori de localizare
Media aritmetică (simplă)

Bibliografie | 1
Este indicatorul de bază al tendinţei de localizare. Considerăm şirul
de date x1, x2, … ,xn. Media aritmetică se notează cu X sau M(x):
n

x  x2  ...  xn x i
X  1  i 1

n n

Media aritmetică ponderată


Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor
x1, x2, …., xm), atunci media se poate calcula conform formulei:
m

a  x  a 2  x 2  ..... a m  x m
a j 1
j  xj
X  1 1 
a1  a 2  ...  a m n

Media aritmetică ajustată


În situaţia în care avem posibile valori eronate apropiate de extremele
minimă respectiv maximă, este indicat să se folosească media aritmetică
ajustată (trimmean). Aceasta se va calcula folosind din datele iniţiale doar un
procent de 90% sau 80% de exemplu. Practic valorile extreme vor fi eliminate
în proporţia dorită. Dacă alegem să lucrăm cu 90% din volumul de date,
atunci 5% reprezentând valorile cele mai mici respectiv 5% reprezentând
valorile cele mai mari vor fi eliminate din calcul.

Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi
relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă
(inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru
şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este:
1 1 n 1 1 n
  , MH   n
,
M H n i 1 xi 1 1 1 1

x1 x 2
 ... 
xn 
i 1 xi

n
cu condiţia xi  0 .
Considerând frecvenţele absolute notate ai obţinem următoarea
formulă de calcul a mediei armonice ponderate:
n n
MH  n
 m a
.
1

i 1 x i
x
j

j 1 j

Media cronologică

2 | Bibliografie
Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale
sau anuale). Formula de calcul:
X1 Xn
 X 2  ...  X n1 
MC  2 2 .
n 1
Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor
unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu
raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de
creştere anuală sau în dinamica sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, x3, … , xn se notează de obicei
cu MG şi se calculează cu formula:
n
M G  n x1  x2  x3 ...  xn  n x
i 1
i .

Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se
calculează cu formula (radical din media pătratelor valorilor):
n

x
2
i
MP  i 1
 X2 .
n
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir
trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de
tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se
notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2k+1,
avem : Me  xk 1  x n1 . Dacă şirul are un număr par de valori, deci n=2k,
2

calculăm mediana cu formula: Me  ( xk  xk 1 ) / 2 . Mediana este un


indicator robust şi este mai puţin influenţată de valorile extreme (asemănător
mediei aritmetice ajustate) decât media şi este mai stabilă la fluctuaţiile de
selecţie.

Modul (dominanta)
Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi
corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia
poate avea mai multe maxime, dar de obicei doar unul este global, celelalte
fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală,
cu două maxime se va numi bimodală, iar cu mai multe maxime este numită
polimodală sau multimodală.

Bibliografie | 3
Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul
corespunzător frecvenţei maxime se numeşte interval modal sau clasă
modală. Modul se notează cu Mo.

Valoarea centrală
Reprezintă media extremelor şirului de date studiat:
X max  X min
Xc  . Dacă valorile din şirul de date sunt grupate pe clase,
2
X clasa inf .  X clasa sup .
formula de calcul devine: Xc  .
2
Este uşor de observat că valoarea centrală este dependentă de extreme
şi nu de valorile tuturor datelor.

Observație: Unitatea de măsură a indicatorilor de localizare este


aceeași cu a elementelor componente a eșantionului sau lotului studiat.

Indicatori de variaţie
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare
numerică a împrăştierii datelor. Variaţia luată în considerare se poate raporta
chiar la valoarea medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor
faţă de valoarea medie a şirului de date. Se notează cu  2 sau D[x]. Are
următoarea formulă de calcul (pentru volumul n al eşantionului de valori

 x  X
n
2

mari, n>30): 2 
x 1  X   x2  X   .....  xn  X 
2 2


2
i 1
i
.
n n
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …,
am, atunci formula de calcul devine:

 a  x  X
m
2

  f i  xi  X  .
i i m
2  i 1 2

n i 1
Făcând apel la noțiunile de statistică observăm că numărul de valori ce
compun setul de date, are influență asupra formulelor de calcul a
indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30,
atunci se aplică o corecţie asupra numitorului formulei. În acest caz ajustarea
este în sensul că nu se împarte la n ci la n-1 (numit şi numărul gradelor de
libertate).

 x  X  x  X
n n
2 2
i i
n n
 2 estimat  i 1
 i 1
 2  .
n 1 n n 1 n 1
4 | Bibliografie
Abaterea pătratică medie (deviaţia standard)
Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea
pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se
exprimă cu aceleaşi unităţi de măsură. Formula:

 x  X
n
2
i
D[ x]    i 1
.
n

 n  x  X .
m
ai
Ţinând cont de frecvenţele absolute avem:  
2
i
i 1

Putem exprima şi astfel:   M  2 X  X


2
P
2 2
 M P2  X 2 .
Pentru eşantioane mici se aplică formula de estimare prin împărţire
la (n-1) în loc de n.

Abaterea individuală
Reprezintă o măsură caracteristică fiecărei valori din setul de date. Se
calculează ca diferență față de valoarea medie. Se poate calcula în formă
absolută sau relativă conform formulelor:
xi  X
d i  xi  X respectiv d i %   100 %
X
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat
şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de
amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime
este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât este
mai mică valoarea sa cu atât lotul este mai omogen.
Aspecte negative ale amplitudinii:
 depinde de eşantion, având variaţii pentru fiecare eşantion în parte,
 nu ţine seama de tipul repartiţie.

Intervalul intercuartilic
Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în
4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3
care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de
Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu
suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de
după Q3.
Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1
(ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se
numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic
va fi: Iq = Q3 – Q1.

Bibliografie | 5
Observaţie: Cuartila Q2 este tocmai mediana Me.
Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul:
Q3  Q1 Iq
q  .
Q2 Me
Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media
valorilor studiate. Dacă avem o medie de 100 şi o abatere pătratică standard
  5 , atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de
10, atunci variaţia este foarte mare. În concluzie, este necesară raportarea
abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea

datelor. Se defineşte coeficientul de variaţie: Cx  .
X
Acest coeficient este o măsură relativă a variaţiei datelor faţă de
medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită,
pot fi comparate folosind coeficientul de variaţie.

Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a
mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei,
statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ
de asimetrie (acest indicator este adimensional, fiind astfel util pentru a
  Mo
compara distribuţiile între ele): Sk  . Formula actuală de calcul (de

estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este:
3
 xi  X 
n

 
i 1  s 

Sk  pentru n mare, respectiv
n
3
n n
x X
Sk     i  , pentru n de valori mici (s este deviația
(n  1)  (n  2) i 1  s 
standard a eşantionului).
Cazuri posibile:
1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta, X  Mo
.
2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, X  Mo
3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).

În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult


de ±1, denotă o diferenţă semnificativă faţă de distribuţia normală.

6 | Bibliografie
În limba engleză cuvântul consacrat este skewness, folosit în
programele de statistică.

Boltirea (excesul, kurtosis)


Acest indicator compară distribuţia dată cu cea normală sau
Gauss’iană. Statisticianul englez Karl Pearson a definit de asemenea
m4 m4
coeficientul de boltire:  2   (m4 este momentul centrat de ordin
m2  2
4
4 în raport cu media). Pentru o distribuţie normală  2normal  3 .
Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce
măsoară excesul faţă de distribuţia normală. Acesta se calculează cu formula:

 x  X
n
4

4 i
 2  2  3   3 , echivalentă cu:  2  i 1
 3 (pentru eşantion
4 n  s4
de volum mare). La valori mici ale volumului lotului pentru estimare se
foloseşte formula:
4
n  (n  1) n
x X 3  (n  1) 2
2     i   .
(n  1)  (n  2)  (n  3) i 1  s  (n  2)  (n  3)
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică  2  3 ,  2  0.
Leptocurtică  2  3 ,  2  0 .
Platicurtică  2  3 ,  2  0 .

(Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în


limba greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”,
,,kurtosis” – ,,exces, cocoaşă”).

Tabelul 13-1. Metode de calcul a indicatorilor statistici în Microsoft Excel


Nr Indicator statistic Funcţie Excel Descriere / formula
1. Media aritmetică Average() Media setului selectat
Averageif() Media selecţiei pentru celulele ce
îndeplinesc o singură condiţie.
Averageifs() Media selecţiei pentru condiţii multiple.
2. Media aritmetică Trimmean(domeniu, Se calculează media aritmetică eliminând
ajustată. procent) din setul de date procentul specificat din
valorile extreme atât minimă cât şi
maximă. Vor rămâne : (100% − 2 ∙
𝑝𝑟𝑜𝑐𝑒𝑛𝑡) ∙ 𝑁𝑟. 𝑑𝑎𝑡𝑒. 𝑖𝑛𝑖𝑡

Bibliografie | 7
Nr Indicator statistic Funcţie Excel Descriere / formula
3. Media armonică Harmean() n
MH 
n

x
1
i 1 i

4. Media Veţi propune o metodă X1 X


 X 2  ...  X n  1  n
cronologică de calcul. MC  2 2
n 1
5. Media Geomean() n
geometrică MG  n x
i 1
i

6. Media pătratică Veţi propune o metodă n


de calcul. x i 1
i
2

MP   x2
n
7. Mediana Median() Valoarea de mijloc a şirului ordonat
8. Valoarea modală Mode() sau Valoarea de frecvenţă maximă
(modul) Mode.sngl()
9. Dispersia Varp() sau m

(pt. populaţie) Var.p()  x


i 1
i  x 2
2 
n
10. Dispersia Var() sau m

(pt. eşantion) Var.s()  x


i 1
i  x 2
2 
n 1
11. Deviaţia standard Stdevp() sau m
(pt. populaţie) Stdev.p()  x
i 1
i  x 2

n
12. Deviaţia standard Stdev() sau m
(pt. eşantion) Stedv.s()  x
i 1
i  x 2

n 1
13. Calcul cuartile Quartile (domeniu, Valoarea indică numărul cuartilei
valoare) calculate:
0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 -
maximul
14. Intervalul Veţi calcula diferenţa. IQ = Q3 – Q1
cuartilic
15. Asimetria Skew() n
 xi  x 
3


n
Sk    
(n  1)  (n  2) s 
i 1 
16. Boltirea Kurt() n  (n  1)
2  
(n  1)  (n  2)  (n  3)
n 4
 xi  x  3  (n  1) 2
   s   (n  2)  (n  3)
i 1  

8 | Bibliografie
Figura 13-1. Indicatori statistici calculați prin statistica descriptivă.

O metodă rapidă pentru determinarea indicatorilor statistici


principali (lipsesc: media geometrică, armonică, cronologică, pătratică,
ajustată, cuartilele) constă în lansarea procedurii statisticii descriptive
(Descriptive Statistics) din Analiza datelor – rezultatele sunt prezentate în
figura alăturată [5, 9].

EXERCIŢII
Fișierul Excel de lucru conține coloanele de date numerice de tip
continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu rezidenta,
stare civila, ocupatie.
1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii
statistici prezentaţi folosind formulele de calcul şi apoi folosind
opţiunea Descriptive Statistics.
2. Aranjaţi în ordine crescătoare valorile mediilor calculate:
M H , MG , X , M P .
3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media
persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi
din mediul urban, căsătorite şi pensionate folosind averageifs().

Observaţii:
În calculul mediei geometrice (versiunea Excel 2003) se poate atinge
uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să
înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri se
va obţine un mesaj de eroare.

Bibliografie | 9
Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei
logaritm de a transforma operaţia de înmulţire în adunare.
Vom folosi formula de calcul a mediei geometrice:

GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))).

Vom scrie =EXP(AVERAGE(noua coloana ce conține ln(x))).

Valoarea maximă admisă este 1.79769313486232E+308, respectiv


valoarea minimă pozitivă este 2.2250738585072E-308.

Relaţia între valorile medii este: M H  M G  X  M P .


Sintaxa funcţiilor:

Averageif(domeniu de aplicare a criteriului, criteriu de selecţie, domeniul de


calcul a mediei)

Averageifs(domeniu de calcul a mediei, domeniu 1 selecţie, criteriu1,


domeniu 2 selecţie, criteriu2, ...perechi domeniu de selecţie - criteriu).
Numărul maxim admis pentru definirea criteriilor este 127 (minim este 1).

i Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu. Elemente de


Biostatistică – Analiza statistică a datelor biologice. Editura PIM Iasi, 2007.
ii Doina Azoicăi, Lucian V. Boiculese, George Pisică-Donose, Noţiuni de
metodologie epidemiologică şi statistică medicală, Ed. DAN, Iaşi, 2001.
iii Jaba E. Statistica Ediția a III-a. Ed. Econmică, București, 2002.
iv Rand R. Wilcox. Fundamentals of Modern Statistical Methods, Second Edition.
Springer Science+Business Media, LLC, 2010.
v Le C.T. Introductory Biostatistics, John Wiley & Sons, Inc. 2003.

10 | Bibliografie

S-ar putea să vă placă și