Sunteți pe pagina 1din 40

NOŢIUNI FUNDAMENTALE ALE STATISTICII

Statistica cercetează aspectul cantitativ (numeric) al fenomenelor şi proceselor strict


determinate în timp şi spaţiu. Statistica se întâlneşte ca disciplină ştiinţifică şi ca domeniu de activitate.
Obiectul activităţii de cercetare statistică presupune acţiuni de proiectare şi organizare, de culegere,
de prelucrare, de analiză şi interpretare a datelor.
Din punct de vedere al scopului urmărit statistica se împarte în:
1. statistica descriptivă care sintetizează şi structurează datele de observaţie şi informaţia
conţinută în acestea, utilizând tabele, grafice, indicatori numerici etc;
2. statistica inferenţială prin intermediul căreia datele obţinute la nivelul unui eşantion se
generalizează la populaţia statistică totală cu marje specifice de incertitudine.
O primă noţiune de bază din statistică este colectivitatea statistică (sau populaţia statistică)
care reprezintă totalitatea elementelor de aceeaşi natură, bine determinate în timp şi spaţiu care au
trăsături esenţiale comune şi care sunt supuse unui studiu statistic.
Statistica operează cu colectivităţi finite, colectivităţi numărabile sau colectivităţi infinite.
Fiecare element al populaţiei statistice se numeşte unitate statistică. Dacă populaţia statistică studiată
este finită, atunci numărul unităţilor care o compun se numeşte volumul (sau efectivul) populaţiei
statistice. Cu cât o colectivitate statistică este mai numeroasă cu atât devine mai dificilă cercetarea
tuturor elementelor ei. În această situaţie se vor estima parametrii colectivităţii totale pe baza
rezultatelor obţinute din studiul unui eşantion (un subset de elemente selectate dintr-o colectivitate
statistică), iar ceea ce a fost determinat ca fiind caracteristic în eşantion se presupune că ar fi fost găsit
dacă s-ar fi cercetat colectivitatea generală.
Caracteristica statistică (sau variabilă statistică) reprezintă trăsătura, proprietatea, însuşirea
comună tuturor unităţilor unei colectivităţi şi care variază ca nivel, variantă sau valoare, de la o unitate
a colectivităţii la alta.
Varianta/valoarea reprezintă nivelul concret pe care îl poate lua o variabilă la nivelul unei
unităţi sau grup de unităţi statistice. Cu cât valorile unei caracteristici au o variaţie mai mare, cu atât
respectiva populaţie este mai eterogenă şi invers, cu cât valorile unei caracteristici au o variaţie mai
mică, cu atât respectiva populaţie va fi mai omogenă (din perspectiva respectivei caracteristici).
Datele statistice sunt mărimi concrete, rezultate din studiile efectuate prin numărare, măsurare
sau calcul statistic. Ele pot fi primare, prelucrate, stocate în baze sau bănci de date, etc.
Indicatorul statistic reprezintă expresia numerică a unor fenomene, procese, activităţi sau
categorii economice şi sociale, definite în timp, spaţiu şi structură organizatorică.

1
Procesul cunoaşterii statistice presupune organizarea şi parcurgerea unor etape distincte şi
succesive care includ operaţiile de observare sau culegere a datelor, de sistematizare şi prelucrare, de
analiză şi interpretare a rezultatelor.
Frecvenţa absolută de apariţie este egală cu numărul de valori (înregistrări sau apariţii) ale
unei variante într-o colectivitate.
Frecvenţa relativă de apariţie reprezintă ponderea (procentul) unei variante din totalul
elementelor unei colectivităţi.
Cercetarea statistică cuprinde totalitatea operaţiilor de culegere şi observare, sistematizare şi
prelucrare, stocare, analiză şi interpretare a informaţiilor necesare pentru cunoaşterea şi conducerea
proceselor sociale şi economice.
Etapele cercetării statistice sunt următoarele:
1. Observarea statistică ce cuprinde :
 cunoaşterea situaţiei problematice;
 colectarea de date.
2. Prelucrarea statistică ce cuprinde:
 sistematizarea (clasificarea, gruparea) datelor ;
 calculul indicatorilor statistici;
 prezentarea datelor sub formă de tabele, serii sau grafice statistice.
3. Analiza şi interpretarea statistică cuprinde:
 confruntarea şi compararea datelor,
 formularea de ipoteze;
 verificarea ipotezelor şi previziunea statistică;
 formularea deciziei sau alegerea variantei optime prin analiza comparativă
asupra variantelor;
 precizarea variantei de decizie;
 controlul aplicării deciziei şi verificarea rezultatelor;
 formularea concluziilor asupra cercetării.

Observarea statistică: în procesul observării statistice trebuie ca datele culese să reflecte


realitatea, să se refere numai la caracteristicile esenţiale care răspund cel mai bine scopului cercetării şi
să se realizeze în condiţii obiective.
Planul de observare statistică cuprinde:
1. scopul observării pentru care s-a organizat cercetarea;
2. obiectul observării format din colectivitatea cercetată;
3. unitatea de observare – elementul component al colectivităţii studiate;

2
4. programul observării trebuie să conţină :
i. stabilirea caracteristicilor care trebuie să fie înregistrate;
ii. modalităţile concrete de culegere a datelor;
iii. încadrarea în timp şi în spaţiu a activităţii de obţinere a informaţiilor;
5. formulare şi instrucţiuni de înregistrare – se prezintă sub forma de fişe şi liste.

Stabilirea obiectului si
scopului cercetării

Analiza Verificarea în bănci de Prelucrarea Prelucrarea din


prealabilă date statistice a stocului de datelor de la publicaţiile de date
teoretico- informaţii cu privire la alţi purtători statistice naţionale
metodologică obiectul supus cercetării de informaţie şi internaţionale
primară

Observarea
Elaborarea programului cercetării pe cele trei etape

statistică ≡ Culegerea (înregistrarea) datelor individuale de masă

- Centralizarea datelor observării;


- Sistematizarea datelor observării de masă (prelucrarea
Prelucrarea primară);
statistică ≡ - Obţinerea sistemului de indicatori statistici
≡ (modelarea datelor statistice);
- Prezentarea datelor sub formă de serii, tabele, grafice

- Confruntarea şi compararea informaţiilor


Analiza şi provenite din surse diferite;
interpretarea ≡ - Confruntarea şi compararea rezultatelor prelucrării
statistică proprii;
- Verificarea ipotezelor statistice şi aplicarea testelor de
semnificaţie în vederea elaborării raportului de
analiză;
- Fundamentarea statistică a prognozelor.

Beneficiarii de informaţie statistică

Organisme Agenţi economici


guvernamentale şi Organizaţii şi publici şi privaţi Stocarea în Publicaţii de
neguvernamentale organisme (prin contracte şi bănci de date date statistice
internaţionale convenţii) statistice

Tipuri de înregistrări a datelor statistice:


• Observări totale presupun înregistrarea caracteristicilor cuprinse în programul de cercetare la
toate unităţile (fără excepţie) colectivităţii statistice (de exemplu rapoartele statistice şi
recensămintele);
• Observări parţiale presupun înregistrarea după criterii bine stabilite a unui număr mai redus
de unităţi din colectivitatea generală;

3
• Observări curente constau în înregistrarea sistematică, permanentă, pe măsură ce se produc
caracteristicile fenomenelor analizate la nivelul unităţilor colectivităţii;
• Observări periodice constau în înregistrarea datelor asupra unităţilor la intervale de timp bine
stabilite;
• Observări directe se realizează prin înregistrarea nemijlocită a datelor referitoare la unităţile
colectivităţii;
• Observări indirecte se întâlnesc atunci când înregistrarea datelor se realizează pe baza unor
surse care au consemnat anterior fenomenul studiat (de exemplu, înregistrarea pe bază de
documente);
Principalele metode de culegere a datelor sunt:
• Recensământul prin care se culeg date de la toate unităţile colectivităţii;
• Rapoartele statistice sunt observări totale, permanente prin intermediul cărora se culeg datele
statistice referitoare la diferitele fenomene şi procese economice;
• Sondajele statistice apelează la observări parţiale asupra unui eşantion reprezentativ
• Ancheta statistică este o formă de observare care spre deosebire de sondaje nu presupune
reprezentativitatea eşantionului şi se realizează pe baza unui chestionar.
Culegerea datelor utilizând sondajul statistic este o metodă parţială de observare statistică, din
ce în ce mai larg utilizată în cercetările statistice moderne. Sondajul se foloseşte pentru a înlocui o
observare totală, de mare amploare, mai dificil de realizat, care presupune angajarea unor cheltuieli
ridicate de resurse materiale, financiare şi umane.
Există două categorii esenţiale de sondaj: sondaj aleator (probabilist) şi sondaj nealeator.
Pentru multe studii este posibilă doar realizarea unei eşantionări nealeatoare (cum ar fi ancheta
statistică - care oferă informaţii orientative, eşantionarea pe cote, observarea părţii principale etc).
Un eşantion în care unităţile au fost alese pe baza unor probabilităţi cunoscute se numeşte
eşantion probabilist.
Tipurile de eşantionări probabiliste utilizate sunt: eşantionarea aleatoare simplă, eşantionarea
stratificată şi eşantionarea în cuiburi (cluster).
În sondajul aleator simplu şansa de selecţie în eşantion a fiecărei unităţi statistice din
colectivitatea generală trebuie să fie egală. Un eşantion simplu aleator este aşadar selectat astfel încât:
fiecare unitate statistică are o probabilitate egală de a fi aleasă în eşantion şi unităţile sunt alese
independent, fără legătură una cu cealaltă.
Un sondaj poate fi efectuat:
 cu revenire, adică fiecare unitate statistică extrasă din colectivitatea generală este reintrodusă în
baza de sondaj, după ce a fost citită şi caracteristicile au fost înregistrate;

4
 fără revenire, adică unităţile sunt extrase din colectivitatea generală, iar după înregistrarea
caracteristicilor lor ele nu mai sunt reintroduse în colectivitatea de bază.
Prelucrarea statistică.
După ce datele statistice sunt colectate din observări totale sau parţiale, acestea vor fi organizate
pentru a facilita prelucrarea lor statistică.
Prima etapă a prelucrării statistice constă în sistematizarea (clasificarea, gruparea) datelor
culese. În etapa de observare statistică se culeg date privitoare la o singură sau la mai multe
caracteristici considerate. Sistematizarea datelor se realizează prin gruparea şi clasificarea datelor
statistice, adică prin împărţirea lor în clase omogene după unul sau mai multe criterii de clasificare.
O clasă este omogenă dacă unităţile care compun populaţia studiată aparţin aceluiaşi tip
calitativ şi ca valoare diferă în mică măsură una de alta.
Tehnica grupării parcurge următoarele etape:
• alegerea şi folosirea caracteristicilor de grupare;
• alegerea numărului de grupe şi stabilirea mărimii intervalelor de grupare;
• enumerarea problemelor de studiu care se rezolvă prin metoda grupărilor.
Gruparea în funcţie de o caracteristică numerică începe, de regulă, cu observarea numărului
de valori (variante) distincte ale caracteristicii de grupare în cadrul colectivităţii cercetate.
Dacă valorile distincte ale caracteristicii studiate nu sunt prea numeroase, putem alege gruparea
pe variante, adică separarea unităţilor colectivităţii pe subcolectivităţi, în funcţie de varianta specifică.
Dacă numărul variantelor distincte este prea mare se trece la gruparea pe intervale omogene de
variaţie. Grupările pot fi clasificate astfel:
 după numărul caracteristicilor puse la baza grupării se disting: grupări simple şi grupări
combinate;
 după conţinutul caracteristicilor grupările pot fi: teritoriale, cronologice sau atributive.
Intervalele de variaţie sunt determinate de un şir de valori ale variabilei studiate delimitate faţă
de intervalele vecine prin limita inferioară şi limita superioară.
Intervalele de grupare pot fi: intervale egale sau neegale; intervale deschise sau închise;
intervale cu variaţie continuă sau intervale cu variaţie discontinuă (discretă).
Pentru sistematizarea datelor pe intervale de variaţie se recomandă utilizarea intervalelor de
mărime egală, cu excepţia cazurilor în care analiza datelor necesită folosirea unor intervale de mărime
neegală.
Pentru alegerea numărului de intervale de grupare (m) se poate utiliza şi relaţia lui Sturges (în
ipoteza repartiţiei aproximativ normale a unităţilor după variabila studiată): m  1  3.322 ln N , unde N
este volumul populaţiei studiate.

5
Pentru sistematizarea datelor pe intervale egale de grupare se stabileşte mai întâi amplitudinea
A a variaţiei caracteristicii (egală cu diferenţa dintre valoarea maximă şi valoarea minimă a
caracteristicii) apoi se stabileşte numărul de grupe m şi se calculează mărimea intervalului de grupare h
după relaţia:
A X max  X min
h 
m m
Mărimea intervalului (h) se recomandă a se rotunji la o valoare convenabilă în calcule.
Punctul de plecare în alcătuirea intervalelor de grupare se alege 0 sau un număr întreg puţin mai
mic decât valoarea minimă din mulţimea de date.
Limitele intervalelor de grupare trebuie stabilite respectând precizia datelor (cu acelaşi număr
de zecimale) astfel încât fiecare unitate să poată fi încadrată într-o singură clasă. Pentru cele m grupe se
vor stabili frecvenţele absolute prin numărarea unităţilor care se încadrează în fiecare grupă.
Dacă există grupe cu frecvenţă nulă, ori multe grupe cu o singură observaţie, poate fi necesară
revizuirea mărimii intervalelor sau a numărului de intervale.
Prin caracteristica de grupare se înţelege acea însuşire care stă la baza împărţirii colectivităţii
în grupe omogene. Valorile caracteristicilor numerice pot fi ordonate şi ierarhizate şi asupra lor se
pot efectua operaţii de prelucrare.
După conţinutul variabilelor, caracteristicile pot fi:
 caracteristici de timp (desemnează apartenenţa la un moment sau interval de timp),
 caracteristici de spaţiu (exprimă teritoriul căreia îi aparţine)
 caracteristici atributive care pot fi numerice (cantitative) sau calitative.
După cardinalul mulţimii observaţiilor caracteristicile numerice pot fi clasificate astfel:
 alternative (binare): spaţiul lor de observaţii este compus din două valori numerice (de
exemplu {0,1}) sau două modalităţi (de exemplu {adevărat , fals})
 cu un număr finit de valori numerice - în această categorie se încadrează toate variabilele
calitative, pentru care spaţiul observaţiilor (mulţimea valorilor individuale) este format dintr-un
număr finit de modalităţi, precum şi variabilele cantitative discrete (numărabile);
 variabile cantitative continue (mulţimea specifică a valorilor individuale este un interval de
numere reale).
După modul de obţinere şi caracterizare a fenomenului caracteristicile pot fi:
 caracteristici primare obţinute, de regulă, în etapa de culegere a datelor statistice;
 caracteristici derivate obţinute în procesul prelucrării variabilelor primare.
După structura algebrică cu care este înzestrată mulţimea valorilor individuale şi după tipul
scalei de măsurare, caracteristicile atributive pot fi clasificate astfel:
1. Variabilele calitative:

6
 nominale - se caracterizează prin faptul că mulţimea specifică a valorilor individuale
nu este înzestrată cu structură algebrică şi se măsoară pe o scală nominală (exemple:
starea civilă, ramura de activitate);
 ordinale - au mulţimea finită a valorilor individuale exprimate prin coduri numerice şi
cu o structură de ordine totală (≤ ) care defineşte în mulţimea valorilor o ierarhie.
2. Variabilele cantitative:
 ordinale - se caracterizează prin faptul că au o mulţime continuă de valori
individuale înzestrată cu o structură de ordine şi se măsoară pe scala de interval. Pe
scala de interval are sens definirea distanţei dintre valorile (numeric exprimate) ale unei
variabile. Punctul zero al acestei scale şi unitatea de măsură se pot alege în mod
arbitrar;
 cardinale - au mulţimea valorilor numerice înzestrată cu o structură de corp ordonat
iar scala de măsurare corespunzătoare este scala de raport. Spre deosebire de scala de
interval, scala de raport se caracterizează prin faptul că numai unitatea de măsură se
poate alege arbitrar, punctul zero (de origine) este dat în mod natural, specifică absenţa
fenomenului studiat. Două valori măsurate pe această scală, indiferent de unitatea de
măsură folosită se află în acelaşi raport.
În funcţie de posibilitatea de a ordona valorile variabilei, de egalitatea intervalelor dintre
valorile variabilei (de existenţa unei unităţi de măsură), de existenţa unei "origini" a variabilei (a unui
"zero absolut") putem distinge între patru niveluri de măsurare a variabilelor:
1. nivelul de măsurare nominal - presupune clasificarea unor atribute, fenomene în categorii care
trebuie să fie distincte, mutual exclusive (de exemplu "masculin" sau "feminin"). La acest nivel nu sunt
permise nici ordonarea, nici adunarea sau scăderea şi nici înmulţirea sau împărţirea. Acest tip de
variabile (respectiv scalele folosite în măsurare) indică numai faptul că exista o diferenţă calitativă între
categoriile studiate. Deoarece valorile acestui tip de variabile nu pot fi ordonate, problema "distanţei"
sau a intervalelor dintre valori nici nu poate fi pusă.
2. nivelul de masurare ordinal - implică clasificarea elementelor în categorii şi posibilitatea ordonării
acestora. La nivelul ordinal este permisă numai ordonarea dar nu este oferită nici o informaţie cu
privire la "distanţa" dintre valorile scalei de măsură. Exemple: calificativele "insuficient", "suficient",
"bine" şi "foarte bine".
3. măsurarea la nivel de intervalor - oferă în plus faţa de nivel anterior (cel ordinal) şi informaţia
referitoare la distanţa dintre valorile scalei şi este caracterizată de existenţa unor intervale egale. La
acest nivel sunt permise, în plus, operaţii de adunare sau scădere, dar nu există un zero absolut, ci unul
convenţional. Exemplu: temperatura măsurată în grade Celsius (intervalele dintre valori sunt egale, dar
punctul 0 este convenţional ales ca fiind temperatura la care apa îngheaţă).

7
4. măsurarea la nivel de raport - include toate caracteristicile nivelurilor anterioare (ordonare şi
intervale egale), plus existenţa unei "origini" sau a unui zero absolut care permite formularea unor
afirmaţii în termeni de proporţii (raporturi) între valori. La acest nivel sunt permise toate operaţiile.
Calitatea datelor înregistrate este un factor important care condiţionează calitatea informaţiilor.
Concordanţa acestora cu datele reale ale fenomenelor investigate constituie un obiectiv fundamental a
oricărei metode de înregistrare statistică.
În observarea statistică pot fi făcute erori care sunt determinate de factori ce conduc la
răspunsuri inexacte sau aproximative, de perceperea eronată a răspunsurilor sau transcrierea greşită a
acestora, de neclaritatea definirii unităţilor de observare, de imperfecţiunea metodelor şi mijloacelor de
observare, de factori subiectivi, etc. În general, prin eroare de înregistrare statistică se înţelege
diferenţa dintre rezultatul obţinut prin înregistrare şi mărimea reală a caracteristicilor (variabilelor)
observate. Principalele tipuri de erori statistice din etapa de observare sunt:
• erori întâmplatoare care pot surveni din neatenţie şi provoacă abateri în sensul măririi sau
micşorării nivelului real al fenomenului;
• erori sistematice care produc abateri semnificative de regulă într-un singur sens de la
realitatea observată.
Prevenirea erorilor se poate realiza prin testarea tehnicilor şi formularelor de înregistrare,
selectarea optimă şi pregătirea profesională a persoanelor care efectuează înregistrarea, pregătirea
psihologică a persoanelor care efectuează anchetele de sondaj, etc.

INDICATORUL STATISTIC

Indicatorul statistic este expresia numerică a unei trăsături observate pe o colectivitate definită
în timp şi spaţiu. Indicatorii statistici au anumite funcţii: de măsurare, de comparare, de sinteză, de
estimare, de verificare a ipotezelor, de testare a semnificaţiei parametrilor statistici utilizaţi.
Comparaţiile dintre date (comparabile) pot fi efectuate prin diferenţă sau prin raportare. În
funcţie de metoda obţinerii indicatorilor statistici şi de rolul jucat în cercetare, aceştia pot fi clasificaţi
în două categorii:
 indicatori absoluţi (primari) - sunt rezultatul observării şi sistematizării datelor şi reflectă
dimensiunea, mărimea, amplitudinea fenomenului în unităţi concrete, specifice de măsură;
 indicatori derivaţi (secundari) - se obţin în procesul de calcul statistic şi reflectă într-o
manieră, de regulă abstractă, aspecte calitative, evolutive ale colectivităţii cercetate.
Dintre indicatorii derivaţi amintim: mărimile relative şi mărimile medii ; indicatorii variaţiei şi
ai asimetriei; indicii statistici ; parametrii funcţiilor de regresie şi ajustare, etc.

8
În urma comparării prin diferenţă a datelor care se referă la unităţi diferite din colectivitate, se
obţine indicatorul derivat modificare absolută sau diferenţă absolută. Acest indicator semnifică ori
creşterea ori reducerea absolută.
Indicatorii statistici derivaţi care se obţin în urma comparării prin raportare se numesc mărimi
relative sau indicatori relativi. Prin definiţie, o mărime relativă exprimă numeric proporţiile
indicatorului primar în raport cu indicatorul primar bază de raportare (bază de comparaţie).
În funcţie de scopul analizei, mărimile relative pot fi clasificate în:
 mărimi relative de dinamică (sau indici de dinamică) care exprimă de câte ori (sau cât la sută)
se modifică valoarea variabilei X dintr-o perioadă de timp t faţă de cea dintr-o perioadă de
referinţă, adică exprimă variaţia în timp a nivelului unei caracteristici pentru a caracteriza
variaţia unui fenomen;
 mărimi relative de structură (numite ponderi) exprimă ponderea, cota parte, greutatea
specifică unui element sau a unui grup de elemente în totalul colectivităţii, fiind o mărime a
raportul părţilor faţă de întreg care oferă informaţii despre structurile calitativ distincte ale
populaţiei statistice;
 mărimi relative de coordonare compară două elemente sau două grupuri ale aceleiaşi
colectivităţi sau două colectivităţi similare situate în spaţii diferite, coexistente în timp de forma
a/b sau b/a;
 mărimi relative de plan calculează raportul dintre nivelul propus de activitate şi nivelul
realizărilor perioadei precedente sau calculează raportul dintre nivelul realizat şi obiectivul
planificat;
 mărimi relative de intensitate se calculează comparând prin raportare valorile unei
caracteristici x cu valorile unei alte caracteristici y, cele două variabile aflându-se într-o legătură
logică de intercondiţionare.
În vederea aplicării metodelor de calcul şi interpretare statistică, rezultatele sistematizarii
datelor se prezintă sub formă de serii statistice.
Seria statistică este formată din totalitatea datelor referitoare la manifestările unui fenomen
colectiv sub forma a două şiruri de date:
- primul şir este format din variabila (ordonată) şi modul în care a fost
sistematizată;
- al doilea şir este format din frecvenţa de apariţie (absolută sau relativă), adică
nivelul unei variabile în raport cu primul şir.
În funcţie de natura caracteristicii de grupare putem grupa seriile statistice în trei tipuri
distincte:
• serii cronologice (dinamice) în care caracterstica de grupare este o variabilă de timp;

9
• serii teritoriale (de spaţiu) în care variabila de grupare este o caracteristică administrativ-
teritorială;
• serii de repartiţie (de distribuţie) în care caracteristica de grupare este un atribut cantitativ
sau calitativ al colectivităţii cercetate.

Serii de timp (cronologice)

Serii unidimensionale
(simple) sau serii
Serii de spaţiu (teritoriale)
independente

Serii de variabile atributive

Distribuţii de Distribuţii de
variabile numerice variabile nenumerice

Repartiţie Cu frecvenţe
Serii interdependente bidimensionale comune
(serii condiţionate)
multidimensionale

Repartiţie Cu frecvenţe
multidimensionale diferite

Seriile de distribuţie ale frecvenţelor pot fi:


 simple, când avem un şir de variante privind aceiaşi variabilă
(x1, x2,…,xi,…,xn) unde, i  1, n
 de frecvenţe, când fiecărei variante i se ataşează câte o frecvenţă
 x1 x 2 ... xi ... x k 
  unde k<n
 n1 n 2 ... ni ... n k 
Pentru caracterizarea seriilor statistice se vor studia următoarele aspecte:
- omogenitatea termenilor din punct de vedere al conţinutului variabilei;
- variabilitatea termenilor în funcţie de modul de asociere a factorilor;
- independenţa termenilor;
- tendinţa de concentrare către anumite zone ale variaţiei;
- tendinţa de diversificare identificată prin existenţa unor frecvenţe relativ uniforme
pentru toată seria.

10
Dacă o anumită caracteristică se înregistrează de mai multe ori într-o colectivitate de N
elemente atunci numărul de apariţii ale valorii xi a caracteristicii se notează cu ni şi se numeşte
frecvenţă absolută a clasei de valori.
Suma tuturor frecventelor absolute ale tuturor valorilor caracteristicii unei populaţii statistice
finite este egală cu volumul sau efectivul total al populaţiei statistice:
k
N  n1  n2  ...  nk   ni
i 1

unde N este volumul sau efectivul total al populaţiei statistice şi k este egal cu numărul de valori
distincte ale caracteristicii studiate.
Pe lângă frecvenţa absolută a unei clase de valori, în studiul statistic sunt utile următoarele
tipuri de frecvenţe:
1. frecvenţa absolută cumulată crescător a unei clase de valori (notată cu nc) care este egală cu
suma frecvenţelor absolute ale tuturor claselor de valori începând de la caracteristica de
valoare minimă până la caracteristica la care am ajuns, inclusiv aceasta;
2. frecvenţa absolută cumulată descrescător a unei clase de valori (notată cu nd) care este egală
cu suma frecvenţelor absolute ale tuturor claselor de valori începând de la caracteristica de
valoare maximă până la caracteristica la care am ajuns, inclusiv aceasta;
2. frecvenţa relativă a unei clase de valori (notată cu fi) este raportul dintre frecvenţa sa absolută
ni corespunzătoare caracteristicii studiate şi efectivul (volumul) total N al poplaţiei statistice
studiate;
3. frecvenţa relativă cumulată crescător a unei clase de valori (notată cu fc) este suma
frecvenţelor relative ale claselor de valori începând de la caracteristica de valoare minimă până
la clasa la care am ajuns, inclusiv aceasta;
4. frecvenţa relativă cumulată descrescător a unei clase de valori (notată cu fd) este suma
frecventelor relative ale claselor de valori începând de la caracteristica de valoare maximă până
la clasa la care am ajuns, inclusiv aceasta.
Dacă x1 ,..., xk sunt valorile caracteristicii studiate şi f1 ,..., f k sunt frecvenţele relative

 x1 ...xk 
corespunzătoare fiecărei valori a caracteristicii, atunci X n    se numeşte distribuţia statistică
 f1 ... f k 
corespunzătoare caracteristicii studiate, iar mulţimea formată din perechile ( xi , f i ) formează seria

 xi 
statistică. Distribuţia statistică (sau variabila aleatoare X) se notează şi astfel: X k   
 fi i 1,k
Să considerăm o populaţie statistică cu efectivul total N şi fie X caracteristica populaţiei
statistice care ia valorile x1, x2, x3....xp . Notăm cu ni numărul de unităţi statistice pentru care variabila X
ia valoarea xi, 1  i  p mulţimea tuturor perechilor (xi, ni) , 1 i p formează o serie statistică cu o
11
singură variabilă. În cazul în care variabila de grupare este discretă şi gruparea se efectuează pe
variante, seria de distribuţie de frecvenţe este discretă (pe variante):
Distribuţie de frecvenţe pentru o variabilă finită sau discretă
Variantele caracteristicii Numărul de unităţi statistice
(variabilei) (frecvenţa absolută)
x1 n1
x2 n2
.... ....
xk nk
k

TOTAL N  n1  n 2  ...  n k  n
i 1
i

Pentru o variabilă numerică continuă pentru care se obţine o serie de distribuţie (repartiţie) de
frecvenţe pe intervale, sub forma:
Distribuţie de frecvenţe pe intervale de variaţie
Intervale de variaţie ale Valoarile centrale ale Numărul de unităţi statistice
caracteristicii (variabilei) intervalelor (frecvenţa absolută)
a1 – a2 a a n1
x*1  1 2
2
a2 – a3 a a n2
x *2  2 3
2
........ ………. .................

ak – ak+1 ak  ak 1 nk
x *k 
2
k

TOTAL N  n1  n2  ...  nk   ni
i 1

Pentru o caracteristică de tip continuu, datele mai pot fi sistematizate într-un tabel de forma:
Intervale de variaţie
ale caracteristicii x1=[a1,a2) x2=[a2,a 3) ........................ xk=[a k,a k+1)
(variabilei)
Frecvenţa
n1 n2 ........................ nk
absolută
Valoarile centrale a1  a2 a2  a3 ak  ak 1
x*1  x *2  ........................ x *k 
ale intervalelor 2 2 2

Mărimea intervalului de grupare se calculează cu formula hi  ai 1  ai ( i {1, 2,..., k} ) unde

k este numărul de intervale de grupare, ni este frecvenţa absolută care indică numărul total de unităţi
statistice care au valoarea variabilei situată într-un interval [ai , ai 1 ) sau (ai , ai 1 ] (după cum sunt

considerate intervalele de variaţie ale variabilei).

12
Dacă intervalele sunt neegale, pentru asigurarea comparabilităţii datelor se pot calcula
frecvenţe reduse la un interval etalon (standard). Frecvenţa redusă (corectată) a unui interval, notată cu
nicorectata se calculează prin raportarea frecvenţei absolute la un factor de corecţie

hi
H
hetalon
ce reprezintă numărul maxim al intervalelor etalon care se încadrează (încap) într-un interval de
grupare:
ni
nicorectata 
H
unde hi este egal cu mărimea intervalului i, iar hetalon reprezintă mărimea intervalului etalon (egal cu
mărimea celui mai mic interval de grupare).

PREZENTAREA DATELOR STATISTICE

Tabelul statistic constituie o modalitate de prezentare a datelor statistice. Pe lângă funcţia de


prezentare a rezultatelor prelucrării primare şi secundare a datelor statistice, tabelele statistice au şi
funcţia sistematizare a datelor în vederea prelucrării lor. Tabelele statistice conţin una sau mai multe
serii statistice. În funcţie de rolul lor în analiza şi prelucrarea datelor statistice, tabelele statistice pot fi:
simple (descriptive), de prelucrare, pe grupe (obţinute în urma sistematizării datelor), combinate, de
asociere, etc.
Reprezentarea grafică este o metodă de descriere a datelor prin intermediul figurilor
geometrice. Graficul este o imagine care prin diferite mijloace de prezentare scoate în evidenţă ceea ce
este esenţial în evoluţia fenomenelor, în ceea ce priveşte proporţiile şi corelaţiile cu alte fenomene de
aceeaşi natură sau calitativ diferite. Graficele statistice sunt reprezentate cel mai adesea într-un sistem
de axe de coordonate rectangulare (ortogonale).
Elementele unui grafic statistic sunt:
 reţeaua graficului, alcătuită dintr-un sistem de linii verticale şi orizontale sau de cercuri
concentrice care ajută la construirea graficului;
 scara de reprezentare stabileşte corespondenţa dintre o unitate de măsură aleasă pe grafic şi
unitatea relativă la X (sau Y);
 legenda graficului are rolul de a facilita înţelegerea reprezentării construite;
 titlul, sursa datelor, numerotarea, note explicative sunt elemente comune şi tabelelor
statistice.

13
Pentru o serie de distribuţie de frecvenţe după o variabilă numerică discretă (pe variante)
reprezentările grafice care ne permit să vizualizăm distribuţia de frecvenţe sunt diagramele statistice.
Dintre acestea se pot utiliza:
 diagramele prin benzi (formate din dreptunghiuri cu baze congruente şi înălţimile
proporţionale cu fregvenţele relative sau absolute),
 diagramele-bară
 diagrame circulare (în care sectoarele circulare ale unui disc au unghiurile la centru
proporţionale cu frecvenţele relative).
Diagrama prin coloane şi diagrama prin benzi
EXEMPLU:
Reprezentarea grafică este prin diagrama prin coloane este:

Diagrama prin coloane

30%
24%
25%
frecvenţa relativă

20%
20%
16% 16%
15% 12%

10% 8%
4%
5%

0%
Firma A Firma B Firma C Firma D Firma E Firma F Firma G
caracteristica

Diagram a pr in be nzi

Firma G 8%
Firma F 16%
caracteristica

Firma E 24%
Firma D 16% Series1
Firma C 12%
Firma B 20%
Firma A 4%

0% 10% 20% 30%


fr ecvenţa re lativă

O altă modalitate de a prezenta grafic datele pe care le avem la dispoziţie cu privire la o serie de
distribuţie de frecvenţe este diagrama de structură:

14
 xi 
În cazul unei serii statistice cu valori discrete,   se preferă reprezentarea într-un sistem
 ni i 1,k
ortogonal de axe de coordonate a punctelor de coordonate (xi , n i) în cazul frecvenţelor absolute, sau a
punctelor de coordinate (xi ,fi) în cazul frecvenţelor relative.
Linia poligonală care uneşte punctele Mi (xi , ni) (unde ni rerezintă efectivul sau volumul
corespunzător caracteristicii xi ) se numeşte poligonul frecvenţelor absolute.
Linia poligonală care uneşte punctele Ni (xi , fi) (unde fi rerezintă frecvenţa relativă
corespunzătoare caracteristicii xi) se numeşte poligonul frecvenţelor relative.

Poligonul frecvenţelor

30%
Frecvenţele relative (%)

25% 24%
20% 20%
15% 16% 16%
12%
10%
8%
5% 4%
0%
Firma A Firma B Firma C Firma D Firma E Firma F Firma G
Com pania

Pentru o serie de distribuţie de frecvenţe după o variabilă numerică continuă (pe intervale),
reprezentările grafice care ne permit să vizualizăm distribuţia de frecvenţe sunt histograma şi
poligonul frecvenţelor.
Metoda histogramei:
Fie o distribuţie statistică ce are valori continue, de tipul

15
 [ai , ai 1 ) 
Xn    , i  1, k .
 if 
Fie Ai punctele de coordonate (a i,0) (cu i  {1,..., k} ). Pe segmentele A1A2, A2A3, .... , AkAk+1 ,
construim dreptunghiurile alăturate cu una dintre laturi (Ai-1Ai) situată pe axa absciselor (Ox) de
lungime egală cu amplitudinea clasei de valori (ai+1 – ai) (adică lungimea intervalului [ai, ai+1) ).
Ariile acestor dreptunghiuri trebuie să fie proporţionale cu frecvenţele lor (relative sau absolute)
ale claselor respective. O astfel de reprezentare ţine seama nu numai de frecvenţa relativă fi a clasei de
valori [a i, ai+1) ci şi de lungimea intervalului în care se situează datele din clasă. Astfel, înălţimile
dreptunghiurilor din histogramă se calculează din:

(a2  a1 ) h1 ( a3  a2 )h2 (a  a )h
  ...  k 1 k k
f1 f2 fk

Observaţii:
1. Histograma se recomandată în cazul variabilelor cantitative tocmai pentru faptul că acest tip de
variabile fie sunt fie continue, fie avem un număr foarte mare de valori chiar dacă sunt discrete. În
stabilirea mărimii intervalelor trebuie să ţinem cont de faptul că, intervale prea mari pot duce la
pierderea de informaţie, în timp ce intervale prea mici poate ascunde informaţii asupra distribuţiei
variabilei.
2. În cazul histogramei fiecare bară reprezintă un interval de valori de aceea lăţimea barei variază
odată cu mărimea intervalului, aceasta din urmă fiind stabilită de către cercetător.
3. În cazul diagramei-bară fiecare bară corespunde unei singure valori (categorii) a variabilei. În plus,
pentru a evidenţia faptul că datele nu sunt continue, barele nu sunt lipite între ele (cum se întâmplă în
cazul histogramei).
4. Când intervalele devin suficient de mici, iar numărul de cazuri rămâne finit pe fiecare interval, poligonul
frecvenţelor apare ca o curbă netedă

16
EXEMPLU: Reprezentarea grafică a distribuţiei elevilor dintr-o clasă după nota obţinută la o lucrare
de control se prezintă în graficul următor:

Histograma şi poligonul frecvenţelor oferă o primă imagine asupra tendinţei de normalitate sau
asupra asimetriei unei serii de distribuţie de frecvenţe.
O distribuţie normală, perfect simetrică (în forma clopotului lui Gauss-Laplace) este o
distribuţie teoretică la care se face adeseori apel în analiza statistică, deşi este foarte rar întâlnită în
practică. În cele mai multe cazuri, distribuţiile de frecvenţe empirice au tendinţă de normalitate, dar un
anumit grad de asimetrie:

O altă modalitate de descriere a datelor cantitative continue poate fi realizată pe baza


frecvenţelor cumulative, utilizând curba frecvenţelor cumulative. Suprapus peste curba frecvenţelor
cumulate crescător sau într-un grafic separat se poate reprezenta curba frecvenţelor cumulate
descrescător. De asemenea, curba frecvenţelor cumulative se poate reprezenta şi pe baza
frecvenţelor relative cumulate.

17
Diagrama de împrăştiere (corelograma)

Cronogramă trasată prin a) linii; b) coloane

În cazul datelor bivariate, sistematizate într-o serie de distribuţie de frecvenţe bidimensională, reprezentarea
grafică uzuală în sistemul de coordonate rectangulare este diagrama de împrăştiere:

Cronograma
O serie cronologică se reprezintă grafic prin intermediul cronogramei sau historiogramei. În
sistemul de coordonate rectangulare, pe axa absciselor se marchează unităţile de timp (t) — momente
sau intervale — iar pe axa ordonatelor valorile variabilei (yt).

Diagrama polară
În cazul în care seria cronologică prezintă variaţii sezoniere, pentru reprezentarea grafică a evoluţiei
unui fenomen putem folosi diagrama polară (radială), construită în sistemul de coordonate polare:

18
Diagramă polară
Diagrama prin suprafeţe
O serie teritorială se poate reprezenta grafic prin diagrame prin coloane, benzi ori diagramă
prin suprafeţe. În diagrama prin suprafeţe se construiesc pătrate sau cercuri, cu suprafeţele
proporţionale cu valorile reprezentate.
În cazul fenomenelor complexe, care se descompun în produsul a trei factori se poate folosi
diagrama de volum trasată prin paralelipipedul dreptunghic. Cei trei factori se vor reprezenta pe
lungimea, lăţimea şi înălţimea paralelipipedului, iar nivelul fenomenului complex prin volumul
acestuia.
Exemplu: Populaţia globului pe continente (in anul 2008):

Reprezentarea grafică este:

Diagramă de suprafaţă
Alte tipuri de reprezentări grafice: Dacă aceste diagrame pot fi construite şi pentru alte serii statistice
(de exemplu: serii de distribuţii de frecvenţe homograde), o modalitate specifică de reprezentare grafică
a seriilor teritoriale este cartograma sau cartodiagrama, în care pe o hartă se construiesc diagrame (în

19
cazul cartodiagramei), se haşurează sau se colorează diferit unităţile teritoriale (în cazul cartogramei),
în funcţie de nivelul înregistrat al variabilei.

TENDINŢA CENTRALĂ, VARIAŢIA ŞI FORMA DISTRIBUŢIEI

Având la dispoziţie un set de date numerice analizate din punct de vedere statistic, putem
determina valorile maxime şi minime, distribuţia frecvenţelor, histograma şi poligonul frecvenţelor.
Aceste instrumente permit identificarea formei aproximative a distribuţiei şi indică în jurul cărei valori
sunt concentrate nivelurile individuale ale variabilei.
În continuare vom calcula indicatorii numerici descriptivi care permit o analiză mai atentă a
datelor în comparaţie cu impresia generală pe care o oferă prezentarea datelor sub formă de serii, tabele
şi grafice. Cele trei proprietăţi majore ale seriilor de date numerice sunt cele privitoare la tendinţa
centrală, la variabilitatea şi la forma distribuţiilor.
Indicatorii care caracterizează tendinţa centrală din forma de manifestare a fenomenelor au ca
principală funcţie aceea de a sintetiza valorile individuale înregistrate ale caracteristicilor urmărite
astfel încât să fie posibilă substituirea acestora fără să modifice esenţa şi relaţia obiectivă dintre date.
Indicatorii utilizaţi în studiul statistic se pot grupa astfel:
 Indicatorii de frecvenţe: absolute, relative şi cumulate;
 Indicatorii tendinţei centrale: media, mediana, modul;
 Indicatori medii de poziţie denumiţi şi medii de structură sau medii de frecvenţe:
mediana, cuartilele, decilele, centilele;
 Indicatori ai variaţiei totale: amplitudinea variaţiei, abaterile individuale,
abaterea medie liniară, abaterea medie pătratică (abaterea tip sau abaterea
standard), dispersia şi coeficientul de variaţie;
 Indicatorii de variaţie intercuantilică;
 Indicatorii de asimetrie;
 Indicatorii ai concentrării/diversificării.

I. Indicatorii tendinţei centrale

Mărimile medii
Mărimile medii sunt valori abstracte care caracterizează întrega colectivitate utilizate pentru
caracterizarea tendinţei centrale.

20
Media trebuie înteleasă ca un nivel capabil să exprime esenţa comună a majorităţii
manifestărilor individuale ce alcătuiesc colectivitatea cercetată. În funcţie de modul de determinare,
indicatorii tendinţei centrale se clasifică în:
 indicatori (mărimi) medii de calcul: media aritmetică, armonică, pătratică, geometrică etc.;
 indicatori medii de poziţie: modul (moda sau valoarea modală) şi mediana.
Mediile calculate se determină pe baza tuturor valorilor caracteristicilor înregistrate într-o
colectivitate.
Calculul mediei trebuie să fie precedată de verificarea omogenităţii colectivităţii relativ la
caracteristica urmărită. În cazul în care mulţimea valorilor individuale înregistrate este eterogenă, după
eliminarea datelor aberante, colectivitatea se structurează pe grupe omogene, iar apoi se calculează
adecvat medii parţiale (pe grupe). În aceste condiţii media unei caracteristici pe întregul ansamblu
apare ca o sinteză adecvată a mediilor parţiale.
Indicatori medii de calcul:
Media se calculează în funcţie de natura obiectivă dintre date dar şi în funcţie de forma de
repartizare a frecvenţelor, ca medie simplă sau ponderată.
Mediile simple se calculează atunci când se utilizează toate variantele înregistrate. În cazul în
care după sistematizarea/gruparea datelor, valorile individuale prezintă frecvenţe diferite de apariţie,
nivelul mediu se calculează ca medie ponderată.
Media aritmetică este cea mai populară măsură a tendinţei centrale a unei distribuţii. În sens
statistic, media aritmetică (sau momentul iniţial de ordinal unu) a valorilor individuale x1,x2,...xN ale
caracteristicii numerice X reprezintă acea valoare x care s-ar fi înregistrat dacă toţi factorii de influenţă
ar fi acţionat constant, cu aceeaşi intensitate, la nivelul fiecărei unităţi de înregistrare. Ea se calculează
ca sumă a tuturor valorilor observate (ţinând cont de ponderea fiecărei valori distincte care este egală
cu frecvenţa absolută corespunzătoare fiecărei variante) ale seriei de date împărţită la numărul total de
observaţii:
k

n  x  n  x  ...  nk  xk n  x
i 1
i i
x 1 1 2 2 
N N
unde: x este media, k este numărul de categorii (valori distincte) ale variabilei, ni reprezintă frecvenţa
absolută (ponderea) de apariţie a categoriei i, xi este valoarea caracteristicii i (valoarea categoriei i) şi N
este numărul total de observaţii.
Pentru cazurile seriilor statistice continue (datele sunt grupate pe intervale) se consideră ca
"valori ale variabilei" centrele de interval. Această convenţie este indusă de ipoteza că frecvenţele sunt
uniform distribuite în interiorul tuturor intervalelor de grupare. Dacă se întâmplă ca valoarea minimă şi

21
respectiv valoarea maximă a seriei de date să nu fie cunoscute, rămâne la latitudinea cercetătorului să
decidă care valori urmează să atribuie respectivelor centre de interval.
Dacă xi* reprezintă valoarea centrală a clasei de grupare Ci dată de

 xi , dacă C i  xi

xi*   a  a
i 1
 i , dacă C i  [ ai , a i 1 ]
 2
unde i  {1, 2,..., k} , k este numărul de valori distincte (variante) ale variabilei studiate,
ni reprezintă frecvenţa absolută de apariţie a categoriei i,
N este numărul total de observaţii, atunci tipurile de medii utilizate într-un studiu statistic sunt:
 Media aritmetică

x1*  n1  x2*  n2  ...........  xk *  nk


x
N
 Media geometrică
n1 nk
x g  N  x1*   ....   xk * 
 Media armonică se defineste ca valoarea inversa a mediei aritmetice a inverselor
valorilor individuale înregistrate:
N
xh 
n1 n
*
 .....  k*
x1 xk
 Media patratică

n1  ( x1* ) 2  .....  nk  ( xk * ) 2
xp 
N

Observaţii:
În cazul în care caracteristica urmărită este alternativă, calculul nivelului său mediu se face, în mod
convenţional, astfel:
 unităţile colectivităţii se împart în două grupe: una formată din unităţile la care se
înregistrează forma directă de manifestare a caracteristicii şi o alta formată din acele unităţi la
care s-a înregistrat opusul formei directe de manifestare;
 în mod convenţional, această caracteristică alternativă se exprimă numeric după cum urmează:
se acordă valoarea 1 pentru variantele cu răspuns afirmativ (forma directă) şi valoarea
zero variantelor cu răspuns negativ (forma opusă)

22
0  n0  1 n1
 se calculează media aritmetică x  ,
n0  n1
unde n0 este egal cu numărul variantelor cu răspuns negativ (cu valoarea 0) şi

n1 este egal cu numărul variantelor cu răspuns pozitiv (cu valoarea 1).

Observaţii:
1. Definiţia dată mediei aritmetice este adevărată numai dacă valorile individuale înregistrate sunt
numerice. Pentru o serie cu valori nenumerice sau cu valori măsurabile pe o scală nominală sau
ordinală nu se poate calcula media aritmetică;
2. Mărimea calculată a mediei aritmetice este unică şi se încadrează între valoarea minimă şi maximă a
şirului de date;
3. Mărimea mediei aritmetice poate să coincidă sau nu cu o valoare individuală înregistrată;
4. Suma diferenţelor dintre toate valorile individuale înregistrate şi media lor aritmetică este egală cu
zero, deci abaterile pozitive şi negative faţă de tendinţa centrală, la nivelul ansamblului, se
compensează reciproc;
5. Dacă valorile individuale ale unei variabile sunt mărite (sau micşorate) cu constanta „a“, atunci
media aritmetică se modifică şi ea, în acelaşi sens, cu aceeaşi constantă „a“;
6. Dacă valorile individuale ale unei variabile sunt modificate de k ori atunci media aritmetică se
modifică şi ea de k ori;
7. Vom utiliza media armonică ca măsură a tendinţei centrale într-un ansamblu de observaţii cantitative
numai dacă este obiectivă însumarea inverselor valorilor individuale, deoarece media armonică se
defineşte ca valoare inversă a mediei aritmetice a inverselor valorilor individuale înregistrate.
8. Vom utiliza media geometrică ca indicator al tendinţei centrale în cazul în care fenomenul studiat
înregistrează modificari aproximativ în progresie geometrică, prezentând diferenţe mari între variantele
caracteristicii la începutul seriei şi din ce în ce mai mici spre finalul acesteia.
9. Vom utiliza media pătratică pentru caracterizarea tendinţei centrale în cazul în care fenomenele
studiate prezintă creşteri exponenţiale, creşterea fiind lentă la început şi din ce în ce mai pronunţată
spre sfârşitul seriei.
10. Dacă o serie statistică este alcătuită din mai multe serii componente, pentru care s-au calculat medii
parţiale atunci media întregii serii poate fi calculată ca o medie aritmetică ponderată din mediile
parţiale.
x 
Media aritmetică a unei distribuţii statistice X n   i  , i  1, k este egală cu
 fi 
k
x  f1  x1  f 2  x2  ...  f k  xk   f j  x j
j 1

23
nj
unde f j  , () j  1, k reprezintă frecvenţele relative ale caracetristicii studiate.
N

Indicatori de poziţie:
Mediile poziţionale se identifică, de regulă, în rândul variantelor reale ale colectivităţii fără a
face calcule deosebite. Aceste mărimi ţin seama de poziţia lor în colectivitate. Există două tipuri de
medii poziţionale: valoarea mediană (sau mediana) şi valoarea modală (modul sau moda).
Mediana reprezintă acea valoare a caracteristicii care ocupă poziţia centrală într-o colectivitate
ordonată crescator sau descrescător. Cu alte cuvinte, mediana este acea valoare a unei variabilei care
împarte seria ordonată de date în două părţi egale, astfel încât 50% din observaţii sunt situate deasupra
valorii mediane iar 50% sub ea.
Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe pe variante (discrete),
pentru determinarea medianei vom calcula, mai întâi, locul medianei se calculează cu relaţia:
N+1
LocMe=
2
unde N este numărul total al unităţilor populaţiei studiate.
Dacă avem un număr impar de observaţii, mediana este egală cu valoare caracteristicii aflate pe
locul medianei în şirul ordonat (crescător sau descrescător) de date.
În cazul în care avem un număr par de observaţii nu va mai exista o singură valoare la mijlocul
seriei de date, ci vom avea două valori. În această situaţie, mediana se află la mijlocul "distanţei" dintre
aceste valori, cu alte cuvinte mediana este egală cu media aritmetică a valorilor caracteristicii aflate pe
N N
locul şi pe local  1 în şirul crescător (sau descrescător) de date.
2 2
În cazul distribuţiei de frecvenţe pe intervale valoarea mediană se determină printr-un procedeu
de interpolare liniară, bazat pe ipoteza repartizării uniforme a frecvenţelor în intervalul median.
Procedeul de determinare a valorii mediane a caracteristicii în cazul distribuţiilor pe intervale se
desfăşoară în următoarele etape:
1. se determină intervalul median Cs (numit şi clasa mediană) dat prin:
C1  [a1 , a2 ) dacă f1  50%,

Cme  s 1 s

Cs  [as , as 1 ) dacă  f i  50%   fi , cu 1  s  k .


 i 1 i 1

2. în cadrul intervalului median, valoarea medianei se determină prin interpolare cu ajutorul relaţiei
următoare:
s
50%   f i
i 1
Me  as   (as 1  as )
fs

24
unde:
 Me este valoarea medianei,
 as este limita inferioară a intervalului care conţine mediana,
 N este numărul total de observaţii,
s
 f
i 1
i este frecvenţa relativă cumulată crescător a tuturor categoriilor care preced intervalul care

conţine mediana,
 f s este frecvenţa relativă a intervalului care conţine mediana
Pentru determinarea grafică a medianei avem următoarele posibilităţi:
1. Se foloseşte curba frecvenţelor cumulate (crescător sau descrescător): se duce o paralela la axa
k

f
j 1
j

Ox prin punctul de pe axa Oy care are ordonata egală cu . Din punctul de intersecţie al
2
acesteia cu curba frecvenţelor cumulate se coboară o perpendiculara pe axa Ox. Abscisa
piciorului perpendicularei este egală cu valoarea medianei.
2. Se reprezintă curbele frecvenţelor cumulate crescător şi descrescător în acelaşi sistem de axe de
coordonate. Din punctul de intersecţiei al acestor două curbe se coboară o perpendiculara pe
Ox. Abscisa piciorului perpendicularei corespunde cu valoarea medianei.
3. Mediana poate fi determinată folosind histograma. Pentru aceasta se calculează suma ariilor
dreptunghiurilor din histogramă şi se trasează o dreaptă paralelă cu axa Oy care să împartă aria
totală a histogramei în două părţi egale. Punctul de intersecţie dintre această dreaptă şi axa Ox
are abscisa egală cu valoarea medianei.
Observaţii:
1. Mediana unei distribuţii continue se poate obţine ca soluţie a ecuaţiei F(x)=1/2, unde F este
funcţia de frecvenţă cumulată.
2. Suma frecvenţelor relative ale valorilor inferioare medianei Me este egală cu suma frecvenţelor
relative ale valorilor superioare medianei.
3. Mediana este influenţată de numărul variabilelor pentru fiecare clasă (frecvenţa absolută), fiind
egală cu caracteristica ce împarte efectivul total (volumul populaţiei statistice studiate) în două
părţi de aceeaşi frecvenţă.
Mediana este un caz special de măsură a localizării. Măsurile localizării sunt de obicei
cunoscute sub numele de percentile sau quantile.
Cuantilele sunt indicatori care descriu anumite poziţii localizate în mod particular în cadrul
seriilor de distribuţie. Conceptul de cuantilă indică o divizare a distribuţiei observaţiilor într-un număr
oarecare de părţi. Prin urmare, cuantilele de ordin r sunt valori ale caracteristicii care împart distribuţia

25
ordonată a observaţiilor în r părţi egale. Quantilele de ordin r sunt în număr de r-1: Q1 ,Q2 ,..., Qr 1

deoarece pentru a împărţi o serie de date în r părţi egale avem nevoie de r-1 valori. Fiecare subinterval
determinat de două quantile succesive (sau de un capăt la intervalului şi de quantila cea mai apropiată)
are acelaşi efectiv, adică 1/r din numărul total al unităţilor.
Cel mai adesea se utilizează următoarele cuantile:
- mediana sau cuantila de ordin 2 (pentru r=2);
- cuartilele sau cuantilele de ordinul 4 (pentru r=4);
- decilele sau cuantilele de ordinul 10 (pentru r=10);
- centilele sau cuantilele de ordinul 100 (pentru r=100).
Quartilele sunt acele valori ale seriei de date care împart intervalul total al datelor în patru părţi
egale. Există 3 quartile: Q1, Q2 şi Q3:
 Sub quartila Q1 se află 25% din cazuri, iar deasupra ei 75%;
 Sub quartila Q2 se afla 50% din cazuri, de unde reiese ca această quartilă este chiar mediana;
 Sub quartila 3 se află 75% din cazuri, iar deasupra ei se află 25% din cazuri (observaţii).

Cuartilele într-o serie de repartiţie

Cuantilele de ordin superior (r > 4) se calculează în cazul distribuţiilor cu număr mare de grupe
sau clase de valori individuale.
Decilele (în număr de 9) sunt acele valori ale caracteristicii care împart aria de variabilitate în
zece părţi (intervale) egale, conţinând fiecare 10% din numărul observaţiilor. În cadrul unei serii
simple, conform definiţiei, cele 9 decile (D1, D2, D3, D4, D5 = Me, D6, ..., D9) se determină după
procedura prezentată în cazul medianei.
Centilele: Dacă avem la dispoziţie o colectivitate statistică cu un număr mare de unităţi şi cu o
variaţie foarte mare, pentru analiza statistică este util calculul cuantilelor de ordin mai mare ca 10, de
exemplu, cuantilele de ordinul 100. Centilele (în număr de 99) sunt valorile caracteristicii care împart
seria în 100 de părţi egale (fiecare parte conţinând 100 din numărul observaţiilor efectuate). Procedeul
de determinare a centilelor este asemănător cu cel al determinării medianei, cuartilelor şi decilelor
(cuantilelor de ordin mai mic ca 10). Centilele de rang 25 şi 75 se identifică cu quartielele Q1 şi Q3,

26
centila de rang 50 se identifică cu mediana, iar centilele de ranguri 10, 20, 30, 40, se identifică cu
decilele D1, D2, ..., D9.
Concluzie: Pe baza indicatorilor de poziţie se poate alcătui un rezumat al celor cinci indicatori, care
oferă informaţii privind tendinţa centrală şi forma distribuţiei studiate. Aceste cinci valori sunt:
 valoarea, minimă x min (denumită, uneori, percentila 0);
 cuartila inferioară Q1 (delimitează cele mai mici 25% din valori);
 mediana Me (care delimitează 50% din valori);
 cuartila superioară Q3 (care delimitează cele mai mari 25% din valori);
 valoarea maximă x max (denumită, uneori, a 100-a percentilă).
Cele cinci valori se reprezintă grafic prin intermediul diagramei Box-Plot:

Diagrama Box-Plot

Valoarea modală

Un alt indicator de poziţie este valoarea modală (numită şi modul, modă sau valoare
dominantă). Pentru o repartiţie discretă valoarea modală este uşor de determinat pe calea simplei
examinări a şirului de frecvenţe, absolute sau relative. Grafic, valoarea modală este egală cu valoarea
variabilei căreia îi corespunde "un vârf" al distribuţiei.
Deşi simplu de obţinut, valoarea modală nu este întotdeauna cea mai bună măsură a tendinţei
centrale, deoarece de multe ori depinde de gruparea arbitrară a datelor. De asemenea, se întâlnesc
distribuţii bimodale, în care există două valori diferite ale variabilei care apar cu o aceeaşi "cea mai
mare" frecvenţă. Grafic, o distribuţie bimodală este o distribuţie cu două "vârfuri".
În cazul seriilor de repartiţie pe intervale egale, valoarea modală se determină în următoarele
etape:
 se identifică intervalul modal (sau clasa modală) care este intervalul cu frecvenţa (absolută sau
relativă) cea mai mare. În interiorul intervalului modal se estimează valoarea modală.
 se calculează valoarea modală
Clasa modală a unei clase de grupare este un interval Cr care verifică inegalităţile:
f r 1  f r  f r 1

27
unde r {1, 2,..., k} şi k este numărul de clase (intervale) şi fi este frecvenţa relativă

corespunzătoare caracteristicii i.
Observaţii:
1. O distribuţie statistică poate avea mai multe clase (intervale) modale.
2. Pentru determinarea grafică a valorii modale se poate folosi histograma. Se unesc vârfurile
coloanei maximale cu punctele de incidenta ale coloanelor adiacente. Abscisa punctului de
intersecţie a acestor două segmente este egal cu valoarea modală;

Folosind clasa modală, putem exprima valoarea modală ca fiind un număr real notat cu Mo
definit prin:
 xr , dacă Cr  xr ,

Mo   fr  f r 1
 ar  ( ar 1  ar ) dacă Cr  [ ar , ar 1 )
 2 f r  f r 1  f r 1
Observaţii:
1. În cazul distribuţiilor statistice discrete valoarea modală este caracteristica pentru care
frecvenţa corespunzătoare este maximă;
2. În cazul distribuţiilor statistice continue, o clasă modală coincide cu intervalul din care face
parte valoarea modală (moda);
3. În mod asemănător se defineşte şi se poate determina valoarea antimodală, caracteristica
cea mai puţin probabilă (pentru care frecvenţa corespunzătoare este mai mică decât
frecvenţele alăturate f a 1  f a  f a 1 );
Concluzii: Localizarea în cadrul seriei a valorii mediei aritmetice, a valorii modale şi mediane conduce
la informaţii despre forma de distribuire a unităţilor colectivităţii după caracteristica urmărită.
Astfel:
- dacă există egalitatea x = Mo = Me atunci distribuţia frecvenţelor este simetrică;

28
- în cazul unei distribuţii unimodale uşor asimetrice, frecvenţele sunt uşor deplasate într-o parte sau
alta.

29
II. Indicatori ai variaţiei distribuţiei statistice

După calculul indicatorilor tendinţei centrale o atenţie deosebită trebuie acordată analizei
gradului de împrăştiere (variaţie) a valorilor individuale. Indicatorii de împrăştiere oferă informaţii
necesare atât pentru cunoaşterea variabilităţii din seriile statistice analizate cât şi pentru aprecierea
reprezentativităţii şi al încărcăturii informaţionale al valorilor utilizate în procesul decizional.
Analiza statistică a unei repartiţii poate fi aprofundată prin calculul indicatorilor de variaţie.
Acesti indicatori trebuie să servească la :
- verificarea reprezentativităţii mediei ca valoare tipică a unei populaţii statisatice;
- verificarea gradului de omogenitate a seriei;
- caracterizarea statistică a formei şi gradului de variaţie a unui indicator;
cunoasterea gradului de influenţă a factorilor după care s-a facut gruparea unităţilor observate.
Verificarea stabilităţii şi a reprezentativităţii valorilor înregistrate de indicatorii tendinţei
centrale este necesară în fundamentarea deciziilor. Pentru a cunoaşte şi a estima corect principalele
tendinţe ale unei caracteristici este absolut necesară determinarea domeniului de variaţie a acesteia. Cu
cât fenomenele au un grad mai mare de complexitate, cu atât variaţia (împrăştierea) valorilor
individuale este mai mare.
În analiza unei serii statistice de date cantitative ne interesează, pe lângă indicatorii tendinţei
centrale şi indicatorii variabilităţii, ai împrăştierii valorilor. Astfel, două (sau mai multe) serii statistice

pot să difere prin tendinţa centrală, prin împrăştierea datelor sau prin amândouă:

a) Distribuţii cu tendinţă centrală diferită;


b) Distribuţii cu variabilitate diferită;
c) Distribuţii cu tendinţă centrală şi variabilitate diferite

Calculul şi analiza indicatorilor variaţiei sau împrăştierii valorilor individuale faţă de tendinţa
centrală oferă posibilitatea de a determina:
 gradul de omogenitate a datelor din care s-au determinat indicatorii tendinţei centrale şi
verificarea reprezentativităţii acesteia;
 modul de dispersare a valorilor individuale în interiorul câmpului de variatie;
 compararea în timp şi spaţiu a mai multor serii de distribuţie, după caracteristici independente
sau interdependente.

30
Indicatorii variaţiei utilizaţi în analizele statistice sunt clasificaţi după mai multe criterii:
 după numărul variantelor luate în calcul (sau după gradul lor de sinteză) există indicatori simpli
şi indicatori sintetici;
 după modul de sistematizare a datelor primare există indicatori ai variaţiei calculaţi pentru serii
de distribuţie unidimensionale şi indicatori ai variaţiei calculaţi pentru serii multidimensionale;
 după modul de calcul există indicatori ai variaţiei calculaţi ca mărimi absolute şi ca mărimi
relative.
În cele ce urmează vom descrie aceşti indicatori:

A. Indicatori simpli ai variaţiei


Aceşti indicatori prezintă următoarele caracteristici generale:
 se determină dintr-un număr redus de valori individuale;
 se determină prin compararea sub formă de diferenţă şi se exprimă în unitatea de măsură a
variabilei observate;
 informaţiile despre variabilitate oferite în urma determinării şi analizării rezultatelor sunt extrem
de reduse şi nu vizează omogenitatea ansamblului de date înregistrate.
1. Amplitudinea variaţiei oferă posibilitatea cunoaşterii câmpului de variaţie a unui fenomen. Ea
se utilizează frecvent în prelucrarea statistică la alegerea numărului de intervale de grupare a datelor şi
la stabilirea mărimii intervalelor.
Amplitudinea variaţiei se clasifică în:
a). Amplitudinea absolută - se calculează ca diferenţa dintre variaţia maximă şi variaţia
minimă a caracteristicii:
A=xmax - xmin
unde xmax şi xmin reprezintă cea mai mare, respectiv cea mai mică valoare a caracteristicii
obţinută în selecţia efectuată;
b). Amplitudinea relativă - se determină raportând amplitudinea absolută la media
caracteristicii analizate, exprimându-se în procente :
x max  x min
A%   100
x
Amplitudinea relativă permite compararea gradului de variaţie a două sau mai multe variabile,
exprimate în unităţi de măsură diferite, obţinând următoarele rezultate:
- amplitudinea relativă a variaţiei care se situează sub 100 este specifică colectivităţilor
omogene;
- pe măsură ce amplitudinea relativă este mai mare decât 100 colectivitatea este din ce în ce mai
eterogenă iar media aritmetică a seriei statistice este mai puţin semnificativă.

31
2. Abaterea interquantilă se obţine împărţind intervalul dintre cea mai mică şi cea mai mare
valoare a datelor selecţiei în subintervale, astfel încât fiecare subinterval să conţină aproximativ acelaşi
număr de date ale selecţiei.
Abaterea interquantilă oferă informaţii despre concentrarea valorilor individuale în cadrul
seriei statistice, având acelaşi avantaj pe care îl are mediana prin faptul că nu este influenţată de
existenţa cazurilor extreme. Pentru acest parametru, sub formă absolută, avem:
qn 1  M e  M e  q1 qn 1  q1
q 
2 2
iar sub formă relativă denumită şi coeficient de variaţie interquantilic este:
q q q
qr  100  n 1 1 100
Me 2  Me
Cu cât abaterea interquantilică (relativă sau absolută) este mai mică, cu atât valoarea mediană
este mai reprezentativă.
Abaterea interquartilă (obţinută pentru r=4) măsoară lungimea intervalului care conţine 50%
din observaţii aflate la mijlocul distribuţiei. Acest indicator se exprimă în unitatea de măsură a
caracteristicii. Calculul abaterii intercuartilice prezintă avantajul că evită valorile individuale extreme
sau aberante. Abaterea interquartilă, prin definiţie, este media aritmetică simplă a segmentelor Me – Q1
şi Q3 – Me, respectiv:
M e  Q1  Q3  M e Q3  Q1
Qd  
2 2
şi arată cu cât se abat în medie, în plus sau în minus, de la mediană, cele 50% din valorile variabilei
cuprinse între Q1 şi Q3. Forma relativă a acestui indicator, numit şi coeficient de variaţie
intercuartilică este:
Q3  Q1
Q 2 Q  Q1
Vq  d   3
Me Me 2 Me
se numeşte coeficient de variaţie interquartilic şi arată cu cât se abat în medie de la mediană
(considerată egală cu 100), valorile variabilei înregistrate pentru cele 50% din unităţile populaţiei
cuprinse între Q1 şi Q3.
Pentru decile se pot calcula abaterea interdecilică:
( Me  D1 )  ( D9  Me) D9  D1
Dd  
2 2
şi coeficientul de variaţie interdecilică:
D9  D1
D 2 D  D1
Vd  d   9
Me Me 2 Me
3. Abaterea individuală de la medie este o măsură a variaţiei unei variabile care include toate
observaţiile, nu numai două dintre ele ca în cazul amplitudinii şi abaterii interquantile, oferind
informaţii asupra variaţiei valorilor caracteristicii în raport cu o măsură a tendinţei centrale (media sau
valoarea mediană).

32
Abaterea individuală absolută de la medie a unei observaţii se calculează ca diferenţa dintre
valoarea pe care o ia respectiva observaţie (valoarea caracteristicii) şi media variabilei:

d i  xi  x .
Abaterile individuale relative de la medie ( d i% ) se calculează ca raport între abaterea

individială absolută şi media aritmetică, exprimându-se în procente:

xi  x
di%  100
x
Una dintre proprietăţile mediei aritmetice este aceea că suma tuturor abaterilor individuale de la
medie este egală cu 0. În consecinţă, pentru a obţine o măsură a variaţiei la nivelul întregului eşantion
sau a întregii populaţii trebuie utilizată fie suma modulelor (a valorilor absolute) abaterilor individuale
de la medie, fie suma pătratelor acestor abateri.
B. Indicatorii sintetici ai variaţiei sintetizează, într-o singură expresie numerică, variaţia
valorilor individuale faţă de tendinţa centrală a caracteristicilor dintr-o populaţie statistică. Principalii
indicatori sintetici cu care se caracterizează variaţia termenilor seriei statistice faţă de tendinţa lor
centrală sunt:
 abaterea medie absolută (sau abaterea medie liniară);
 dispersia (sau varianţa);
 abaterea standard (sau abaterea medie pătratică);
 coeficientul de variaţie (sau viteza de variaţie);
 valorile individuale standardizate.
La baza determinării indicatorilor sintetici stau abaterile individuale dar, pentru a se evita
compensarea, ele vor fi luate în modul (valoare absolută) sau se va opera cu pătratele acestora.
1. Abaterea medie absolută (sau abaterea medie liniară) este un indicator al variabilităţii
tuturor datelor selecţiei care se calculează ca media aritmetică a modulelor abaterilor absolute ale
variantelor caracteristicii de la media lor folosind una dintre relaţiile :
- în cazul unei caracteristici discrete:

n1  x1  x  .....  nk  xk  x k
ni
d   f i  xi  x , cu n1  n2  ...  nk  N şi fi 
N i 1 N
- în cazul unei caracteristici continue:
k
*
n  x i i x k
ai  ai 1
d i 1
  fi xi*  x cu xi*  .
N i 1 2

Abaterea medie absolută (sau liniară) de la mediană (notată cu Me ) se determină după
următoarele relaţii:
33
- în cazul unei caracteristici discrete:
k
n1  x1  Me  .....  nk  xk  Me ni
 Me    f i  xi  Me cu N  n1  ........  nk şi fi 
N i 1 N
- în cazul unei caracteristici continue:
n1  x1*  Me  .....  nk  xk*  Me k
ai  ai 1
 Me    f i  xi*  Me cu xi* 
N i 1 2

2. Dispersia statistică (sau varianţa), notată cu notată cu 2 sau D2, este o măsură sintetică a
împrăştierii egală cu media aritmetică a pătratelor abaterilor valorilor individuale de la tendinţa lor
centrală. În calculul dispersiei poate fi luată în considerare media aritmetică sau mediana.
Relaţiile de calcul ale dispersiei faţă de media aritmetică sunt următoarele:
- în cazul unei caracteristici discrete:
k
2
2
( x  x)  n1  ......  ( xk  x)  nk 2 x i  ni
2  1  i 1
k
 ( x )2
N
n
i 1
i

k
ni
sau  2   f i  ( xi  x)2 cu fi 
i 1 N
- în cazul unei caracteristici continue:
k k 2

2
 ni ( xi*  x)2 k
* 2
 x  *
i  ni
ai  ai 1
  i 1
  ( x  x) fi 
i
i 1
k
 ( x ) 2 cu xi* 
N 2
i 1
n
i 1
i

Pentru măsurarea variabilităţii termenilor seriei faţă de tendinţa centrală dispersia mai poate fi
calculată şi în funcţie de valoarea medianei. În această situaţie, valoarea mediei aritmetice x din
formulele de mai sus utiliyate pentru calculul dispersiei va fi înlocuită cu valoarea medianei Me.
3. Abaterea standard (numită şi abaterea medie pătratică sau abaterea tip) se defineşte ca
fiind media pătratică a abaterilor valorilor individuale de la tendinţa centrală. Observăm că abaterea
standard este egală cu rădăcina pătrată a dispersiei, fiind calculată cu relaţia:

  2
Abaterea medie pătratică prezintă interes atât pentru apreciere omogenităţii valorilor individuale
ale unei serii (sau pentru a verifica reprezentativitatea mediei lor) cât şi pentru construirea unor
intervale centrate în x care conţin un anumit procent din masa totală a observaţiilor. Abaterea medie
pătratică mai poate fi utilizată ca o măsură a "riscului" în studiul calităţii produselor, pentru elaborarea
variantelor de prognoză, în studii de marketing, etc. Abaterea medie pătratică este un indicator de bază,
care se foloseşte la estimarea erorilor de selecţie în calculul de corelaţie.

34
Din practică s-a observat că, dacă distribuţia unităţilor din colectivitatea investigată după
caracteristica urmărită este sub formă de "clopot al lui Gauss" sau este uşor asimetrică atunci:
 valorile caracteristicilor cuprinse între x   şi x   reprezintă aproximativ 68% din efectivul total,
 valorile caracteristicilor cuprinse între x  2 şi x  2 reprezintă aproximativ 95% din efectivul
total,
 valorile caracteristicilor cuprinse între x  3 şi x  3 reprezintă aproximativ 99% din efectivul
total.
În această situaţie spunem că distribuţia statistică este normală. Poligonul frecvenţelor (relative
sau absolute) al unei distribuţii statistice care are o repartiţie normală prezintă un aspect de clopot
simetric faţă de dreapta paralelă cu axa Oy care intersectează axa absciselor în punctul de absisă egală
cu media aritmetică x .

Relaţia dintre amplitudine şi abaterea medie pătratică


În literatura de specialitate se apreciază că pentru o serie de distribuţie normală abaterea medie
liniară este egală cu 4/5 din valoarea abaterii medii pătratice.
La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a
variabilei a carei variaţie o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaţie şi în aceasta situaţie se recurge la un alt indicator de variaţie :
coeficientul de variaţie.
4. Coeficientul statistic de variaţie (sau de omogenitate) - notat cu Cv sau v - este o măsură a
dispersiei relative care descrie abaterea medie pătratică ca procent din media aritmetică. Coeficientul
de variaţie este utilizat pentru a compara două distribuţii statistice din punct de vedere al variabilităţii
datelor şi este egal cu raportul dintre abaterea medie liniară (sau abaterea medie pătratică) şi media
variabilei studiate, adică :

Cv  100
x
d
Uneori coeficientul de variaţie se calculează relativ la abaterea medie liniară: Cv  100
x
unde d este abaterea medie absolută şi  este abaterea medie pătratică (standard)

35
Coeficientul de variaţie are avantajul de a fi o măsură adimensională (fără unitate de măsură)
fiind foarte util în compararea variaţiei a două caracteristici măsurate pe aceaşi populaţie/eşantion.
Dacă se studiază două distribuţii statistice, vom considera că are o împrăştiere mai mare cea
care are coeficientul de variaţie statistic mai mare. Putem avea următoarele situaţii:
(1) dacă Cv% este sub 10% atunci populaţia poate fi considerată omogenă;
(2) dacă Cv% este între 10%-20% atunci populaţia poate fi considerată relativ omogenă;
(3) dacă Cv% este între 20%-30% atunci populaţia poate fi considerată relativ eterogenă;
(4) dacă Cv% este peste 30% atunci populaţia poate fi considerată eterogenă.
De asemenea, coeficientul de variaţie poate fi utilizat ca test de verificare a reprezentativităţii
mediei, distingându-se cazurile:
(1) dacă 0 < Cv%  17% atunci media este strict reprezentativă ;
(2) dacă 17% < Cv%  35% atunci media este moderat semnificativă;
(3) dacă 35% < Cv%  50% atunci media este relativ reprezentativă;
(4) dacă Cv% > 50% atunci media nu este reprezentativă.
Observaţii:
 Indicatorii statistici ai variaţiei (abaterea liniară, dispersia, abaterea medie pătratică şi
coeficientul de variaţie) unei caracteristici invariante (sau a unei constante) sunt egali cu 0;
 Abaterea medie pătratică şi abaterea medie liniară se exprimă în unitatea de măsură a variabilei
pentru care se calculează, făcând imposibilă compararea variaţiilor a două caracteristici exprimate
în unităţi de măsură diferite.
5. Valorile individuale standardizate.
Valorile individuale standardizate sunt date iniţiale (înregistrate) transformate cu ajutorul
mediei şi abaterii standard. Prin operaţia de standardizare, fiecare valoare xi a caracteristicii se

xi  x
înlocuieşte cu valoarea standardizată xis  , ()i  1, N , unde N este volumul populaţiei studiate

Valorile individuale standardizate xis pot oferi informaţii asupra distanţei la care se găseşte o

observaţie faţă de media seriei de date, distanţă măsurată în abateri standard ale variabilei originale X.
Rezultatul acestei transformări determină o nouă variabilă aleatoare Z (numită variabilă aleatoare
normală) care are întotdeauna media egală cu 0 şi abaterea standard egală cu 1. Această transformare a
variabilei nu modifică forma distribuţiei valorilor variabilei şi are avantajul că se elimină unitatea de
măsură a variabilei studiate, făcând posibilă compararea a două serii statistice care se referă la
caracteristici cu unităţi de măsură diferite.

36
III. Indicatori ai formei distribuţiei

Abaterea medie pătratică şi dispersia sunt indicatori care dau o măsură a împrăştierii valorilor
într-o distribuţie statistică, oferind o măsură a “lăţimii” distribuţiei, fără a da însă nici o informaţie
asupra formei distribuţiei de frecvenţă.
O distribuţie statistică este considerată simetrică dacă
cele trei valori cu care se exprimă tendinţa centrală, şi anume:
valoarea modală (Mo), valoarea mediană (Me) şi media
aritmetică ( x ) sunt egale. Într-o distribuţie simetrică observaţiile
înregistrate sunt egal dispersate de o parte şi de alta a valorii lor
centrale, după cum sunt reprezentate în figura 1. Fig. 1 Distribuţie simetrică

O distribuţie statistică este considerată distorsionată sau


asimetrică (skewed) dacă frecvenţele valorilor caracteristicii
urmărite sunt deplasate faţă de tendinţa centrală (exprimată prin:
Me, Mo sau x ), aşa cum sunt reprezentate în figura 2.
Prin asimetrie înţelegem abaterea de la simetrie a seriilor
de distribuţie, abatere care poate fi:
- moderată (generând distributii moderat asimetrice) sau: Fig. 2 Distribuţie asimetrică

- pronunţată (întâlnită în cazul distribuţiilor extrem asimetrice).


Pe de altă parte ne interesează volumul de valori din distribuţia concentrată de o parte şi de alta
a mediei. Astfel, putem avea următoarele situaţii:
- dacă acest volum de valori este mai mic decât media, spunem că distribuţia este pozitiv
distorsionată;
- dacă există mai multe valori mai mari decât media, spunem că distribuţia este negativ
distorsionată.
Asimetria distribuţiilor unităţilor într-o colectivitate după caracteristica urmărită poate fi vizibilă
pe reprezentările grafice (histograma, poligonul frecvenţelor efective) empirice comparate cu alura
clopotului lui Gauss. Reprezentările grafice ale seriilor de frecvenţe sunt mai mult sau mai puţin
aplatizate comparativ cu graficul distribuţiei normale Gauss-Laplace. Acestea au bolta mai largă sau
mai ascuţită, în functie de gradul de concentrare a frecvenţelor în jurul valorilor de medie, mediană,
valoarea modală. Analiza asimetriei şi aplatizării are sens numai în cazul distribuţiilor empirice
unidimensionale care prezintă o singură valoare modală.
În analiza statistică a formelor de repartizare a frecvenţelor, caracterizarea asimetriei şi
aplatizării sau boltirii curbei frecvenţelor presupune determinarea formei distribuţiei de frecvenţe care

37
se analizează, comparativ cu distribuţia normală (considerată ideală), prin: indicatori ai asimetriei

(skewness) şi indicatori ai boltirii sau aplatizării (Kurtosis).


În calculul indicatorilor statistici utilizaţi pentru analiza asimetriei şi aplatizării (sau boltirii)
sunt momentele statistice, care se calculează ca medii aritmetice ponderate ale abaterilor variantelor
caracteristicii de la o anumita valoare, folosită ca bază de comparatie, abaterile respective considerate
la anumite puteri (în funcţie de ordinul momentului).
Momentele statistice pot fi clasificate în:
a). Momente ordinare de ordin m ( m  N * ):
k
m
 n  ( x  a)
i i
m*  i 1

N
unde constanta „a” este egală cu valoarea caracteristicii cu frecvenţa cea mai mare.
b). Momente centrate de ordin m ( m  N * ):
k
m
 n  ( x  x)
i 1
i i
m 
N
Amploarea asimetriei statistice se caracterizează sintetic cu ajutorul unor coeficienţi
adimensionali dintre care menţionăm: coeficientul lui Yule şi Kendall şi coeficienţii lui Karl Pearson.
a). Coeficientul lui Yule şi Kendall (Cyk), utilizat pentru măsurarea asimetriei unei distribuţiii
statistice, are rolul de a determina modul de etalare al frecvenţelor, la dreapta şi la stânga medianei,
ţinând cont de poziţia cuartilelor Q3 şi Q1 în raport cu mediana au următorul coeficient:
(Q3  M e )  ( M e  Q1 )
C yk 
(Q3  M e )  (M e  Q1 )
Observaţii:
 valoarea coeficientului lui Yule şi Kendall este cuprinsă între -1 şi +1;
 dacă Cyk = 0 atunci cuartilele distribuţiei sunt echidistante, deci distribuţia statistică este
simetrică ;
 dacă Cyk > 0 sau Cyk < 0 atunci distribuţia statistică este asimetrică;
 dacă |Cyk | < 0,1 atunci distribuţia statistică este considerată moderat asimetrică;
 dacă |Cyk | > 0,3 atunci distribuţia statistică este pronunţat asimetrică.
Coeficientul propus de Bowley este:
( D9  Me)  ( Me  D1 )
C asB 
( D9  Me)  ( Me  D1 )
unde CasB   1,1

38
b). Coeficientul Karl Pearson (Cas) pentru măsurarea asimetriei analizează poziţia a două
valori centrale (valoarea modală şi media aritmetică) relativizată prin dispersia seriei şi propune un
coeficient, care ia valori cuprinse între zero şi unu, calculat cu formula:
x  Mo
Cas 

unde x este media aritmetică, M o este valoarea modală şi  este abaterea medie pătratică.

Într-o repartiţie de frecvenţe moderat asimetrică, între valorile centrale (Mo, Me, x ) se
verifică, în mod aproximativ, relaţia: Mo  x  3( Me  x) . Substituind această expresie în relaţia

3( x  Me)
anterioară se obţine Cas  .

Observaţii:
- cu cât valorile coeficientului Karl Pearson sunt mai apropiate de zero (sau chiar egale cu 0), cu atât
seria este mai simetrică;
- cu cât valorile coeficientului Karl Pearson sunt mai apropiate de 1, cu atât seria este mai asimetrică.
Astfel obţinem următoarele concluzii:
 Dacă Cas =0 atunci seria este simetrică şi avem x  M e  M o şi 3  0 ;

 Dacă Cas  0 atunci seria este cu simetrie mică;

 Dacă Cas  1 atunci seria este cu asimetrie pronunţată;

 Dacă Cas  0 atunci seria este cu asimetrie la stânga (sau negativă) şi avem x  M e  M o şi 3  0 ;

 Dacă Cas  0 atunci seria este cu asimetrie la dreapta (sau pozitivă) şi avem x  M e  M o şi

momentul centrat de ordin 3 3  0 .

Un alt coeficient introdus iniţial de Karl Pearson este coeficientul de asimetrie β1 dat de relaţia:
( 3 )2
1 
( 2 ) 3
Coeficientul lui Fisher (notat cu γ1 sau cu S) este o transformare a coeficientului β1 realizată de
R.A.Fisher, calculat cu relaţia:
k
3
3  n  (x  x )
i 1
i i
 1  1  
(  2 )3 2 N 3

unde ni este frecvenţa absolută (ponderea) corespunzătoare valorii xi a caracteristicii, x este media
aritmetică, N este volumul populaţiei studiate şi  este abaterea medie pătratică.

39
Interpretarea coeficientului lui Fisher porneşte de la observaţia că momentele centrate de ordin
impar ale seriilor de distribuţie perfect simetrice sunt egale cu zero deci, în particular, momentul centrat
de ordin 3 este μ3 = 0. Astfel, pentru o distribuţie statistică putem avea următoarele situaţii:
- pentru seriile în care predomină termenii cu abateri negative faţă de medie (adică xi  x  0 ) vom
avea μ3 < 0,
- pentru cazurile în care predomină termenii cu abateri pozitive faţă de medie (adică xi  x  0 )

vom avea μ3 > 0.


Deoarece μ2 este întotdeauna pozitiv vom obţine, în funcţie de semnul lui μ3, γ1 <0 (dacă μ3<0)
sau γ1 >0 (dacă μ3 > 0).
O distribuţie perfect simetrică nu are distorsiune (skewness=0).
Gradul de concentrare al frecvenţelor în jurul valorilor tipice este cunoscut sub numele de exces
sau kurtosis. Boltirea sau aplatizarea distribuţiei statistice (Kurtosis-ul) este o măsura a extinderii spre
valorile care sunt concentrate într-o parte a distribuţiei de frecvenţă. Astfel, dacă o clasă într-o
distribuţie de frecvenţă conţine o foarte mare parte din valorile din distribuţie, atunci distribuţia
prezintă un mare grad de kurtosis, iar forma poligonului frecvenţelor este mai ascuţită. Într-o distribuţie
cu un grad mic de kurtosis (distribuţie plată) fiecare clasă conţine o proporţie similară din toate valorile.
Coeficientul de boltire al lui Pearson (notat cu  2 ) se calculează ca raport între momentul

centrat de ordinul 4 şi pătratul momentului centrat de ordinul 2:


k
4
4   n (x  x)
i 1
i i
2  2
 24 2 
2 ( ) N 4

Kurtosis-ul sau excesul (notat cu  2 ) se determină cu ajutorul relaţiei:

 2  2  3
unde 3 este valoarea coeficientului de boltire corespunzator repartiţiei normale.
Observaţii:
 dacă  2  0   2  3 atunci distribuţia are vârf ascuţit (şi se numeşte leptokurtică);

 dacă  2  0   2  3 atunci distribuţia este normală;

 dacă  2  0   2  3 atunci distribuţia are vârf plat (şi se numeşte platikurtică);

 dacă  2  0   2  3 atunci distribuţia este echivalentă cu cea normală în privinţa gradului


de aplatizare şi se numeşte mezokurtică.
Rădăcinile etimologice ale conceptelor utilizate mai sus sunt cuvintele greceşti kurtos=cocoşat,
platos = larg şi léptos = îngust.

40

S-ar putea să vă placă și