Sunteți pe pagina 1din 37

Curs 4

Obținerea și prelucrarea primară a datelor statistice

4.1. Noțiuni introductive


Populația statistică ă reprezintă totalitatea elementelor sau evenimentelor similare din
punct de vedere calitativ (de același fel, de aceeași natură) care compun un anumit fenomen sau
proces economic bine individualizat.

Populația statistică este compusă din ansamblul unităților statistice. Unitatea statistică
reprezintă fiecare element, fiecare entitate de sine stătătoare a unei populații statistice. Unitatea
statistică posedă o serie de caracteristici care îi conferă apartenența la o anumită populație statistică.
Unitățile statistice pot fi:

 Unități statistice simple;


 Unități statistice complexe.

Exemplu: populația statistică a studenților din Universitatea de Vest din Timișoara

Unitate statistică simplă: un student din anul I de la Facultatea de Economie și de Administrare a


Afacerilor

Unitate statistică complexă: tot anul I de la Facultatea de Economie și de Administrare a Afacerilor

Fiecare dintre unitățile statistice ale unei populații statistice prezintă un set de trăsături sau
proprietăți, numite caracteristici statistice. În general, unitățile statistice posedă un număr foarte
mare de însușiri, dar în cadrul analizei statistice se rețin doar acelea care prezintă interes pentru
cercetarea întreprinsă.

După modul de exprimare, caracteristicile statistice pot fi:

 Cantitative (numerice) – acestea se măsoară (producția, consumul), se numără


(numărul de angajați, numărul de mijloace fixe) sau se calculează (cifra de afaceri,
profitul);
 Calitative (atributive) – acestora li se observă frecvența și gradul realizării (starea
socială, calitatea produselor).

Din punct de vedere al numărului de valori pe care le pot lua, caracteristicile statistice pot fi:

 Alternative (valori cu caracter dihotomic);


 Nealternative (valori multiple).

De foarte multe ori, în practică, o cercetare a fiecărui element al unei populații statistice ar
implica un timp foarte îndelungat sau costuri mult prea ridicate. În aceste situații se apelează la
cunoștințele și procedeele specifice statisticii economice, care presupune o abordare asupra întregii
populații statistice, fără însă o cercetare în întregime asupra acesteia. În aceste situații, cercetarea se
realizează doar asupra unei părți a populației de interes, urmând ca rezultatele cercetării, concluziile
desprinse să fie transpuse, extrapolate la nivelul întregii populații.
Acea parte din populația statistică ce face obiectul cercetării se numește eșantion sau
selecție și este o submulțime reprezentativă a populației. Volumul unui eșantion este, de obicei,
considerabil mai mic decât cel al populației studiate.

Procesul de obținere a eșantionului poartă denumirea de sondaj statistic și trebuie să


îndeplinească o serie de condiții care să asigure reprezentativitatea acestuia, adică, la o scară mai
mică, eșantionul trebuie să reproducă trăsăturile populației din care provine.

Prin ordonarea și gruparea datelor statistice după una sau mai multe caracteristici, se obțin
seriile statistice. După conținutul caracteristicii de grupare, seriile statistice pot fi:

 Serii de repartiție (de distribuție sau de frecvență);


 Serii de timp (dinamice sau cronologice);
 Serii de spațiu (teritoriale).

Seria de repartiție, după modul de variație al caracteristicii numerice, poate fi discretă sau
continuă. De fapt, seria de repartiție se referă la natura și repartiția variabilei aleatoare.

Seria de timp prezintă variația unei caracteristici în funcție de timp.

Seria de spațiu este cea în care caracteristica de interes variază în funcție de spațiu.

Cunoașterea evoluției fenomenelor și proceselor economice studiate se realizează prin


procedeul cercetării statistice, care conține trei etape succesive:

1. Observarea statistică sau culegerea datelor

2. Prelucrarea primară a datelor și obținerea indicatorilor statistici sintetici și derivați

3. Analiza și interpretarea economică a rezultatelor prelucrării

4.2. Observarea statistică


Observarea statistică reprezintă prima etapă a demersului statisticii economice și constă în
ansamblul activităților de culegere a datelor referitoare la caracteristicile unei populații statistice.

Datele culese trebuie să îndeplinească anumite condiții de volum și calitate, pentru a asigura
un grad ridicat de relevanță rezultatelor obținute în urma prelucrării acestora. Astfel, în cadrul
demersului observării statistice trebuie respectate simultan două principii de bază:

 Principiul autenticității datelor, care presupune realizarea concordanței dintre datele


culese și dimensiunea reală a fenomenului observat. Acesta este condiționat de
îndeplinirea următoarelor condiții:
o Condiția de volum – culegerea datelor de la toate unitățile complexe ale
populației statistice studiate;
o Condiția de calitate – impune înregistrarea unor date reale, fără erori;
 Principiul eficienței procesului de observare, care presupune culegerea doar a acelor
date care au relevanță în obținerea informației de care este nevoie în cadrul
demersului cercetării statistice.

În funcție de modul de obținere a datelor, observarea statistică poate fi:


 Observare permanentă – se realizează de către instituții specializate (Institutul
Național de Statistică) sau organisme financiar – bancare (Banca Națională a
României) sau diverse organisme guvernamentale care colectează informații
referitoare la principalii indicatori macroeconomici și financiari necesari cunoașterii
unor informații cu privire la nivelul de dezvoltare a unei țări, nivelul de trai, etc.;
 Observare specială – se organizează în situații specifice, la anumite momente de
timp, în cadrul sondajelor statistice.

După volumul de date obținut în urma observării statistice, aceasta poate fi:

 Observare totală – presupune culegerea de date de la toate unitățile simple ale


unei populații statistice (recensământul);
 Observare parțială – presupune înregistrarea doar a unei părți din totalul
unităților statistice, numite eșantion. După momentul efectuării observării,
putem avea:
 Observare statică – presupune ca datele culese să se limiteze la un anumit
moment al evoluției fenomenului studiat;
 Observare dinamică – presupune urmărirea caracteristicii de interes pe perioade
succesive de timp.

În cadrul procesului de obținere a datelor statistice, pot exista situații în care datele
înregistrate nu concordă cu realitatea. Aceste neconcordanțe poartă denumirea de erori de
observare (înregistrare). Acestea pot fi:

 Erori întâmplătoare, care se produc nepremeditat, de cele mai multe ori datorită neatenției
operatorului. De obicei, erorile întâmplătoare urmează o repartiție normală;
 Erori sistematice, care se produc în mod repetat în cadrul procesului de observare, de cele
mai multe ori având ca și cauză neînțelegerea corectă a procedeelor de culegere a datelor
sau nerespectarea acestora.

Pe lângă aceste categorii de erori, în cazul observării parțiale, mai pot apărea și erorile de
reprezentativitate, care apar atunci când eșantionul nu a fost bine ales ca volum sau ca
structură.

În scopul de a asigura o observare lipsită de erori de orice fel, trebuie efectuat un control
riguros, care poate fi:

 Control cantitativ – realizat prin verificarea culegerii datelor de la toate unitățile


statistice complexe;
 Control calitativ – se efectuează prin aprecierea realității datelor folosind metode
logice sau matematice sau comparând datele culese cu înregistrări similare făcute
anterior.

4.3. Prelucrarea primară a datelor statistice


Această fază a cercetării statistice constă în operațiuni de centralizare, ordonare, grupare și
reprezentare a datelor sub formă de serii, tabele sau grafice.

1. Centralizarea datelor presupune ca datele să reflecte aceeași caracteristică, exprimată în


aceeași unitate de măsură și să nu aibă erori de observare și se realizează prin totalizarea valorilor
individuale ale respectivei caracteristici.
2. Gruparea datelor constă în separarea unităților unei populații în subgrupe omogene în
raport cu una sau mai multe caracteristici. De obicei, gruparea se realizează după criterii specifice
fiecărui fenomen cercetat. În lipsa unor specificații de acest gen, se utilizează o metodă de grupare
pur statistică prin care se creează un șir de intervale de lungimi, de regulă, egale. Această lungime se
notează cu ℎ și se calculează utilizând formula lui Sturges:

ℎ = 𝑋𝑚𝑎𝑥 – 𝑋𝑚𝑖𝑛 /1 + 3,322 ∗ 𝑙𝑔(𝑛)

Valoarea lui ℎ se rotunjește, de obicei, în sus. În


continuare, se formează intervalele în funcție de variația caracteristicii analizate (discretă sau
continuă).

În cazul caracteristicilor continue, intervalele se formează pornind de la valoarea minimă sau


de la o valoare puțin mai mică decât aceasta (de exemplu partea întreagă a valorii minime), la care se
adaugă h. Limita superioară a primului interval devine limita inferioară a următorului interval și așa
mai departe, până când se ajunge la un interval care să conțină valoarea maximă. Se stabilește o
regulă prin care intervalele sunt neapărat închise la un capăt și deschise la celălalt.

Exemplu: Cheltuielile cu publicitatea ale unei firme au fost monitorizate pe o perioadă de 16


luni, obținându-se următoarele date: 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13.

Să se grupeze datele pe intervale și să se determine distribuția de frecvență

Rezolvare:

h = 17 − 9 /1 + 3,322 ∗ 𝑙𝑔(16) = 1,59 ≈ 2

În cazul caracteristicilor discrete, limita inferioară a intervalului următor nu mai coincide cu


limita superioară a intervalului anterior, ci se deplasează cu o unitate în sus.

Exemplu: Angajații a 16 firme cu același obiect de activitate sunt prezentați în cele ce


urmează (ca și număr de angajați): 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13.

Să se grupeze datele pe intervale și să se determine distribuția de frecvență

Rezolvare:

h = 17 – 9/ 1+
3,322 ∗ 𝑙𝑔(16) = 1,59 ≈ 2

Se determină apoi frecvențele absolute, relative, cumulate și cumulate relative.

Frecvența absolută ( ni , 𝑖 = ̅1̅, ̅𝑘̅) a unui interval arată numărul de valori din seria inițială de
date care se găsesc în intervalul respectiv. Suma frecvențelor absolute este egală cu volumul
eșantionului:

unde 𝑘 este numărul intervalelor de grupare


Frecvențele relative ( fi ) se determină prin raportul dintre frecvențele absolute și volumul
eșantionului. Suma frecvențelor relative este egală cu 1:

Frecvența cumulată a unui interval ( Cni ) se determină prin suma dintre frecvența absolută a
intervalului respectiv și frecvențele absolute ale tuturor intervalelor anterioare. Ultima frecvență
cumulată este egală cu volumul eșantionului:

𝐶𝑛𝑘 = n

Frecvența cumulată relativă a unui interval ( Cfi ) se determină prin raportul dintre frecvența
cumulată și volumul eșantionului. Ultima frecvență cumulată relativă este egală cu 1:

𝐶𝑓𝑖 = 1

Exemplu (caracteristici continue):

Exemplu (caracteristici discrete):

3. Prezentarea datelor sub formă de serii se realizează printr-un șir dublu. Primul șir se
referă la variația caracteristicii studiate, iar al doilea la frecvența de apariție corespunzătoare:

4. Prezentarea datelor sub formă de tabele statistice trebuie să conțină:

 Titlul sau subiectul tabelului;


 Titlurile liniilor și ale coloanelor;
 Unitatea de măsură;
 Sursa datelor;
 Notele.

5. Reprezentarea grafică a seriilor statistice permite o vizualizare rapidă a distribuției seriei


de date. O reprezentare grafică trebuie să conțină următoarele elemente:

 Titlul graficului;
 Axele de coordonate;
 Scara graficului (dacă este cazul);
 Notele;
 Sursa graficului;
 Legenda;
 Rețeaua graficului.

Principalele forme de reprezentare grafică în domeniul statisticii sunt:

 Histograma – construită pe baza frecvențelor absolute;


 Poligonul frecvențelor – construit pe baza frecvențelor absolute;
 Curba cumulativă a frecvențelor – construită pe baza frecvențelor cumulate;
 Graficul tip “plăcintă” – construit pe baza frecvențelor relative.

Exemplu (caracteristici continue):

Histograma Poligonul frecvențelor

Curba cumulativă a frecvețelor


Curs 5
Parametrii repartițiilor empirice

În vederea cercetării statistice a tendințelor și a regulilor de evoluție ale unui proces sau fenomen
economic, este important să cunoaștem principalii parametrii care caracterizează repartiția acestuia.

După aspectul pe care îl caracterizează, parametrii repartiției unei variabile aleatoare sunt
grupați astfel:

 Parametrii tendinței centrale;


 Parametrii variației;
 Parametrii asimetriei și ai boltirii

5.1. Parametrii tendinței centrale


În cadrul oricărei repartiții de date care caracterizează un fenomen economic, de obicei,
valorile observate manifestă o anumită tendință de grupare în jurul unei anumit valori, numite centru
de grupare.

Caracterizarea acestui centru de grupare se realizează în cadrul analizei statistice cu ajutorul


unor parametrii numiți mărimi medii sau parametrii ai tendinței centrale. Acestea relevă ceea ce
este tipic, generalizant pentru unitățile populației statistice analizate. Mărimile medii trebuie să
îndeplinească următoarele condiții:

1) Să fie precis definite, prin formule sau definiții care să conducă de fiecare dată orice
utilizator, orice analist, la același rezultat pe baza acelorași date;

2) Să fie reprezentative pentru toți termenii populației analizate;

3) Să fie stabile, adică să nu comporte influențe majore din partea modului de selecție a
eșantionului (oricum s-ar construi eșantioanele analizate, mărimile medii să nu se modifice
semnificativ de la un eșantion la altul).

După rolul lor, mărimile medii sunt:

 Mărimi obținute prin calcul (media aritmetică, media geometrică, media armonică,
media pătratică);
 Mărimi de poziție, utilizate pentru identificarea locului centrului de grupare
(mediana, modul, quantilele). În funcție de modul de calcul, putem avea:
 Mărimi medii simple (în cadrul seriilor simple de date – date negrupate);
 Mărimi medii ponderate (în cazul seriilor grupate pe intervale de frecvență).

5.1.1. Media
Se numește media unei variabile aleatoare 𝑋 acea valoare notată 𝑋̅ care, în urma substituției
xi = 𝑋̅, i = 1̅̅,̅𝑛̅, nu modifică proprietatea determinantă a variabilei respective.

Prin proprietate determinantă se înțelege acea proprietate a unei populații statistice


omogene, care este valabilă pentru toate unitățile componente ale acesteia.

Pentru exprimarea proprietății determinante, se folosesc momentele de ordin 𝑟.


Media de ordinul r este dată de relațiile:

- Media simplă de ordinul r (pentru date negrupate):

- Media ponderată de ordinul r :

unde:

𝑥𝑖 = valorile individuale ale caracteristicii analizate

𝑛 = volumul eșantionului

𝑛𝑖 = frecvențele absolute

𝑘 = numărul categoriilor de grupare

- Media de ordinul 𝒓 pentru date grupate pe intervale de


frecvență:

unde:

𝑥𝑖 ′ = mijloacele intervalelor de grupare

𝑛 = volumul eșantionului

𝑛𝑖 = frecvențele absolute

𝑘 = numărul categoriilor de grupare

5.1.1.1. Media aritmetică


Media aritmetică este media de ordinul 1 ( r = 1), fiind cea mai cunoscută și cea mai utilizată
medie. Media unui eșantion se notează 𝑋̅, iar media unei populații se notează cu m.

Media aritmetică se foloseşte atunci când fenomenul supus cercetării înregistrează modificări
aproximativ constante, în progresie aritmetică, prezentând, deci, o tendinţă liniară.

- Media aritmetică simplă (pentru date negrupate):

Exemplu: Cheltuielile cu publicitatea ale unei firme au fost monitorizate pe o


perioadă de 16 luni, obținându-se următoarele date: 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10,
14, 13.

Să se calculeze media cheltuielilor cu publicitatea.

- Media aritmetică ponderată:

Dacă ținem cont de faptul că ∑ 𝑛𝑖 𝑘 𝑖=1 = 𝑛, atunci formula anterioară poate fi


scrisă ca:
unde 𝑓𝑖 = frecvențele relative

Exemplu: Distribuția cheltuielilor cu publicitatea ale unei firme, pe parcursul a 16 luni este prezentată
în tabelul de mai jos:

Să se calculeze media cheltuielilor cu publicitatea.

sau

- Media aritmetică pentru date grupate pe intervale:

𝑥𝑖 ′ = mijloacele intervalelor de grupare

Exemplu: Tabelul următor prezintă o grupare a cheltuielilor cu publicitatea ale


unei firme, monitorizate pe parcursul a 16 luni. Să se determine valoarea medie
lunară a cheltuielilor cu publicitatea:

Observație: Media se situează întotdeauna între valorile extreme ale variabilei


studiate (adică este mai mare decât valoarea minimă și mai mică decât valoarea
maximă).

5.1.1.2. Media pătratică


Media pătratică reprezintă media de odinul 2 (𝑟 = 2) și se notează 𝑋̅ 𝑝.

Media pătratică se foloseşte în cazul în care fenomenele înregistrează creşteri, aproximativ,


în progresie exponenţială, adică atunci când creşterea este mai lentă la începutul seriei şi din ce în ce
mai pronunţată spre sfârşitul acesteia, fiind utilizată, deci, în analiza tendinţelor neliniare, de tip
exponenţial.

Se calculează astfel:

- Media pătratică simplă (pentru date negrupate):

Exemplu:

- Media pătratică ponderată:

Exemplu:
- Media pătratică pentru date grupate pe intervale:

Exemplu:

5.1.1.3. Media armonică


Media armonică este media pentru care r = −1, fiind definită ca inversa mediei aritmetice. Ea
se notează 𝑋̅h și se utilizează atunci când se dorește atribuirea unei importanțe mai ridicate valorilor
mai mici. Media armonică se calculează astfel:

- Media armonică simplă (pentru date negrupate):

Exemplu:

- Media armonică ponderată:

Exemplu:

- Media armonică pentru date grupate pe intervale:

Exemplu:

5.1.1.4. Media geometrică


Media geometrică reprezintă în mod convențional media de ordinul 0 (𝑟 = 0) și se notează cu 𝑋̅g.

Media geometrică se utilizează atunci când datele analizate prezintă modificări, aproximativ,
în progresie geometrică (diferenţele dintre date sunt mai mari la începutul seriei şi din ce în ce mai
mici spre sfârşitul seriei).

Media geometrică se calculează astfel:

- Media geometrică simplă (pentru date negrupate):

Exemplu:
- Media geometrică ponderată:

Exemplu:

- Media geometrică
pentru date grupate pe
intervale:

Exemplu:

5.1.2. Mediana
Mediana unei serii de date (𝑋̅e ) este acea valoare pentru care probabilitatea ca variabila
aleatoare 𝑋 să ia valori inferioare ei este egală cu probabilitatea ca 𝑋 să ia valori superioare ei:

𝑃(𝑋 < 𝑋̅ 𝑒 ) = 𝑃(𝑋 > 𝑋̅ 𝑒 )

Deci, mediana este valoarea centrală a unei serii ordonate de date, cea care împarte
repartiția în două părți egale.

Pentru date negrupate, în scopul determinării medianei, trebuie mai întâi ordonate datele
crescător. Apoi:

 Dacă n este număr impar, atunci mediana este valoarea centrală a seriei ordonate de
date: 𝑋̅ 𝑒 = 𝑥𝑛+1/ 2 (valoarea cu numărul de ordine 𝑛+1 2 ).

Exemplu: Deoarece în exemplul utilizat anterior 𝑛 = 16, număr par, nu vom putea utiliza acea
aplicație pentru a exemplifica mediana pe date negrupate cu 𝑛 număr impar. De aceea, vom lua
următoarele date:

10, 9, 12, 10, 14, 11, 16 𝑛=7

Ordonăm datele crescător: 9, 10, 10, 𝟏𝟏, 12, 14, 16

1 , 2 , 3, 𝟒, 5, 6, 7

Deci, mediana este valoarea cu numărul 7+1 /2 = 4, din seria ordonată de date, adică 𝑋̅ 𝑒 = 11

 Dacă 𝒏 este număr par, atunci mediana este media aritmetică a celor două valori
centrale ale seriei ordonate de date: 𝑋̅ 𝑒 = 1 2 (𝑥𝑛 /2 + (𝑥𝑛 /2 )+1 ) (valorile cu
numerele de ordine 𝑛/ 2 și (𝑛/ 2) + 1).

Exemplu: Revenim la problema utilizată anterior, cu cheltuieli de publicitate

10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13 𝑛 = 16

Ordonăm datele crescător: 9, 9, 10, 10, 10, 10, 11, 𝟏𝟏, 𝟏𝟐, 12, 13, 14, 14, 14, 16, 17.
1, 2, 3, 4, 5, 6, 7, 𝟖, 𝟗, 10, 11, 12, 13, 14, 15, 16

Deci, mediana este media aritmetică a valorilor cu numerele 16/ 2 = 8 și (16 /2) + 1 = 9, din
seria ordonată de date, adică 𝑋̅ 𝑒 = 11+12/ 2 = 11,5

Pentru date grupate, primul pas al determinării medianei constă în identificarea intervalului
median. Intervalul median este cel corespunzător primei frecvențe cumulate mai mari decât 𝑛/2 .
Mediana se va calcula conform relației:

𝑋𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = limita inferioară a intervalului median

ℎ𝑒 = lungimea intervalului median

𝐶𝑒−1 = frecvența cumulată a intervalului anterior celui


median

𝑛𝑒 = frecvența absolută a intervalului median

Exemplu:

Intervalul median este [11,13), deoarece frecvența


cumulată a acestui interval este 10, prima frecvență cumulată
mai mare decât 16 /2 = 8. Astfel, mediana este: 𝑋̅ 𝑒 = 11 + 2 ∗
[(16/ 2) −6] /4 = 12

5.1.3. Modul
Modul este valoarea cu frecvența maximă de apariție.

Pentru variabilele discrete, modul este valoarea cu cea mai mare probabilitate de apariție.

Pentru o variabilă continuă, modul este valoarea corespunzătoare vârfului curbei de


frecvență (vârfului graficului), adică este valoarea corespunzătoarea acelui punct în care se
aglomerează majoritatea datelor.

Pentru date negrupate, modul (𝑋̅ 0) este valoarea care apare de cele mai multe ori (valoarea
cu frecvența maximă de apariție).

Exemplu: 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13

𝑋̅ 0 = 10, valoarea care se repetă de cele mai multe ori (de 4 ori)

Observație: Dacă există două sau mai multe valori care se repetă de cele mai multe ori,
atunci modul nu se poate determina (repartiție plurimodală).

Pentru datele grupate, prima etapă este cea a determinării intervalului modal. Intervalul
modal este cel care are frecvența absolută maximă. Modul se va calcula conform relației:

𝑋𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = limita inferioară a intervalului modal

ℎ0 = lungimea intervalului modal

∆1= diferența dintre frecvența absolută a intervalului modal (cea maximă) și cea anterioară:
∆1= 𝑛0 − 𝑛0−1

∆2= diferența dintre frecvența absolută a intervalului modal (cea maximă) și următoarea:

∆2= 𝑛0 − 𝑛0+1

Observație: ∆1 și ∆2 vor fi întotdeauna strict pozitive, deoarece ele constau în diferența


dintre frecvența absolută maximă (𝑛0) și cea anterioară, respectiv posterioară acesteia (𝑛0−1, 𝑛0+1).

Exemplu:

Intervalul modal este [9,11), deoarece frecvența absolută a acestui interval


este 6, cea mai mare frecvență absolută.

!!! la ∆1 se scade 0 din frecvența absolută maximă (6), deoarece intervalul


modal este primul interval, iar frecvența absolută anterioară nu există.

Observație: Dacă există mai mult de un interval cu frecvență absolută maximă, atunci modul
nu se poate determina și spunem că avem o serie de date plurimodală.

Ca aplicabilitate practică, modul poate înlocui media, atunci când aceasta nu poate fi
calculată sau nu are sens calcularea ei. De exemplu, nu are sens determinarea modelului mediu al
automobilelor vândute și se va lua în considerare ca valoare centrală modelul vândut cel mai des, de
cele mai multe ori, adică modul.

Într-o repartiție perfect simetrică și unimodală media, mediana și modul coincid. Acesta este
și cazul repartiției normale, în cadrul căreia media, modul și mediana corespund vârfului clopotului
lui Gauss.

Alegerea celui mai semnificativ parametru central al unei serii de


date diferă de la o situație la alta, existând câteva caracteristici
particulare ale valorilor centrale, în funcție de care pot fi diferențiate.
Astfel, media este influențată de fiecare valoare a seriei de date,
deoarece toate valorile sunt implicate calculul mediei. De aceea, media
este sensibilă la valorile extreme ale seriei de date. Astfel, media este
recomandată pentru seriile omogene de date, care nu prezintă valori
extreme. Mediana și modul sunt influențate mai mult de numărul de date al seriei și de punctul în
care acestea sunt concentrate, decât de valorile extreme. Astfel, acestea sunt mai potrivite pentru
seriile care prezintă valori extreme.
Curs 6
Parametrii repartițiilor empirice
5.2. Parametrii simpli și sintetici ai variației
Parametrii tendinței centrale nu oferă informații referitoare la împrăștierea valorilor unei
repartiții, nici unele față de altele, nici în raport cu centrul de grupare. Din acest motiv, se desprinde
importanța construirii unui alt tip de parametrii, care să ofere informații referitoare la abaterile
valorilor înregistrate față de medie. Acești parametrii sunt parametrii variației, studiați sub forma
parametrilor simpli, sintetici și factoriali ai variației.

5.2.1. Parametrii simpli ai variației


Parametrii simpli ai variației măsoară împrăștierea fiecărei valori față de nivelul mediu sau
față de o altă valoare caracteristică variabilei studiate. Ei pot fi determinați fie în mărime absolută, fie
în mărime relativă și sunt: amplitudinea variației și abaterile individuale.

5.2.1.1. Amplitudinea variației


Amplitudinea variației în mărime absolută se notează cu 𝐴.

 Pentru date negrupate, este diferența dintre valoarea maximă și valoarea minimă a
seriei de date:

𝐴 = 𝑋𝑚𝑎𝑥 – 𝑋𝑚𝑖n

Exemplu: Vom relua datele din exemplul utilizat în cursurile anterioare. Cheltuielile cu
publicitatea ale unei firme au fost monitorizate pe o perioadă de 16 luni, obținându-se următoarele
date: 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13.

𝐴 = 17 − 9 = 8

Pentru date grupate pe intervale, amplitudinea se poate calcula ca și diferență între limita
superioară a ultimului interval de grupare și limita inferioară a primului interval de grupare, atunci
când această diferență are sens din punct de vedere economic.

Exemplu: 𝐴 = 19 − 9 = 10

Fiind calculată doar pe baza valorilor extreme, amplitudinea absolută


oferă doar informații referitoare la întinderea domeniului de variație, nu și la
structura acestuia.

Amplitudinea variației în mărime relativă se notează cu 𝐴% și se


determină ca raport procentual între amplitudinea absolută și media
aritmetică a variabilei studiate: . A = 19 − 9 = 10

Exemplu:
 Pentru date negrupate: 𝐴% = 8 /12 ∗ 100 = 66,66%
 Pentru date grupate: 𝐴% = 10 /12,375 ∗ 100 = 80,80%

Amplitudinea relativă, față de cea absolută, permite comparații între două sau mai multe
serii de date, în ceea ce privește întinderea domeniului de variație.

5.2.1.2. Abaterile individuale


Abaterea individuală absolută se notează cu di și se determină ca diferență între fiecare
valoare a variabilei studiate și media acesteia: 𝑑𝑖 = 𝑥𝑖 − 𝑋̅

Abaterea individuală relativă se notează cu di% se calculează ca raport procentual între


abaterea individuală absolută și media variabilei studiate: 𝑑𝑖% = 𝑑𝑖/ 𝑋̅ ∗ 100 = (𝑥𝑖 − 𝑋̅ /𝑋̅) ∗ 100

În cazul utilizării mediei aritmetice, conform proprietăților acesteia, suma abaterilor


individuale față de medie, fie că sunt absolute sau relative, este nulă:

În practică sunt importante abaterea individuală minimă și abaterea individuală maximă,


pentru a analiza poziția valorilor extreme în raport cu media.

5.2.2. Parametrii sintetici ai variației


Parametrii sintetici ai variației exprimă dispersia cumulată a tuturor valorilor individuale în
jurul centrului de grupare, reprezentat, de regulă, de media aritmetică. Ei pot fi determinați ca
mărimi absolute medii sau relative.

5.2.2.1. Abaterea medie liniară


Abaterea medie liniară se notează cu d.

 Pentru date negrupate, se determină ca o medie aritmetică simplă a abaterilor


individuale, luate în valoare absolută:

Exemplu:

𝑑 = 1 /16 ∗ [|10 − 12| + |9 − 12| + |12 − 12| + |10 − 12| + |14 − 12| + |11 − 12| + +|16 − 12| + |9 −
12| + |12 − 12| + |14 − 12| + |11 − 12| + |10 − 12| + |17 − −12| + |10 − 12| + |14 − 12| + |13 − 12|]
=2

Pentru date grupate pe intervale, abaterea medie liniară este:

Exemplu:
5.2.2.2. Varianța (Dispersia)
Varianța reprezintă momentul centrat de ordinul 2. La nivelul unei populații, ea se notează cu
𝜎^2 , iar la nivelul unui eșantion, se notează cu s^2.

 Pentru date negrupate, varianța se calculează astfel:


o La nivelul unei populații:

o La nivelul unui eșantion:

Exemplu:

𝑠^2 = 1/16−1 ∗ [(10 − 12) 2 + (9 − 12) 2 + (12 − 12) 2 + (10 − 12) 2 + (14 − −12) 2 + (11 − 12) 2 + (16 −
12) 2 + (9 − 12) 2 + (12 − 12) 2 + (14 − −12) 2 + (11 − 12) 2 + (10 − 12) 2 + (17 − 12) 2 + (10 − 12) 2 + (14
− −12) 2 + (13 − 12) 2 ] = 6

 Pentru date grupate pe intervale, varianța se calculează astfel:


 La nivelul unei populații:

 La nivelul unui eșantion:

Exemplu:

Varianța este un parametru abstract, care nu are unitate de măsură și care cuantifică variația
totală a caracteristicii studiate datorită cauzelor esențiale sau întâmplătoare. Varianța nu permite
comparații între două serii de date diferite ca și unitate de măsură sau ordin de mărime.

5.2.2.3. Abaterea medie pătratică (Abaterea standard sau Ecartul tip)


Abaterea medie pătratică se determină ca o medie pătratică a abaterilor valorilor de la
medie. La nivelul unei populații, ea se notează cu 𝜎, iar la nivelul unui eșantion, se notează cu s.

 Pentru date negrupate, abaterea medie pătratică se calculează astfel:


o La nivelul unei populații:
o La nivelul unui eșantion:

Exemplu: 𝑠 = √6 = 2,44

 Pentru date grupate pe intervale, abaterea medie pătratică se calculează


astfel:
o La nivelul unei populații:

o La nivelul unui eșantion:

Exemplu: 𝑠 = √5,983 = 2,44

Spre deosebire de varianță, abaterea medie pătratică prezintă avantajul că păstrează ordinul
de mărime al valorilor studiate. Totuși, nu poate fi utilizată pentru compararea a două serii de date
exprimate în unități de măsură diferite. Acest dezavantaj poate fi înlăturat prin calcularea
coeficientului de variație.

5.2.2.4. Coeficientul de variație


Coeficientul de variație este raportul procentual dintre abaterea medie pătratică și medie.

 Pentru date negrupate, coeficientul de variație se calculează astfel:


o La nivelul unei populații:
𝐶𝑉 = 𝜎 /𝑋̅ ∗ 100
o La nivelul unui eșantion:
𝐶𝑉 = 𝑠 /𝑋̅ ∗ 100

Exemplu: CV = 2,44 12 ∗ 100 = 20,33%

 Pentru date grupate pe intervale, coeficientul de variație se calculează astfel:


o La nivelul unei populații:
𝐶𝑉 = 𝜎 /𝑋̅ ∗ 100
o La nivelul unui eșantion:
𝐶𝑉 = 𝑠 𝑋̅ ∗ 100

Exemplu: CV = 2,44 12,375 ∗ 100 = 19,72%

Fiind un parametru relativ, coeficientul de variație permite efectuarea de comparații între


două serii de date, chiar și exprimate în unități de măsură diferite. Coeficientul de variație are
următoarea interpretare:

 Dacă 𝐶𝑉 = 0%, înseamnă că toate valorile caracteristicii studiate sunt egale între ele și egale
cu media lor aritmetică, iar varianța lor este nulă;
 Dacă 𝐶𝑉 < 35%, se consideră că populația studiată este omogenă, cu o varianță mică și cu o
medie reprezentativă pentru valorile studiate;
 Dacă 𝐶𝑉 > 70%, atunci avem o populație eterogenă, cu o varianță ridicată și care nu este bine
reprezentată de media sa. În astfel de cazuri se impune gruparea datelor în mai multe
subgrupe omogene, care urmează a fi studiate separat.

5.3. Parametrii asimetriei și ai boltirii


În cadrul analizei seriilor de date, un interes aparte este reprezentat de cunoașterea formei
distribuției ( forma distribuției ). Aceasta se poate realiza cu ajutorul parametrilor asimetriei și ai
boltirii.

5.3.1. Parametrii asimetriei


Parametrii asimetriei oferă informații cu privire la modul de repartizare a frecvențelor de o
parte și de alta a valorii centrale. Astfel, în practică, pot exista distribuții empirice care se abat de la
curba normală și care sunt asimetrice, fiind înclinate fie la stânga, fie la dreapta.

5.3.1.1. Asimetria absolută


Asimetria absolută se determină în funcție de mod, conform relației: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 𝑋̅ − 𝑋̅0

Exemplu: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 12 − 10 = 2

Asimetria absolută se poate determina și în funcție de mediană, conform relației: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎


= 3(𝑋̅ − 𝑋̅ 𝑒 )

Exemplu: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 3(12 − 11,5) = 1,5

Dacă media este mai mică decât modul și mediana, atunci asimetria este negativă, iar curba
de frecvență este înclinată spre dreapta și alungită la stânga. Imaginea de mai jos ilustrează cazul
cunoscut sub denumirea de “asimetrie la stânga”:

𝑋̅ < 𝑋̅ 𝑒 < 𝑋̅ 0 𝑋̅ > 𝑋̅ 𝑒 > 𝑋̅ 0

Dacă media este mai mare decât modul și mediana, atunci asimetria este pozitivă, iar curba
de frecvență este înclinată spre stânga și alungită la dreapta. Imaginea de mai jos ilustrează cazul
cunoscut sub denumirea de “asimetrie la dreapta”:

5.3.1.2. Asimetria Pearson bazată pe momentul centrat de ordinul 3


Aceasta este cea mai utilizată formulă a asimetriei și se determină ca moment centrat
standardizat de ordinul 3 astfel:

 La nivelul unei populații: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 𝜇3/𝜎 3


 La nivelul unui eșantion: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 𝜇3/𝑠 3 ∗ 𝑛/2 (𝑛 − 1) ∗ (𝑛 − 2)

unde 𝜇3 este momentul centrat de ordinul 3:


Acest coeficient are următoarea interpretare:

 Dacă 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 este aproape de 0, atunci avem o repartiție simetrică; valoarea acestui
coeficient pentru o repartiție normală va fi 0;
 Dacă 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 < 0, atunci distribuția este înclinată la dreapta și alungită la stânga
(“asimetrie la stânga”);
 Dacă 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 > 0, atunci distribuția este înclinată la stânga și alungită la dreapta
(“asimetrie la dreapta”);

Exemplu:

Deoarece lucrăm pe datele unui eșantion, vom folosi abaterea medie pătratică la nivel de
eșantion, adică 𝑠.

Formula pentru un eșantion este:

𝜇3 = 1/16 ∗ [(10 − 12) 3 + (9 − 12) 3 + (12 − 12) 3 + (10 − 12) 3 + (14 − 12) 3 + (11 − 12) 3 +
+(16 − 12) 3 + (9 − 12) 3 + (12 − 12) 3 + (14 − 12) 3 + (11 − 12) 3 + (10 − 12) 3 + (17 − −12) 3 + (10 −
12) 3 + (14 − 12) 3 + (13 − 12) 3 ] = 7,875

𝑠 = √6 = 2,44

Obs: Acest parametru se poate calcula în Excel cu funcția skew.

5.3.2. Parametrii boltirii


Parametrii boltirii arată în ce măsură curba repartiției empirice este mai înaltă sau mai
aplatizată în raport cu cea a repartiției normale. O curbă mai înaltă arată o mai mare concentrare a
valorilor în jurul centrului de grupare și, deci, mai puține valori extreme. O curbă mai plată arată o
împrăștiere mai mare a valorilor, deci mai multe valori extreme.

5.3.2.1. Coeficientul de boltire Pearson


Coeficientul de boltire Pearson se notează cu β și se determină ca moment centrat
standardizat de ordinul 4 astfel (la nivelul unei populații):

unde 𝜇4 este momentul centrat de ordinul 4:

iar 𝜇2 desemnează momentul centrat de ordinul 2:


Acest coeficient are următoarea interpretare (dată de Pearson în 1905) referindu-se la gradul
de ”turtire” al unei distribuții simetrice prin comparație cu al unei distribuții normale cu aceeași
varianță:

 Pentru o distribuție normală, coeficientul β = 3, iar distribuția se numește


mezocurtică;
 Dacă 𝛽 < 3, atunci distribuția este aplatizată în raport cu distribuția normală, purtând
denumirea de platicurtică;
 Dacă 𝛽 > 3, atunci distribuția este mai alungită, mai înaltă în raport cu distribuția
normală, purtând denumirea de leptocurtică;

5.3.2.2. Coeficientul de boltire


Fisher
Coeficientul de boltire Fisher se notează cu γ și cuantifică excesul față de boltirea unei
repartiții normale. Din moment ce pentru o repartiție normală β = 3, excesul de boltire va fi:

 La nivelul unei populații:

 La nivelul unui eșantion:

Acest coeficient are


următoarea
interpretare:

 Pentru o distribuție normală, coeficientul γ = 0 (distribuție mezocurtică);


 Dacă γ < 0, atunci avem o distribuție platicurtică;
 Dacă γ > 0, atunci avem o distribuție leptocurtică

Exemplu:

= [(10 − 12) 4 + (9 − 12) 4 + (12 − 12) 4 + (10 − 12) 4 + (14 − 12) 4 + (11 − 12) 4 +
+(16 − 12) 4 + (9 − 12) 4 + (12 − 12) 4 + (14 − 12) 4 + (11 − 12) 4 + (10 − 12) 4 + (17 − −12) 4 +
(10 − 12) 4 + (14 − 12) 4 + (13 − 12) 4 ] = 1158
𝑠 = √6 = 2,44

Obs: Acest parametru se poate calcula în Excel cu funcția kurt

Curs 7
Cercetarea prin sondaj

6.1. Noțiuni specifice cercetării prin sondaj


Obținerea datelor cu ajutorul cercetării totale face obiectul statisticii clasice, iar obținerea
datelor prin observare parțială face obiectul statisticii inferențiale.

Cercetarea prin sondaj presupune cunoașterea unei populații statistice pe baza observațiilor
făcute asupra unui eșantion reprezentativ provenit din respectiva populație statistică. Cercetarea
prin sondaj constă în estimarea unor caracteristici ale populației statistice, în verificarea unor ipoteze
privind aceste caracteristici sau în previzionarea evoluției viitoare a acestora.

Aria de aplicabilitate a cercetării prin sondaj în domeniul economic cuprinde controlul calității
în cadrul procesului de producție, cercetările de marketing, previzionarea evoluției prețurilor și a
vânzărilor în cadrul planurilor de afaceri, etc.

Cercetarea parțială are ca scop estimarea parametrilor caracteristici unei populații statistice
pe baza datelor care compun un eșantion extras din populația statistică respectivă, folosind
principiile teoriei probabilităților. Astfel, în urma obținerii și prelucrării datelor eșantionului studiat,
se obțin o serie de indicatori specifici acestuia. Apoi, prin extrapolare, cu o anumită probabilitate,
indicatorii obținuți pe baza eșantionului sunt transpuși la nivelul întregii populații analizate.

Volumul unei populații satistice se notează cu N, iar cel al unui eșantion provenit din
populația respectivă se notează cu n.

Valorile statistice (de selecție) ale parametrilor caracteristici unui set de date, reprezintă
indicatorii calculați la nivel de eșantion (de exemplu 𝑠 2 ).

Valorile estimate ale parametrilor populației statistice sunt indicatori ce caracterizează


întreaga populație statistică, care nu se obțin prin calcul, ci prin estimare, având la bază valorile de
selecție obținute la nivel de eșantion.

Un anumit parametru al unei populații statistice are o anumită valoare reală, fixă, care este
însă necunoscută și se notează cu θ. Valorile folosite pentru estimarea parametrilor reali,
necunoscuți θ ai unei populații statistice se numesc estimatori și se notează θ.

6.2. Estimarea parametrilor unei populații statistice


Estimarea reprezintă procesul prin care se determină, cu o anumită probabilitate, valorile
necunoscute ale parametrilor unei populații statistice, pe baza datelor înregistrate la nivelul unui
eșantion extras din aceasta. Estimarea se poate realiza fie sub formă de interval de încredere, fie sub
forma estimării punctuale.
Estimarea punctuală reprezintă procedeul de determinare a unei singure valori posibile și
probabile a parametrului căutat, pe baza datelor aferente unui eșantion provenit din populația
respectivă.

Estimarea prin interval de încredere presupune determinarea limitelor unui interval probabil
în care se încadrează valoarea reală a parametrului studiat.

Estimatorul reprezintă o funcție statistică utilizată pentru a estima un parametru necunoscut


al populației statistice. Acesta se obține prin inferență statistică și are asociată o anumită
probabilitate ce caracterizează gradul său de acuratețe (încredere).

Estimația reprezintă valoarea obținută a unui estimator θ al parametrului θ, obținută pe


baza unui eșantion.

Calitatea estimatorului și a estimației se apreciază cu ajutorul a trei proprietăți:

 Deplasare;
 Convergență;
 Eficiență.

Un estimator este nedeplasat sau fără distorsiuni atunci când speranța sa matematică este
egală cu valoarea reală a parametrului corespunzător: estimator nedeplarat

Speranța matematică sau valoarea așteptată a unei variabile


aleatoare este media acesteia, obținută de pe urma repetării de un număr suficient de mare de ori a
experienței care generează respectiva variabilă aleatoare.

Cu cât volumul eșantionului este mai mare, cu atât valoarea estimatorului este mai apropiată
de valoarea reală a parametrului (𝑛 → 𝑁).

Un estimator este deplasat dacă:

Unde dθ reprezintă eroarea de reprezentativitate (deplasarea


estimatorului).

Estimatorul convergent sau consistent reprezintă estimatorul a cărui varianță tinde spre 0
atunci când volumul eșantionului tinde către volumul populației statistice:

Un estimator este absolut corect dacă îndeplinește concomitent


următoarele condiții:

1. Este nedeplasat

2. Este convergent

Un estimator este eficient atunci când are varianța cea mai mică în raport cu varianța oricărui
alt estimator calculat pentru același eșantion de volum 𝑛: 𝑉𝑎𝑟(𝜃̂) = minimă.

6.2.1. Estimarea punctuală a mediei și varianței unei populații statistice

Dacă m este media necunoscută a unei populații statistice, iar 𝑋̅ este estimatorul său, calculat
la nivelul unui eșantion de volum n provenit din respectiva populație statistică, atunci se poate
demonstra că 𝑋̅ este un estimator absolut corect al lui 𝑚, astfel (ținând cont de proprietățile mediei
și proprietățile varianței):

Proprietățile mediei (și ale speranței matematice E ):


Fie 𝑋 și 𝑌 două variabile aleatoare și 𝑎 ∈ ℝ:

1. Dacă 𝑀(𝑋) = 𝑋̅, atunci 𝑀(𝑋 + 𝑎) = 𝑋̅ + a

2. Dacă 𝑀(𝑋) = 𝑋̅, atunci 𝑀(𝑎𝑋) = 𝑎𝑋̅

3. 𝑀(𝑎) = 𝑎

4. 𝑀(𝑋 + 𝑌) = 𝑀(𝑋) + 𝑀(𝑌)

5. 𝑀(𝑋𝑌) = 𝑀(𝑋) ∗ 𝑀(𝑌), dacă 𝑋 și 𝑌 sunt independente

Proprietățile varianței:

1. Dacă 𝑉𝑎𝑟(𝑋) = 𝜎^2 , atunci 𝑉𝑎𝑟(𝑋 + 𝑎) = 𝜎^2

2. Dacă 𝑉𝑎𝑟(𝑋) = 𝜎^2 , atunci 𝑉𝑎𝑟(𝑎𝑋) = 𝑎^2𝜎^2

3. 𝑉𝑎𝑟(𝑎) = 0 4. 𝑉𝑎𝑟(𝑋 + 𝑌) = 𝑉𝑎𝑟(𝑋) + 𝑉𝑎𝑟(𝑌), dacă 𝑋 și 𝑌 sunt independente

Media este un estimator absolut corect.

Așadar, 𝐸(𝑋̅) = 𝑚, deci a fost demonstrat faptul că media este un estimator nedeplasat.

Așadar, 𝑉𝑎𝑟(𝑋̅) 𝑛→𝑁 → 0, deci a fost demonstrat faptul că media este un estimator
convergent.

Fiind un estimator nedeplasat și convergent, media este un estimator absolut corect.

Varianta este un estimator corect.

Deoarece, 𝐸(𝜎̂ 2 ) = 𝑛−1 𝑛 𝜎^2 ≠ 𝜎^2 , varianța este un estimator deplasat.

Deci, 𝑉𝑎𝑟(𝜎̂ 2 ) 𝑛→𝑁 𝑛→∞ → 0, așadar varianța este un estimator convergent.

=> că estimatorul varianței 𝝈̂^𝟐 este un estimator corect.

S^2 este un estimator absolut corect al varianței unei populații statistice.

6.2.2. Estimarea mediei și varianței unei populații statistice prin interval de încredere

Estimarea prin interval de încredere constă în determinarea cu o anumită probabilitate a unui


interval de valori în interiorul căruia se situează parametrul studiat al populației statistice.

Probabilitatea ca parametrul populației statistice să se situeze în interiorul intervalului de


încredere se notează cu p și se numește coeficient sau nivel de încredere.

Probabilitatea inversă, ca parametrul respectiv să nu aparțină intervalului de încredere se


notează cu 𝛼 = 1 - p și se numește nivel de semnificație.

Probabilitatea ca parametrul necunoscut al populației statistice să se situeze în interiorul


intervalului de încredere este:
Estimarea mediei unei populații statistice prin interval de încredere:

Atunci când volumul eșantionului este mai mic de 30 de unități (𝑛 < 30) iar varianța
populației statistice (𝜎 2 ) este necunoscută, intervalul de încredere se determină cu ajutorul
repartiției Student cu 𝑛 − 1 grade de libertate, astfel:

𝑡 este o valoare care se extrage din tabelele aferente repartiției Student, în funcție de probabilitatea
𝛼/2 și de 𝑛 − 1 grade de libertate.

În statistică, numărul de grade de libertate este, de fapt, numărul de valori ale unei distribuții
care pot fluctua în mod liber (de exemplu alegerea în mod liber a 𝑛 − 1 valori din 𝑛 valori a căror
medie este egală cu 20).

t tabelar (critic) se calculează cu ajutorul funcției de densitate de probabilitate a repartiției Student.

În practica economică, se folosește deseori regula celor 3 𝝈, care propune următoarea formă
a intervalului de încredere pentru medie:

Conform distribuției normale, probabilitatea cuprinsă între −3𝜎 și 3𝜎 este de 0,9973. Astfel:

Metoda se poate folosi pentru situațiile în care valoarea lui 𝜎 este cunoscută.

Estimarea varianței unei populații statistice prin interval de încredere se realizează cu


ajutorul repartiției 𝜒^2 , astfel:

Pentru abaterea medie pătratică, intervalul de încredere se determină astfel:


Curs 8
7. Verificarea ipotezelor statistice

7.1. Demersul verificării ipotezelor statistice


Verificarea ipotezelor statistice reprezintă procesul de luare a unei decizii de admitere sau de
respingere a unei ipoteze referitoare la distribuția unei variabile sau a mai multor variabile sau cu
privire la un anumit parametru al unei distribuții date.

Procedeul (testul) de verificare presupune parcurgerea a cinci etape:

1. Formularea ipotezelor statistice

Ipoteza care urmează a fi verificată se numește ipoteză nulă și constă în admiterea faptului
că eventualele deosebiri între parametrii verificați sau între distribuțiile analizate sunt absolut
întâmplătoare. Ipoteza nulă se notează, de obicei, cu H0. Ipoteza alternativă se notează cu H1 și este
în opoziție cu ipoteza nulă, adică H1 se va accepta atunci când H0 se va respinge și invers.

Dacă verificarea efectuată se referă la egalitatea dintre un parametru 𝜃 și o anumită valoare


dată, 𝜃0, atunci, ipoteza nulă va fi:

𝐻0: 𝜃 = 𝜃0

Ipoteza alternativă poate lua una din formele:

 Test bilateral: H1: 𝜃 ≠ 𝜃0

 Test unilateral la stânga: H1: 𝜃 < 𝜃0

 Test unilateral la dreapta: H1: 𝜃 > 𝜃0

2. Alegerea coeficientului de încredere și a nivelului de semnificație al testului

În practica economică se alege, de obicei, un coeficient de încredere de 0,95, ceea ce


conduce la un nivel de semnificație de 0,05.

3. Determinarea valorii calculate sau statistice a testului

Această etapă se realizează având la bază o anumită lege de repartiție. Cele mai utilizate sunt
testele bazate pe repartițiile Laplace, Student, Helmert și Fisher.

4. Alegerea valorii critice (tabelare) a testului


Alegerea valorii critice se face folosind tabelele aferente fiecărei repartiții utilizate. Valoarea
căutată se alege după anumite criterii, de cele mai multe ori pe baza probabilității 𝛼 și a unui anumit
număr de grade de libertate.

5. Compararea valorii calculate cu valoarea critică

Aceasta este ultima etapă a demersului verificării ipotezelor statistice, în urma căreia se
decide acceptarea sau respingerea, cu un anumit grad de probabilitate a ipotezelor formulate în
etapa 1.

7.2. Verificarea ipotezelor statistice referitoare la media și varianța unei populații


statistice
7.2.1. Verificarea ipotezelor statistice referitoare la media unei populații statistice

Acest tip de test este utlizat pentru a verifica dacă media unei populații statistice (𝑚) este sau
nu egală cu o anumită valoare dată 𝑚0, având la dispoziție datele aferente unui eșantion de volum 𝑛,
extras din populația statistică studiată.

Dacă varianța populației analizate nu este cunoscută, se va utiliza testul bazat pe repartiția Student:

1. Se formulează ipoteza nulă, și ipoteza alternativă:

H0: m = m0

H1: m ≠ m0

2. Se stabilește nivelul de semnificație al testului:

𝛼=1−p

3. Se determină valoarea calculată a testului:

| X́−m0|
tc= ∗√n
s
4. Din tabelele repartiției Student se extrage tt, valoarea critică a testului în funcție de nivelul de
semnificație, 𝛼/2 și de 𝑛 − 1 grade de libertate.

5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:

a) Dacă tc < tt , atunci ipoteza nulă se acceptă și se poate spune cu probabilitatea p că media
populației analizate este egală cu valoarea dată m0, eventualele diferențe fiind nesemnificative

b) Dacă tc > tt , atunci ipoteza nulă se respinge și se poate spune cu probabilitatea p că media
populației analizate diferă de valoarea dată m0, diferențele fiind semnificative.

7.2.2. Verificarea ipotezelor statistice referitoare la varianța unei populații statistice


Acest test presupune verificarea ipotezelor conform cărora varianța populației statistice
analizate (𝜎^2 ) este egală cu o anumită valoare dată 𝜎0^2 , având la dispoziție un eșantion de volum
n, provenit din populația statistică studiată. Testul se bazează pe repartiția X^2 , având următoarele
etape:

1. Se formulează ipoteza nulă, care presupune egalitatea dintre varianța populației și valoarea dată
𝜎0^2 :

H0: 𝜎^2 = 𝜎0

Ipoteza alternativă va fi: H1: 𝜎^2 ≠ 𝜎0^2

2. Se stabilește nivelul de semnificație al testului:

𝛼=1–p

3. Se determină valoarea calculată a testului:

( n−1 )∗s 2
X 2c =
σ 20
2 2
4. Din tabelele repartiției X^2 se extrag două valori tabelare, X a ( 𝛼/22 , 𝑛 − 1) și X 1− a (1 –
2 2
𝛼/2 , 𝑛 − 1).
2
5. Se compară valoarea calculată a testului X c cu cele două valori tabelare și putem avea una
din următoarele situații:
2 2
a) Dacă X 2c ∈ ( X 1− a , X a ) atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că
2 2
varianța populației analizate este egală cu valoarea dată 𝜎0^2 , eventualele diferențe fiind absolut
întâmplătoare
2 2
b) Dacă X 2c ∉ ( X 1− a , X a ), atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că
2 2
varianța populației analizate diferă de valoarea dată 𝜎0^2 , diferențele având cauze reale.

Curs 9
7. Verificarea ipotezelor statistice
7.3. Teste de comparare a mediilor și varianțelor a două populații statistice
În cadrul activității economice există multe situații în care se impune efectuarea unor
comparații între diverse fenomene sau procese economice sau între niveluri ale aceleiași variabile,
înregistrate la momente diferite de timp. În aceste situații, compararea se efectuează prin
intermediul unor teste statistice specifice. Aceste teste se concentrează pe compararea mediilor și
varianțelor a două populații statistice.

7.3.1. Compararea varianțelor a două populații statistice


Varianțele necunoscute a două populații statistice (𝜎1^2 și 𝜎2^2 ) se compară cu ajutorul
unui test bazat pe repartiția Fisher. Testul se realizează pe baza a două eșantioane, fiecare dintre ele
provenind dintr-una din populațiile statistice studiate. Din moment ce varianțele celor două populații
sunt necunoscute, în cadrul testului se vor folosi estimatorii acestora, calculați la nivel de eșantion:
𝑠1^2 și 𝑠2^2 . Testul constă în următoarele etape:

1. Se formulează ipoteza nulă, prin care se presupune că varianțele celor două populații sunt egale:

H0: 𝜎1^2 = 𝜎2^2

Ipoteza alternativă va fi: H1: 𝜎1^2 ≠ 𝜎2^2

2. Se stabilește nivelul de semnificație al testului:

𝛼=1–p

3. Se determină valoarea calculată a testului:

4. Din tabelele repartiției Fisher se extrage Ft, valoarea critică (tabelară) a


testului în funcție de probabilitatea 𝛼, de 𝑛1 − 1 și 𝑛2 − 1 grade de
libertate.

5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:

a) Dacă Fc < Ft, atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că
varianțele celor două populații sunt egale, eventualele diferențe fiind absolut întâmplătoare

b) Dacă Fc > Ft , atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că


varianțele celor două populații sunt diferite, diferențele având cauze reale.

7.3.2. Compararea mediilor a două populații statistice


Mediile necunoscute a două populații statistice (m1 și m2) se compară pe baza eșantioanelor
provenite din respectivele populații statistice. Pentru compararea mediilor, există două variante de
teste, în funcție de volumele eșantioanelor și de cunoașterea sau necunoașterea varianțelor
populațiilor respective.

Dacă varianțele celor două populații (𝜎1^2 și 𝜎2^2 ) nu sunt cunoscute, iar volumele celor
două eșantioane nu depășesc fiecare câte 30 de unități, testul pentru medie se va realiza având la
bază repartiția Student. Din moment ce varianțele celor două populații nu sunt cunoscute și nu se
știe dacă ele sunt sau nu egale, se impune efectuarea testului Fisher pentru compararea varianțelor
înainte de efectuarea testului Student. În funcție de rezultatul testului Fisher (varianțe egale sau
diferite), testul Student se va face în mod diferit, specific fiecărui caz.

a) Dacă în urma testului Fisher, varianțele au rezultat a fi egale (𝜎1^2 = 𝜎2^2 ), etapele
testului Student vor fi:

1. Se formulează ipoteza nulă, prin care se presupune că mediile celor două populații sunt egale:

H0: m1 = m2

Ipoteza alternativă va fi: H1: m1 ≠ m2

2. Se stabilește nivelul de semnificație al testului:


𝛼=1–p

3. Se determină valoarea calculată a testului:

Unde s = √ s 2, iar s^2 este un estimator al celor două varianțe egale, calculat astfel:

4. Din tabelele repartiției Student se extrage tt, valoarea critică a testului în funcție de nivelul de
semnificație, 𝛼/2 și de 𝑛1 + 𝑛2 − 2 grade de libertate.

5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:

a) Dacă tc < tt , atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt egale, eventualele diferențe fiind nesemnificative

b) Dacă tc > tc , atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt diferite, diferențele fiind semnificative.

b) Dacă în urma testului Fisher, varianțele au rezultat a fi diferite (𝜎1^2 ≠ 𝜎2^2 ), etapele testului
Student vor fi:

1. Se formulează ipoteza nulă, prin care se presupune că mediile celor două populații sunt egale:

H0: m1 = m2

Ipoteza alternativă va fi: H1: m1 ≠ m2

2. Se stabilește nivelul de semnificație al testului:

𝛼=1–p

3. Se determină valoarea calculată a testului:

4. Din tabelele repartiției Student se extrage tt , valoarea critică a testului în funcție de nivelul de
semnificație, 𝛼/2 și de v grade de libertate.

unde
5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:

a) Dacă tc < tt , atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt egale, eventualele diferențe fiind nesemnificative

b) Dacă tc > tt , atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt diferite, diferențele fiind semnificative.

Exemple de utilizare în practică a testelor de comparare: evaluarea rezultatelor unor


campanii promoționale sau publicitare, evaluarea introducerii pe piață a unui nou produs, etc

Curs 10
8. Serii de timp
8.1. Noțiuni introductive
Seria de timp (cronologică sau dinamică) este formată din două șiruri de date paralele,
primul șir reflectând variația caracteristicii timp, iar cel de-al doilea arătând variația caracteristicii
studiate, de la un moment de timp la altul. Seriile lungi de timp prezintă o importanță ridicată în
rândul studiilor statistice, deoarece acestea prezintă adeseori tipare de repetabilitate care conduc la
crearea unor anumite modele matematice și statistice, utilizate pentru previziunea evoluției viitoare
a fenomenelor analizate.

Proprietățile seriilor de timp sunt prezentate în cele ce urmează:

 Variabilitatea termenilor unei serii de timp apare în cazul în care fiecare termen al unei serii de
timp este obținut prin centralizarea unor date cu caracteristici diferite.

Exemplu: PIB-ul: Cu cât componentele individuale prezintă fluctuații mai mari și cu cât ponderea
acestora variază în seria de timp analizată, termenii acesteia vor prezenta diferențe mai mari de la un
moment de timp la altul;

 Omogenitatea termenilor constă în includerea în cadrul unei serii de timp doar a unor date de
același fel, care sunt rezultatul acțiunii acelorași cauze esențiale. Pentru asigurarea omogenității
seriei de timp, trebuie menținută aceeași metodologie de culegere a datelor și de calcul al
indicatorilor și aceeași frecvență de măsurare a timpului;

 Periodicitatea termenilor se referă la asigurarea continuității datelor unei serii de timp, în condițiile
menținerii unității de măsură a timpului;

 Interdependența termenilor seriei de timp reflectă legăturile dintre valorile înregistrate la


momente diferite de timp (dintre nivelul curent al variabilei studiate și nivelurile înregistrate
anterior). Dacă se constată că aceste interdependențe sunt foarte puternice, atunci se poate vorbi
despre caracterul autoregresiv al seriei de timp, unul dintre principalele subiecte de studiu ale
Statisticii și Econometriei.

Analiza statistică a seriilor de timp trebuie să aibă în vedere următoarele aspecte:

1. Seria de timp trebuie să conțină un număr suficient de mare de date, astfel încât analiza să fie
releventă;

2. Trebuie aleasă cea mai potrivită formă de analiză a seriei de timp. Cea mai utilizată formă de
analiză o reprezintă descompunerea seriei de timp pe componente determinate de diferiți factori de
influență. Astfel, în seriile de timp analizate în economie se pot identifica următoarele componente:

 Trendul sau tendința centrală (Tt), care reflectă legea specifică de evoluție a variabilei
analizate pe o perioadă lungă de timp (de ordinul anilor), făcând abstracție de influențele
întâmplătoare ale unor factori aleatori;

 Variațiile ciclice (Ct), reprezintă oscilațiile interanuale înregistrate de seria de timp în jurul
tendinței centrale;

 Variațiile sezoniere (St), reprezintă oscilațiile intraanuale care se repetă în timp;

 Variațiile aleatoare (𝜀t), apar datorită unor factori necuantificabili și imprevizibili.

Literatura de specialitate prevede două scheme principale de descompunere a unei serii de


timp în componentele descrise anterior:

i) Prima astfel de schemă este schema aditivă: Yt = Tt + Ct + St + 𝜀t

ii) A doua schemă este cea multiplicativă, care se prezintă sub două variante:

a) Dacă componenta sezonieră este proporțională cu componenta extrasezonieră, schema va


fi: Yt = Dt + Dt ∗ St + 𝜀𝑡 = Dt ∗ (1 + St) + 𝜀𝑡 unde Dt = componenta extrasezonieră, Dt = Tt + Ct

b) Atunci când componenta aleatoare este proporțională cu suma celorlalte componente,


schema de descompunere va fi: Yt = Dt ∗ (1 + St)(1 + 𝜀𝑡)

3. Seriile de timp trebuie să țină cont și de tendința unor fenomene economice de a-și manifesta
influența asupra altor fenomene cu o anumită întârziere în timp (decalaj în timp, time lag).

În raport cu perioada de timp la care se referă datele, seriile de timp pot fi:

 Serii de timp de intervale (continue), în cazul cărora fiecare valoare a seriei de timp
reprezintă o perioadă de timp. Aici intră, de regulă, variabilele economice exprimate în unități
monetare (cifra de afaceri, PIB-ul) care se pot însuma între ele;

 Serii de timp de momente (discrete), fiecare valoare a seriei de timp reprezintă un anumit
moment de timp. În astfel de situații termenii seriei nu sunt însumabili, deoarece conțin înregistrări
repetate (populația României în 2003, 2004, etc.), valori care se includ reciproc.

După modul de exprimare a temenilor seriei, seriile de timp pot fi:

 Serii formate din indicatori absoluți, care exprimă variații absolute;

 Serii formate din indicatori relativi, care arată variații procentuale de la o perioadă la alta;
 Serii formate din indicatori medii, folosite mai ales când se analizează fenomene care se
desfășoară în intervale standardizate de timp (medii anuale sau medii lunare) sau în anumite unități
spațiale (recolta la hectar, productivitatea medie a unor angajați).

Principalul scop al analizei seriilor de timp este acela de a înțelege evoluția trecută, istorică a
acestora, particularitățile și factorii de influență, astfel încât să fie posibilă o extrapolare care să
permită previziunea evoluției viitoare a variabilei analizate.

8.2. Indicatori ai nivelului și ai variației unui fenomen în timp


8.2.1. Indicatori exprimați în mărimi absolute
8.2.1.1. Nivelul absolut
Nivelul absolut se notează cu 𝑦𝑖 , 𝑖 = 1̅̅,̅𝑛̅ și arată valoarea absolută a fiecărui termen al seriei în parte.
8.2.1.2. Volumul absolut
Volumul absolut se notează cu V și este suma tuturor nivelurilor absolute:

8.2.1.3. Sporul absolut


Sporul absolut se notează cu ∆ și indică variația în mărimi absolute a fenomenului studiat de
la o perioadă de timp la alta:

 Sporul cu bază fixă: ∆ i/ 1= y i − y 1

 Sporul cu bază mobilă: ∆ i/ i−1= y i− y i−1

Între cele două categorii de sporuri absolute, există următoarele relații:

1) ∑ ∆𝑖/𝑖−1= 𝑖=2 ∆𝑛/1

2) ∆𝑖/1 − ∆𝑖−1/1= ∆𝑖/𝑖−1

8.2.2. Indicatori exprimați în mărimi relative


Indicatorii exprimați în mărimi relative exprimă variațiile de nivel ale variabilei studiate pe o
anumită perioadă de timp, fie procentual, fie sub formă de coeficienți.

8.2.2.1. Indicele de variație (evoluție)


Indicele de variație se notează cu I și arată de câte ori a crescut sau a scăzut nivelul variabilei
analizate față de momentul de referință:

 Indicele cu bază fixă:

Coeficient: I i/ 1= yi/y1 ;

Procentual: I i/ 1(%) = yi/y1 * 100;

 Indicele cu bază mobilă:

Coeficient: I i/ i−1= yi/yi-1;


Procentual: I i/ i−1 (%) = yi/yi-1 * 100

Între indicii cu bază fixă și cei cu bază mobilă se stabilesc următoarele relații:

8.2.2.2. Ritmul sporului


Ritmul sporului se notează cu R și arată procentual cu cât a crescut sau a scăzut nivelul
variabilei analizate față de momentul de referință:

 Ritmul sporului cu bază fixă:

Coeficient:

Procentual:

 Ritmul sporului cu bază mobilă:

Coeficient:

Procentual:

8.2.3. Indicatori medii


8.2.3.1. Nivelul mediu
Nivelul mediu se notează 𝑦̅ și se calculează ca și medie aritmetică a tuturor nivelurilor absolute:

8.2.3.2. Sporul mediu


Sporul mediu se notează cu ∆̅ și arată variația medie înregistrată de variabila analizată, pe unitatea
de timp:

8.2.3.3. Indicele mediu


Indicele mediu se notează cu 𝐼 ̅ (I barat) și arată de câte ori s-a modificat, în medie, nivelul variabilei
analizate, pe unitatea de timp:

8.2.3.4. Ritmul mediu al sporului


Ritmul mediu al sporului se notează cu 𝑅̅ ( R barat) și arată procentual cu cât a variat, pe unitatea de
timp, variabila analizată:
𝑅̅ = 𝐼 −̅ 1

Exemplu:

Următorul tabel prezintă evoluția profitului unei firme pe perioada 2013 – 2017. Valorile sunt
prezentate în RON și sunt în prețuri curente.

Se cere:

a) Să se determine rata inflației;

b) Să se transforme profitul în prețuri comparabile luând ca bază anul 2013;

c) Să se analizeze evoluția profitului în prețuri comparabile cu ajutorul indicatorilor satistici.

Rezolvare:

a.

b.

c.
Curs 11
8. Serii de timp
8.3. Indicatori agregați
Indicatorii agregați (compuși, complecși sau de grup) sunt utilizați pentru a urmări evoluția în
timp a unor fenomene complexe, formate prin combinarea mai multor elemente diferite. Indicatorii
agregați pot fi:

 Indicatori agregați neponderați;

 Indicatori agregați ponderați.

8.3.1. Indicatori agregați neponderați


Indicatorii agregați neponderați se calculează atunci când elementele individuale
care compun un fenomen își păstrează ponderea în timp și au ponderi egale.

Exemplu:

O firmă deține cinci magazine de dimensiuni egale într-un oraș. Vânzările celor cinci magazine în anii
2014 și 2015 sunt prezentate în tabelul următor și sunt exprimate în Euro:

Indicatorul agregat neponderat va fi:

8.3.2. Indicatori agregați ponderați


Indicatorii agregați ponderați sunt utilizați când ponderile elementelor componente se
schimbă de la un moment de timp la altul.

8.3.2.1. Indicele Laspeyres


Indicele Laspeyres studiază evoluția elementelor 𝑦𝑖 în condițiile păstrării neschimbate a ponderilor
inițiale:
Exemplu:

O persoană urmează un tratament cu 4 tipuri de medicamente în anii 2014 și 2015. În anul 2014,
medicamentele luate ocupă următoarele ponderi în numărul total de medicamente, iar prețul pe
bucată este (exprimat în RON):

În anul 2015, prețurile medicamentelor se modifică, dar se


modifică și tratamentul persoanei respective, prin modificarea ponderilor medicamentelor
componente:

8.3.2.2. Indicele Paasche


Indicele Paasche studiază evoluția elementelor yi în condițiile în care ponderii din momentul t ar fi
fost la fel și în momentul 0:

Exemplu:

8.3.2.3. Indicele agregat general


Indicele agregat general studiază evoluția elementelor yi de la momentul 0 la momentul t în
condițiile modificării ponderilor pi de la momentul 0 la momentul t:

Exemplu:
Observație: Dacă am fi calculat pentru acest exemplu un indicator agregat neponderat, am fi obținut
următorul rezultat (diferit de toate celelalte):

S-ar putea să vă placă și