Documente Academic
Documente Profesional
Documente Cultură
Statistică Teorie
Statistică Teorie
Populația statistică este compusă din ansamblul unităților statistice. Unitatea statistică
reprezintă fiecare element, fiecare entitate de sine stătătoare a unei populații statistice. Unitatea
statistică posedă o serie de caracteristici care îi conferă apartenența la o anumită populație statistică.
Unitățile statistice pot fi:
Fiecare dintre unitățile statistice ale unei populații statistice prezintă un set de trăsături sau
proprietăți, numite caracteristici statistice. În general, unitățile statistice posedă un număr foarte
mare de însușiri, dar în cadrul analizei statistice se rețin doar acelea care prezintă interes pentru
cercetarea întreprinsă.
Din punct de vedere al numărului de valori pe care le pot lua, caracteristicile statistice pot fi:
De foarte multe ori, în practică, o cercetare a fiecărui element al unei populații statistice ar
implica un timp foarte îndelungat sau costuri mult prea ridicate. În aceste situații se apelează la
cunoștințele și procedeele specifice statisticii economice, care presupune o abordare asupra întregii
populații statistice, fără însă o cercetare în întregime asupra acesteia. În aceste situații, cercetarea se
realizează doar asupra unei părți a populației de interes, urmând ca rezultatele cercetării, concluziile
desprinse să fie transpuse, extrapolate la nivelul întregii populații.
Acea parte din populația statistică ce face obiectul cercetării se numește eșantion sau
selecție și este o submulțime reprezentativă a populației. Volumul unui eșantion este, de obicei,
considerabil mai mic decât cel al populației studiate.
Prin ordonarea și gruparea datelor statistice după una sau mai multe caracteristici, se obțin
seriile statistice. După conținutul caracteristicii de grupare, seriile statistice pot fi:
Seria de repartiție, după modul de variație al caracteristicii numerice, poate fi discretă sau
continuă. De fapt, seria de repartiție se referă la natura și repartiția variabilei aleatoare.
Seria de spațiu este cea în care caracteristica de interes variază în funcție de spațiu.
Datele culese trebuie să îndeplinească anumite condiții de volum și calitate, pentru a asigura
un grad ridicat de relevanță rezultatelor obținute în urma prelucrării acestora. Astfel, în cadrul
demersului observării statistice trebuie respectate simultan două principii de bază:
După volumul de date obținut în urma observării statistice, aceasta poate fi:
În cadrul procesului de obținere a datelor statistice, pot exista situații în care datele
înregistrate nu concordă cu realitatea. Aceste neconcordanțe poartă denumirea de erori de
observare (înregistrare). Acestea pot fi:
Erori întâmplătoare, care se produc nepremeditat, de cele mai multe ori datorită neatenției
operatorului. De obicei, erorile întâmplătoare urmează o repartiție normală;
Erori sistematice, care se produc în mod repetat în cadrul procesului de observare, de cele
mai multe ori având ca și cauză neînțelegerea corectă a procedeelor de culegere a datelor
sau nerespectarea acestora.
Pe lângă aceste categorii de erori, în cazul observării parțiale, mai pot apărea și erorile de
reprezentativitate, care apar atunci când eșantionul nu a fost bine ales ca volum sau ca
structură.
În scopul de a asigura o observare lipsită de erori de orice fel, trebuie efectuat un control
riguros, care poate fi:
Rezolvare:
Rezolvare:
h = 17 – 9/ 1+
3,322 ∗ 𝑙𝑔(16) = 1,59 ≈ 2
Frecvența absolută ( ni , 𝑖 = ̅1̅, ̅𝑘̅) a unui interval arată numărul de valori din seria inițială de
date care se găsesc în intervalul respectiv. Suma frecvențelor absolute este egală cu volumul
eșantionului:
Frecvența cumulată a unui interval ( Cni ) se determină prin suma dintre frecvența absolută a
intervalului respectiv și frecvențele absolute ale tuturor intervalelor anterioare. Ultima frecvență
cumulată este egală cu volumul eșantionului:
𝐶𝑛𝑘 = n
Frecvența cumulată relativă a unui interval ( Cfi ) se determină prin raportul dintre frecvența
cumulată și volumul eșantionului. Ultima frecvență cumulată relativă este egală cu 1:
𝐶𝑓𝑖 = 1
3. Prezentarea datelor sub formă de serii se realizează printr-un șir dublu. Primul șir se
referă la variația caracteristicii studiate, iar al doilea la frecvența de apariție corespunzătoare:
Titlul graficului;
Axele de coordonate;
Scara graficului (dacă este cazul);
Notele;
Sursa graficului;
Legenda;
Rețeaua graficului.
În vederea cercetării statistice a tendințelor și a regulilor de evoluție ale unui proces sau fenomen
economic, este important să cunoaștem principalii parametrii care caracterizează repartiția acestuia.
După aspectul pe care îl caracterizează, parametrii repartiției unei variabile aleatoare sunt
grupați astfel:
1) Să fie precis definite, prin formule sau definiții care să conducă de fiecare dată orice
utilizator, orice analist, la același rezultat pe baza acelorași date;
3) Să fie stabile, adică să nu comporte influențe majore din partea modului de selecție a
eșantionului (oricum s-ar construi eșantioanele analizate, mărimile medii să nu se modifice
semnificativ de la un eșantion la altul).
Mărimi obținute prin calcul (media aritmetică, media geometrică, media armonică,
media pătratică);
Mărimi de poziție, utilizate pentru identificarea locului centrului de grupare
(mediana, modul, quantilele). În funcție de modul de calcul, putem avea:
Mărimi medii simple (în cadrul seriilor simple de date – date negrupate);
Mărimi medii ponderate (în cazul seriilor grupate pe intervale de frecvență).
5.1.1. Media
Se numește media unei variabile aleatoare 𝑋 acea valoare notată 𝑋̅ care, în urma substituției
xi = 𝑋̅, i = 1̅̅,̅𝑛̅, nu modifică proprietatea determinantă a variabilei respective.
unde:
𝑛 = volumul eșantionului
𝑛𝑖 = frecvențele absolute
unde:
𝑛 = volumul eșantionului
𝑛𝑖 = frecvențele absolute
Media aritmetică se foloseşte atunci când fenomenul supus cercetării înregistrează modificări
aproximativ constante, în progresie aritmetică, prezentând, deci, o tendinţă liniară.
Exemplu: Distribuția cheltuielilor cu publicitatea ale unei firme, pe parcursul a 16 luni este prezentată
în tabelul de mai jos:
sau
Se calculează astfel:
Exemplu:
Exemplu:
- Media pătratică pentru date grupate pe intervale:
Exemplu:
Exemplu:
Exemplu:
Exemplu:
Media geometrică se utilizează atunci când datele analizate prezintă modificări, aproximativ,
în progresie geometrică (diferenţele dintre date sunt mai mari la începutul seriei şi din ce în ce mai
mici spre sfârşitul seriei).
Exemplu:
- Media geometrică ponderată:
Exemplu:
- Media geometrică
pentru date grupate pe
intervale:
Exemplu:
5.1.2. Mediana
Mediana unei serii de date (𝑋̅e ) este acea valoare pentru care probabilitatea ca variabila
aleatoare 𝑋 să ia valori inferioare ei este egală cu probabilitatea ca 𝑋 să ia valori superioare ei:
Deci, mediana este valoarea centrală a unei serii ordonate de date, cea care împarte
repartiția în două părți egale.
Pentru date negrupate, în scopul determinării medianei, trebuie mai întâi ordonate datele
crescător. Apoi:
Dacă n este număr impar, atunci mediana este valoarea centrală a seriei ordonate de
date: 𝑋̅ 𝑒 = 𝑥𝑛+1/ 2 (valoarea cu numărul de ordine 𝑛+1 2 ).
Exemplu: Deoarece în exemplul utilizat anterior 𝑛 = 16, număr par, nu vom putea utiliza acea
aplicație pentru a exemplifica mediana pe date negrupate cu 𝑛 număr impar. De aceea, vom lua
următoarele date:
1 , 2 , 3, 𝟒, 5, 6, 7
Deci, mediana este valoarea cu numărul 7+1 /2 = 4, din seria ordonată de date, adică 𝑋̅ 𝑒 = 11
Dacă 𝒏 este număr par, atunci mediana este media aritmetică a celor două valori
centrale ale seriei ordonate de date: 𝑋̅ 𝑒 = 1 2 (𝑥𝑛 /2 + (𝑥𝑛 /2 )+1 ) (valorile cu
numerele de ordine 𝑛/ 2 și (𝑛/ 2) + 1).
10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13 𝑛 = 16
Ordonăm datele crescător: 9, 9, 10, 10, 10, 10, 11, 𝟏𝟏, 𝟏𝟐, 12, 13, 14, 14, 14, 16, 17.
1, 2, 3, 4, 5, 6, 7, 𝟖, 𝟗, 10, 11, 12, 13, 14, 15, 16
Deci, mediana este media aritmetică a valorilor cu numerele 16/ 2 = 8 și (16 /2) + 1 = 9, din
seria ordonată de date, adică 𝑋̅ 𝑒 = 11+12/ 2 = 11,5
Pentru date grupate, primul pas al determinării medianei constă în identificarea intervalului
median. Intervalul median este cel corespunzător primei frecvențe cumulate mai mari decât 𝑛/2 .
Mediana se va calcula conform relației:
Exemplu:
5.1.3. Modul
Modul este valoarea cu frecvența maximă de apariție.
Pentru variabilele discrete, modul este valoarea cu cea mai mare probabilitate de apariție.
Pentru date negrupate, modul (𝑋̅ 0) este valoarea care apare de cele mai multe ori (valoarea
cu frecvența maximă de apariție).
Exemplu: 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13
𝑋̅ 0 = 10, valoarea care se repetă de cele mai multe ori (de 4 ori)
Observație: Dacă există două sau mai multe valori care se repetă de cele mai multe ori,
atunci modul nu se poate determina (repartiție plurimodală).
Pentru datele grupate, prima etapă este cea a determinării intervalului modal. Intervalul
modal este cel care are frecvența absolută maximă. Modul se va calcula conform relației:
∆1= diferența dintre frecvența absolută a intervalului modal (cea maximă) și cea anterioară:
∆1= 𝑛0 − 𝑛0−1
∆2= diferența dintre frecvența absolută a intervalului modal (cea maximă) și următoarea:
∆2= 𝑛0 − 𝑛0+1
Exemplu:
Observație: Dacă există mai mult de un interval cu frecvență absolută maximă, atunci modul
nu se poate determina și spunem că avem o serie de date plurimodală.
Ca aplicabilitate practică, modul poate înlocui media, atunci când aceasta nu poate fi
calculată sau nu are sens calcularea ei. De exemplu, nu are sens determinarea modelului mediu al
automobilelor vândute și se va lua în considerare ca valoare centrală modelul vândut cel mai des, de
cele mai multe ori, adică modul.
Într-o repartiție perfect simetrică și unimodală media, mediana și modul coincid. Acesta este
și cazul repartiției normale, în cadrul căreia media, modul și mediana corespund vârfului clopotului
lui Gauss.
Pentru date negrupate, este diferența dintre valoarea maximă și valoarea minimă a
seriei de date:
𝐴 = 𝑋𝑚𝑎𝑥 – 𝑋𝑚𝑖n
Exemplu: Vom relua datele din exemplul utilizat în cursurile anterioare. Cheltuielile cu
publicitatea ale unei firme au fost monitorizate pe o perioadă de 16 luni, obținându-se următoarele
date: 10, 9, 12, 10, 14, 11, 16, 9, 12, 14, 11, 10, 17, 10, 14, 13.
𝐴 = 17 − 9 = 8
Pentru date grupate pe intervale, amplitudinea se poate calcula ca și diferență între limita
superioară a ultimului interval de grupare și limita inferioară a primului interval de grupare, atunci
când această diferență are sens din punct de vedere economic.
Exemplu: 𝐴 = 19 − 9 = 10
Exemplu:
Pentru date negrupate: 𝐴% = 8 /12 ∗ 100 = 66,66%
Pentru date grupate: 𝐴% = 10 /12,375 ∗ 100 = 80,80%
Amplitudinea relativă, față de cea absolută, permite comparații între două sau mai multe
serii de date, în ceea ce privește întinderea domeniului de variație.
Exemplu:
𝑑 = 1 /16 ∗ [|10 − 12| + |9 − 12| + |12 − 12| + |10 − 12| + |14 − 12| + |11 − 12| + +|16 − 12| + |9 −
12| + |12 − 12| + |14 − 12| + |11 − 12| + |10 − 12| + |17 − −12| + |10 − 12| + |14 − 12| + |13 − 12|]
=2
Exemplu:
5.2.2.2. Varianța (Dispersia)
Varianța reprezintă momentul centrat de ordinul 2. La nivelul unei populații, ea se notează cu
𝜎^2 , iar la nivelul unui eșantion, se notează cu s^2.
Exemplu:
𝑠^2 = 1/16−1 ∗ [(10 − 12) 2 + (9 − 12) 2 + (12 − 12) 2 + (10 − 12) 2 + (14 − −12) 2 + (11 − 12) 2 + (16 −
12) 2 + (9 − 12) 2 + (12 − 12) 2 + (14 − −12) 2 + (11 − 12) 2 + (10 − 12) 2 + (17 − 12) 2 + (10 − 12) 2 + (14
− −12) 2 + (13 − 12) 2 ] = 6
Exemplu:
Varianța este un parametru abstract, care nu are unitate de măsură și care cuantifică variația
totală a caracteristicii studiate datorită cauzelor esențiale sau întâmplătoare. Varianța nu permite
comparații între două serii de date diferite ca și unitate de măsură sau ordin de mărime.
Exemplu: 𝑠 = √6 = 2,44
Spre deosebire de varianță, abaterea medie pătratică prezintă avantajul că păstrează ordinul
de mărime al valorilor studiate. Totuși, nu poate fi utilizată pentru compararea a două serii de date
exprimate în unități de măsură diferite. Acest dezavantaj poate fi înlăturat prin calcularea
coeficientului de variație.
Dacă 𝐶𝑉 = 0%, înseamnă că toate valorile caracteristicii studiate sunt egale între ele și egale
cu media lor aritmetică, iar varianța lor este nulă;
Dacă 𝐶𝑉 < 35%, se consideră că populația studiată este omogenă, cu o varianță mică și cu o
medie reprezentativă pentru valorile studiate;
Dacă 𝐶𝑉 > 70%, atunci avem o populație eterogenă, cu o varianță ridicată și care nu este bine
reprezentată de media sa. În astfel de cazuri se impune gruparea datelor în mai multe
subgrupe omogene, care urmează a fi studiate separat.
Exemplu: 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 12 − 10 = 2
Dacă media este mai mică decât modul și mediana, atunci asimetria este negativă, iar curba
de frecvență este înclinată spre dreapta și alungită la stânga. Imaginea de mai jos ilustrează cazul
cunoscut sub denumirea de “asimetrie la stânga”:
Dacă media este mai mare decât modul și mediana, atunci asimetria este pozitivă, iar curba
de frecvență este înclinată spre stânga și alungită la dreapta. Imaginea de mai jos ilustrează cazul
cunoscut sub denumirea de “asimetrie la dreapta”:
Dacă 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 este aproape de 0, atunci avem o repartiție simetrică; valoarea acestui
coeficient pentru o repartiție normală va fi 0;
Dacă 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 < 0, atunci distribuția este înclinată la dreapta și alungită la stânga
(“asimetrie la stânga”);
Dacă 𝐴𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 > 0, atunci distribuția este înclinată la stânga și alungită la dreapta
(“asimetrie la dreapta”);
Exemplu:
Deoarece lucrăm pe datele unui eșantion, vom folosi abaterea medie pătratică la nivel de
eșantion, adică 𝑠.
𝜇3 = 1/16 ∗ [(10 − 12) 3 + (9 − 12) 3 + (12 − 12) 3 + (10 − 12) 3 + (14 − 12) 3 + (11 − 12) 3 +
+(16 − 12) 3 + (9 − 12) 3 + (12 − 12) 3 + (14 − 12) 3 + (11 − 12) 3 + (10 − 12) 3 + (17 − −12) 3 + (10 −
12) 3 + (14 − 12) 3 + (13 − 12) 3 ] = 7,875
𝑠 = √6 = 2,44
Exemplu:
= [(10 − 12) 4 + (9 − 12) 4 + (12 − 12) 4 + (10 − 12) 4 + (14 − 12) 4 + (11 − 12) 4 +
+(16 − 12) 4 + (9 − 12) 4 + (12 − 12) 4 + (14 − 12) 4 + (11 − 12) 4 + (10 − 12) 4 + (17 − −12) 4 +
(10 − 12) 4 + (14 − 12) 4 + (13 − 12) 4 ] = 1158
𝑠 = √6 = 2,44
Curs 7
Cercetarea prin sondaj
Cercetarea prin sondaj presupune cunoașterea unei populații statistice pe baza observațiilor
făcute asupra unui eșantion reprezentativ provenit din respectiva populație statistică. Cercetarea
prin sondaj constă în estimarea unor caracteristici ale populației statistice, în verificarea unor ipoteze
privind aceste caracteristici sau în previzionarea evoluției viitoare a acestora.
Aria de aplicabilitate a cercetării prin sondaj în domeniul economic cuprinde controlul calității
în cadrul procesului de producție, cercetările de marketing, previzionarea evoluției prețurilor și a
vânzărilor în cadrul planurilor de afaceri, etc.
Cercetarea parțială are ca scop estimarea parametrilor caracteristici unei populații statistice
pe baza datelor care compun un eșantion extras din populația statistică respectivă, folosind
principiile teoriei probabilităților. Astfel, în urma obținerii și prelucrării datelor eșantionului studiat,
se obțin o serie de indicatori specifici acestuia. Apoi, prin extrapolare, cu o anumită probabilitate,
indicatorii obținuți pe baza eșantionului sunt transpuși la nivelul întregii populații analizate.
Volumul unei populații satistice se notează cu N, iar cel al unui eșantion provenit din
populația respectivă se notează cu n.
Valorile statistice (de selecție) ale parametrilor caracteristici unui set de date, reprezintă
indicatorii calculați la nivel de eșantion (de exemplu 𝑠 2 ).
Un anumit parametru al unei populații statistice are o anumită valoare reală, fixă, care este
însă necunoscută și se notează cu θ. Valorile folosite pentru estimarea parametrilor reali,
necunoscuți θ ai unei populații statistice se numesc estimatori și se notează θ.
Estimarea prin interval de încredere presupune determinarea limitelor unui interval probabil
în care se încadrează valoarea reală a parametrului studiat.
Deplasare;
Convergență;
Eficiență.
Un estimator este nedeplasat sau fără distorsiuni atunci când speranța sa matematică este
egală cu valoarea reală a parametrului corespunzător: estimator nedeplarat
Cu cât volumul eșantionului este mai mare, cu atât valoarea estimatorului este mai apropiată
de valoarea reală a parametrului (𝑛 → 𝑁).
Estimatorul convergent sau consistent reprezintă estimatorul a cărui varianță tinde spre 0
atunci când volumul eșantionului tinde către volumul populației statistice:
1. Este nedeplasat
2. Este convergent
Un estimator este eficient atunci când are varianța cea mai mică în raport cu varianța oricărui
alt estimator calculat pentru același eșantion de volum 𝑛: 𝑉𝑎𝑟(𝜃̂) = minimă.
Dacă m este media necunoscută a unei populații statistice, iar 𝑋̅ este estimatorul său, calculat
la nivelul unui eșantion de volum n provenit din respectiva populație statistică, atunci se poate
demonstra că 𝑋̅ este un estimator absolut corect al lui 𝑚, astfel (ținând cont de proprietățile mediei
și proprietățile varianței):
3. 𝑀(𝑎) = 𝑎
Proprietățile varianței:
Așadar, 𝐸(𝑋̅) = 𝑚, deci a fost demonstrat faptul că media este un estimator nedeplasat.
Așadar, 𝑉𝑎𝑟(𝑋̅) 𝑛→𝑁 → 0, deci a fost demonstrat faptul că media este un estimator
convergent.
6.2.2. Estimarea mediei și varianței unei populații statistice prin interval de încredere
Atunci când volumul eșantionului este mai mic de 30 de unități (𝑛 < 30) iar varianța
populației statistice (𝜎 2 ) este necunoscută, intervalul de încredere se determină cu ajutorul
repartiției Student cu 𝑛 − 1 grade de libertate, astfel:
𝑡 este o valoare care se extrage din tabelele aferente repartiției Student, în funcție de probabilitatea
𝛼/2 și de 𝑛 − 1 grade de libertate.
În statistică, numărul de grade de libertate este, de fapt, numărul de valori ale unei distribuții
care pot fluctua în mod liber (de exemplu alegerea în mod liber a 𝑛 − 1 valori din 𝑛 valori a căror
medie este egală cu 20).
În practica economică, se folosește deseori regula celor 3 𝝈, care propune următoarea formă
a intervalului de încredere pentru medie:
Conform distribuției normale, probabilitatea cuprinsă între −3𝜎 și 3𝜎 este de 0,9973. Astfel:
Metoda se poate folosi pentru situațiile în care valoarea lui 𝜎 este cunoscută.
Ipoteza care urmează a fi verificată se numește ipoteză nulă și constă în admiterea faptului
că eventualele deosebiri între parametrii verificați sau între distribuțiile analizate sunt absolut
întâmplătoare. Ipoteza nulă se notează, de obicei, cu H0. Ipoteza alternativă se notează cu H1 și este
în opoziție cu ipoteza nulă, adică H1 se va accepta atunci când H0 se va respinge și invers.
𝐻0: 𝜃 = 𝜃0
Această etapă se realizează având la bază o anumită lege de repartiție. Cele mai utilizate sunt
testele bazate pe repartițiile Laplace, Student, Helmert și Fisher.
Aceasta este ultima etapă a demersului verificării ipotezelor statistice, în urma căreia se
decide acceptarea sau respingerea, cu un anumit grad de probabilitate a ipotezelor formulate în
etapa 1.
Acest tip de test este utlizat pentru a verifica dacă media unei populații statistice (𝑚) este sau
nu egală cu o anumită valoare dată 𝑚0, având la dispoziție datele aferente unui eșantion de volum 𝑛,
extras din populația statistică studiată.
Dacă varianța populației analizate nu este cunoscută, se va utiliza testul bazat pe repartiția Student:
H0: m = m0
H1: m ≠ m0
𝛼=1−p
| X́−m0|
tc= ∗√n
s
4. Din tabelele repartiției Student se extrage tt, valoarea critică a testului în funcție de nivelul de
semnificație, 𝛼/2 și de 𝑛 − 1 grade de libertate.
5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:
a) Dacă tc < tt , atunci ipoteza nulă se acceptă și se poate spune cu probabilitatea p că media
populației analizate este egală cu valoarea dată m0, eventualele diferențe fiind nesemnificative
b) Dacă tc > tt , atunci ipoteza nulă se respinge și se poate spune cu probabilitatea p că media
populației analizate diferă de valoarea dată m0, diferențele fiind semnificative.
1. Se formulează ipoteza nulă, care presupune egalitatea dintre varianța populației și valoarea dată
𝜎0^2 :
H0: 𝜎^2 = 𝜎0
𝛼=1–p
( n−1 )∗s 2
X 2c =
σ 20
2 2
4. Din tabelele repartiției X^2 se extrag două valori tabelare, X a ( 𝛼/22 , 𝑛 − 1) și X 1− a (1 –
2 2
𝛼/2 , 𝑛 − 1).
2
5. Se compară valoarea calculată a testului X c cu cele două valori tabelare și putem avea una
din următoarele situații:
2 2
a) Dacă X 2c ∈ ( X 1− a , X a ) atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că
2 2
varianța populației analizate este egală cu valoarea dată 𝜎0^2 , eventualele diferențe fiind absolut
întâmplătoare
2 2
b) Dacă X 2c ∉ ( X 1− a , X a ), atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că
2 2
varianța populației analizate diferă de valoarea dată 𝜎0^2 , diferențele având cauze reale.
Curs 9
7. Verificarea ipotezelor statistice
7.3. Teste de comparare a mediilor și varianțelor a două populații statistice
În cadrul activității economice există multe situații în care se impune efectuarea unor
comparații între diverse fenomene sau procese economice sau între niveluri ale aceleiași variabile,
înregistrate la momente diferite de timp. În aceste situații, compararea se efectuează prin
intermediul unor teste statistice specifice. Aceste teste se concentrează pe compararea mediilor și
varianțelor a două populații statistice.
1. Se formulează ipoteza nulă, prin care se presupune că varianțele celor două populații sunt egale:
𝛼=1–p
5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:
a) Dacă Fc < Ft, atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că
varianțele celor două populații sunt egale, eventualele diferențe fiind absolut întâmplătoare
Dacă varianțele celor două populații (𝜎1^2 și 𝜎2^2 ) nu sunt cunoscute, iar volumele celor
două eșantioane nu depășesc fiecare câte 30 de unități, testul pentru medie se va realiza având la
bază repartiția Student. Din moment ce varianțele celor două populații nu sunt cunoscute și nu se
știe dacă ele sunt sau nu egale, se impune efectuarea testului Fisher pentru compararea varianțelor
înainte de efectuarea testului Student. În funcție de rezultatul testului Fisher (varianțe egale sau
diferite), testul Student se va face în mod diferit, specific fiecărui caz.
a) Dacă în urma testului Fisher, varianțele au rezultat a fi egale (𝜎1^2 = 𝜎2^2 ), etapele
testului Student vor fi:
1. Se formulează ipoteza nulă, prin care se presupune că mediile celor două populații sunt egale:
H0: m1 = m2
Unde s = √ s 2, iar s^2 este un estimator al celor două varianțe egale, calculat astfel:
4. Din tabelele repartiției Student se extrage tt, valoarea critică a testului în funcție de nivelul de
semnificație, 𝛼/2 și de 𝑛1 + 𝑛2 − 2 grade de libertate.
5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:
a) Dacă tc < tt , atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt egale, eventualele diferențe fiind nesemnificative
b) Dacă tc > tc , atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt diferite, diferențele fiind semnificative.
b) Dacă în urma testului Fisher, varianțele au rezultat a fi diferite (𝜎1^2 ≠ 𝜎2^2 ), etapele testului
Student vor fi:
1. Se formulează ipoteza nulă, prin care se presupune că mediile celor două populații sunt egale:
H0: m1 = m2
𝛼=1–p
4. Din tabelele repartiției Student se extrage tt , valoarea critică a testului în funcție de nivelul de
semnificație, 𝛼/2 și de v grade de libertate.
unde
5. Se compară valoarea calculată a testului cu valoarea tabelară și putem avea una din următoarele
situații:
a) Dacă tc < tt , atunci se acceptă ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt egale, eventualele diferențe fiind nesemnificative
b) Dacă tc > tt , atunci se respinge ipoteza nulă și se poate spune cu probabilitatea p că mediile celor
două populații sunt diferite, diferențele fiind semnificative.
Curs 10
8. Serii de timp
8.1. Noțiuni introductive
Seria de timp (cronologică sau dinamică) este formată din două șiruri de date paralele,
primul șir reflectând variația caracteristicii timp, iar cel de-al doilea arătând variația caracteristicii
studiate, de la un moment de timp la altul. Seriile lungi de timp prezintă o importanță ridicată în
rândul studiilor statistice, deoarece acestea prezintă adeseori tipare de repetabilitate care conduc la
crearea unor anumite modele matematice și statistice, utilizate pentru previziunea evoluției viitoare
a fenomenelor analizate.
Variabilitatea termenilor unei serii de timp apare în cazul în care fiecare termen al unei serii de
timp este obținut prin centralizarea unor date cu caracteristici diferite.
Exemplu: PIB-ul: Cu cât componentele individuale prezintă fluctuații mai mari și cu cât ponderea
acestora variază în seria de timp analizată, termenii acesteia vor prezenta diferențe mai mari de la un
moment de timp la altul;
Omogenitatea termenilor constă în includerea în cadrul unei serii de timp doar a unor date de
același fel, care sunt rezultatul acțiunii acelorași cauze esențiale. Pentru asigurarea omogenității
seriei de timp, trebuie menținută aceeași metodologie de culegere a datelor și de calcul al
indicatorilor și aceeași frecvență de măsurare a timpului;
Periodicitatea termenilor se referă la asigurarea continuității datelor unei serii de timp, în condițiile
menținerii unității de măsură a timpului;
1. Seria de timp trebuie să conțină un număr suficient de mare de date, astfel încât analiza să fie
releventă;
2. Trebuie aleasă cea mai potrivită formă de analiză a seriei de timp. Cea mai utilizată formă de
analiză o reprezintă descompunerea seriei de timp pe componente determinate de diferiți factori de
influență. Astfel, în seriile de timp analizate în economie se pot identifica următoarele componente:
Trendul sau tendința centrală (Tt), care reflectă legea specifică de evoluție a variabilei
analizate pe o perioadă lungă de timp (de ordinul anilor), făcând abstracție de influențele
întâmplătoare ale unor factori aleatori;
Variațiile ciclice (Ct), reprezintă oscilațiile interanuale înregistrate de seria de timp în jurul
tendinței centrale;
ii) A doua schemă este cea multiplicativă, care se prezintă sub două variante:
3. Seriile de timp trebuie să țină cont și de tendința unor fenomene economice de a-și manifesta
influența asupra altor fenomene cu o anumită întârziere în timp (decalaj în timp, time lag).
În raport cu perioada de timp la care se referă datele, seriile de timp pot fi:
Serii de timp de intervale (continue), în cazul cărora fiecare valoare a seriei de timp
reprezintă o perioadă de timp. Aici intră, de regulă, variabilele economice exprimate în unități
monetare (cifra de afaceri, PIB-ul) care se pot însuma între ele;
Serii de timp de momente (discrete), fiecare valoare a seriei de timp reprezintă un anumit
moment de timp. În astfel de situații termenii seriei nu sunt însumabili, deoarece conțin înregistrări
repetate (populația României în 2003, 2004, etc.), valori care se includ reciproc.
Serii formate din indicatori relativi, care arată variații procentuale de la o perioadă la alta;
Serii formate din indicatori medii, folosite mai ales când se analizează fenomene care se
desfășoară în intervale standardizate de timp (medii anuale sau medii lunare) sau în anumite unități
spațiale (recolta la hectar, productivitatea medie a unor angajați).
Principalul scop al analizei seriilor de timp este acela de a înțelege evoluția trecută, istorică a
acestora, particularitățile și factorii de influență, astfel încât să fie posibilă o extrapolare care să
permită previziunea evoluției viitoare a variabilei analizate.
Coeficient: I i/ 1= yi/y1 ;
Între indicii cu bază fixă și cei cu bază mobilă se stabilesc următoarele relații:
Coeficient:
Procentual:
Coeficient:
Procentual:
Exemplu:
Următorul tabel prezintă evoluția profitului unei firme pe perioada 2013 – 2017. Valorile sunt
prezentate în RON și sunt în prețuri curente.
Se cere:
Rezolvare:
a.
b.
c.
Curs 11
8. Serii de timp
8.3. Indicatori agregați
Indicatorii agregați (compuși, complecși sau de grup) sunt utilizați pentru a urmări evoluția în
timp a unor fenomene complexe, formate prin combinarea mai multor elemente diferite. Indicatorii
agregați pot fi:
Exemplu:
O firmă deține cinci magazine de dimensiuni egale într-un oraș. Vânzările celor cinci magazine în anii
2014 și 2015 sunt prezentate în tabelul următor și sunt exprimate în Euro:
O persoană urmează un tratament cu 4 tipuri de medicamente în anii 2014 și 2015. În anul 2014,
medicamentele luate ocupă următoarele ponderi în numărul total de medicamente, iar prețul pe
bucată este (exprimat în RON):
Exemplu:
Exemplu:
Observație: Dacă am fi calculat pentru acest exemplu un indicator agregat neponderat, am fi obținut
următorul rezultat (diferit de toate celelalte):