Sunteți pe pagina 1din 231

STATISTICĂ

curs 13-14
Analiza descriptiva a seriilor
cronologice (SCR)
Terminologie şi clasificări
Dacă datele statistice sunt longitudinale, adică dacă variabila
este măsurată în timp, în ordine secvenţială, atunci, în urma
sistematizării, se obţine o serie de timp, numită şi serie
cronologică de tipul:

1 2 ... 𝑡 ... 𝑛 𝒕
= 𝒚 , 𝑡 = 𝟏, 𝒏,
𝑦1 𝑦2 ... 𝑦𝑡 ... 𝑦𝑛 𝒕

Unde:

• 𝑡 = 1, 𝑛 reprezintă unităţile de timp (perioade sau momente)

• 𝒚𝒕 reprezintă nivelurile variabilei studiate Y.

Scopul analizei datelor longitudinale este acela de a identifica


comportamentul trecut al unui fenomen pentru a realiza
predicţii privind evoluţia viitoare a acestuia.
Terminologie şi clasificări
Seria cronologică (SCR) reprezintă o serie de date (de
obicei consecutive) ce reflectă evoluţia în timp a unui
fenomen sau indicator.
Tipuri de serii cronologice:
a) În raport cu forma de exprimare timpului
1. SCR de flux sau de interval (însumabile, agregabile)

● ● ● ● ● ● ● ● ● ●
t

2. SCR de momente sau de stoc (neînsumabile, neagregabile)

● ● ● ● ● ● ● ● ● ●
t
Terminologie şi clasificări
b) În raport cu distanţa dintre termenii SCR
1. SCR de perioade egal distanţate

2. SCR de perioade inegal distanţate

c) În raport cu tipul de date analizate


1.SCR formate din valori absolute
2.SCR formate din mărimi relative
3.SCR formate din mărimi medii
Reprezentarea grafică a seriilor cronologice
Construirea cronogramei trebuie să ia în considerare tipul seriei,
de intervale sau de momente. Diferenţa de reprezentare derivă
din maniera de raportare la variabila „timp”, reprezentată pe
axa OX (valorile variabilei Y se reprezintă pe ordonată)

a) Serie de timp de momente b) Serie de timp de intervale

5
Indicatorii SCR
• Pentru caracterizarea unei serii de timp, se calculează, pe
baza termenilor acesteia, un sistem de indicatori statistici,
analitici şi sintetici care, după modul de calcul şi exprimare,
pot fi structuraţi astfel:

A. Absoluti
B. Relativi
C. Medii
• Indicatorii pot fi primari sau derivaţi; indicatorii derivaţi
se calculează, de regulă, prin comparare, sub formă de
diferenţă sau de raport.
• Atunci când compararea se face cu primul termen al
seriei (y1), vom vorbi de indicatori cu bază fixă, iar atunci
când compararea unui termen (yt) se face cu termenul
imediat anterior (yt-1), vom vorbi de indicatori cu bază în
lanţ (mobilă).
 n
 yt 
 Indicatorii SCR – Indicatori absoluți
 t =1 
.

1) Nivelul absolut al termenilor seriei

𝑦𝑡 , 𝑡 = 1, 𝑛
reprezentaţi valorile individuale ale variabilei, în expresie
absolută. Acest indicator redă nivelul fenomenului analizat
la fiecare unitate de timp considerată.
2) Nivelul agregat al seriei (doar pentru SCR de flux)
𝑛

෍ 𝑦𝑡
𝑡=1

Prin însumarea acestor valori individuale se poate obţine un


nivel totalizator al seriei, în cazul seriile cronologice de
intervale şi al caracteristicilor însumabile:
Indicatorii SCR – Indicatori absoluți
3. Modificarea absolută (∆)
• se calculează, prin comparaţie, sub formă de diferenţă între
două niveluri ale variabilei.

• comparaţiile nivelurilor seriei (yt, 𝑡 = 1, 𝑛) se pot face cu:


- primul termen al seriei (y1) şi se obţin modificări absolute
cu bază fixă

𝛥𝑡/1 = 𝑦𝑡 − 𝑦1 (𝑡 = 1, 𝑛)
- nivelul imediat anterior (yt-1) şi se obţin modificări
absolute cu bază în lanţ

𝛥𝑡/𝑡−1 = 𝑦𝑡 − 𝑦𝑡−1 (𝑡 = 2, 𝑛)
• are unitatea de măsură a variabilei şi arată cu câte
unităţi s-a modificat termenul comparat faţă de termenul
bază de comparaţie.
• dacă 𝛥 > 0, atunci a avut loc o creştere, iar dacă 𝛥 < 0,
atunci a avut loc o descreştere.
8
Indicatorii SCR – Indicatori absoluți

Proprietăţile algebrice ale indicatorului permit trecerea


dintr-o bază în alta, în funcţie de scopul analizei.

Astfel:
• Suma modificărilor absolute cu bază în lanţ este egală
cu modificarea absolută cu bază fixă a ultimului termen
σ𝑛𝑡=2 𝛥𝑡/𝑡−1 = 𝑦2 − 𝑦1 + 𝑦3 − 𝑦2 +. . . + 𝑦𝑛 − 𝑦𝑛−1 =
= 𝑦𝑛 − 𝑦1 = 𝛥𝑛/1

• Diferenţa dintre două modificări succesive cu bază fixă


este egală cu modificarea absolută cu bază în lanţ.
𝛥𝑡/1 − 𝛥𝑡−1/1 = (𝑦𝑡 − 𝑦1 ) − (𝑦𝑡−1 − 𝑦1 ) = 𝑦𝑡 − 𝑦𝑡−1 = 𝛥𝑡/𝑡−1

9
Indicatorii SCR – Indicatori relativi
1. Indicele de dinamică (numit şi indice de
creştere/descreştere)

• se calculează ca un raport între două niveluri, un


nivel comparat şi un nivel ales bază de comparaţie
- dacă nivelul bază de comparaţie este primul termen al
seriei se obţine indicele cu bază fixă:
𝑦𝑡
𝐼𝑡/1 =
𝑦1
- dacă baza de comparaţie reprezintă nivelul imediat
anterior se obţine un indice de bază în lanţ:
𝑦𝑡
𝐼𝑡/𝑡−1 =
𝑦𝑡−1
Indicii de modificare pot fi:
• supraunitari (>1) – arată o creştere a variabilei,
• subunitari (<1 ) – arată o descreştere a variabilei,
• egali cu 1 – arată o stagnare a fenomenului.
10
Indicatorii SCR – Indicatori relativi

Există anumite proprietăţi algebrice care permit trecerea


dintr-o bază în alta.
Astfel:
• produsul indicilor cu bază în lanţ din n perioade este
egal cu indicele de bază fixă al ultimei perioade (n):
𝑛
𝑦2 𝑦3 𝑦𝑛 𝑦𝑛
ෑ 𝐼𝑡/𝑡−1 = ⋅ . . . = = 𝐼𝑛/1
𝑦1 𝑦2 𝑦𝑛−1 𝑦1
𝑡=2

• raportul dintre doi indici consecutivi cu bază fixă este


egal cu indicele cu bază în lanţ:
𝑦𝑡 𝑦𝑡−1 𝑦𝑡
𝐼𝑡/1 : 𝐼𝑡−1/1 = : =
𝑦1 𝑦1 𝑦𝑡−1

11
Indicatorii SCR – Indicatori relativi
2. Ritm de dinamică (modificarea relativă)
• arată cu câte procente s-a modificat variabila, faţă de
nivelul bază de comparaţie.
- dacă nivelul ales bază de comparaţie este primul
termen al seriei se obţine ritmul de modificare cu
bază fixă:
%
𝛥𝑡/1 𝑦𝑡 − 𝑦1
𝑅𝑡/1 = ∙ 100 = ∙ 100 = (𝐼𝑡/1 − 1) ∙ 100
𝑦1 𝑦1
- dacă nivelul bază de comparaţie este cel al perioadei
imediat anterioară, obţinem ritmul de modificare cu
bază în lanţ:

%
𝛥𝑡/𝑡−1 𝑦𝑡 − 𝑦𝑡−1
𝑅𝑡/𝑡−1 = ∙ 100 = ∙ 100 = (𝐼𝑡/𝑡−1 − 1) ∙ 100
𝑦𝑡−1 𝑦𝑡−1
• Indicatorul se exprimă întotdeauna procentual şi poate fi
pozitiv, negativ sau egal cu zero.
• Dacă ritmul de dinamică are valori pozitive atunci a avut
loc o creştere a fenomenului, iar dacă el are valori
negative s-a înregistrat o scădere a fenomenului. 12
Indicatorii SCR - INDICATORI MEDII
1. Nivelul mediu al seriei

a) Pentru o serie de flux, nivelul mediu se calculează ca o


medie aritmetică simplă:
σ𝑛
𝑡=1 𝑦𝑡
𝑦=
𝑛

b) Pentru o serie de stoc, cum termenii nu se pot cumula, se


utilizează un tip special de medie, şi anume la media
cronologică:
- simplă (serie cu intervale egale între momente)
𝑦1 𝑦
+ 𝑦2 + 𝑦3 +. . . +𝑦𝑡 −1 + 𝑦𝑡 +. . . +𝑦𝑛 −1 + 𝑛
𝑦𝑐𝑟 = 2 2
𝑛−1
- ponderată (serie cu intervale neegale între momente)
𝑡1 𝑡 + 𝑡2 𝑡 + 𝑡3 𝑡 + 𝑡4 𝑡 + 𝑡5 𝑡
𝑦1 + 𝑦2 1 + +𝑦3 2 + +𝑦4 3 + +𝑦5 4 + 𝑦6 5
𝑦𝑐𝑟 = 2 2 2 2 2 2
2005 𝑡1 + 𝑡2 + 𝑡3 + 𝑡4 + 𝑡5
unde 𝑡𝑖 sunt lungimile intervalelor dintre două momente
succesive.
13
Indicatorii SCR
2. Modificarea absolută medie (𝜟)
• se determină ca medie aritmetică simplă a
modificărilor cu bază în lanţ:
σ𝑛
𝑡=2 𝛥𝑡/𝑡−1 𝛥𝑛/1 𝑦𝑛 −𝑦1
𝛥= = =
𝑛−1 𝑛−1 𝑛−1

• arată cu câte unităţi de măsură s-a modificat


variabila, în medie, în intervalul analizat

!!! Evident că, din moment ce 𝛥 este calculat ca o medie aritmetică,


indicatorul trebuie să îndeplinească aceeaşi condiţie de
reprezentativitate, adică să fie calculat din niveluri omogene,
altfel riscând să îşi piardă semnificaţia de caracterizare a aspectelor
stabile şi tipice ale fenomenului. Aceasta, cu atât mai mult cu cât se
observă că indicatorul 𝛥 se poate determina doar pe baza primului şi
ultimului termen al seriei, fără luarea în considerare şi a termenilor
intermediari. În plus, dacă aceşti termeni extremi prezintă valori mult
diferite faţă de termenii intermediari, nici 𝛥 nu mai prezintă conţinut
real. Această condiţie limitează aria de aplicabilitate a indicatorului.
14
Indicatorii SCR - INDICATORI MEDII

3. Indicele mediu de dinamică


• se determină sub forma unei medii geometrice:

𝑛−1 𝑛−1
𝐼= ς𝑛𝑡=2 𝐼𝑡/𝑡−1 = 𝑛−1
𝐼𝑛/1 = 𝑦𝑛 /𝑦1

• arată de câte ori a crescut sau a scăzut variabila în


medie, în perioada analizată, de la un termen la
altul.

!!! Pentru ca indicele mediu de dinamică să fie reprezentativ, este necesar ca toţi
termenii din care se calculează să fie omogeni, adică indicii de dinamică cu bază în
lanţ să aibă valori apropiate, cerinţă cu atât mai necesară cu cât se observă că
indicatorul se poate calcula doar cu ajutorul termenilor extremi ai seriei.

15
Indicatorii SCR - INDICATORI MEDII

4. Ritmul mediu de dinamică


• arată cu câte procente s-a modificat, în medie,
nivelul unei variabile, de la un termen la altul
% %
𝑅 = (𝐼 − 1)100 = 𝐼 − 100
• Indicatorul arată cu câte procente creşte sau scade,
în medie, nivelul fenomenului analizat, de la o
perioadă la alta, pe întregul orizont de timp.

16
Exemplul 1
Producţia de ouă a unei microferme avicole ecologice, în
perioada 2014-2022:

Volumul producţiei
Anul
(mii bucăţi)
2014 80
2015 95
2016 100
2017 115
2018 128
2019 120
2020 125
2021 130
2022 132

Analiza descriptivă a seriei de timp presupune:


• Identificarea tipului seriei;
• Analiza grafică a evoluţiei fenomenului studiat;
• Analiza omogenităţii termenilor seriei;
• Determinarea sistemului de indicatori ce caracterizează seria.
Cronograma

2014 2015 2016 2017 2018 2019 2020 2021 2022

Evoluţia volumului producţiei de ouă în perioada 2014-2022


MULTUMESC

PENTRU

ATENTIE
STATISTICĂ

curs 11-12
Prezentarea şi caracterizarea
descriptivă a datelor statistice bivariate
Prezentarea datelor bivariate
Seriile statistice de date bivariate sunt formate prin
considerarea concomitentă a două variabile
numerice sau nenumerice (X şi Y).

Variabila X Variabila Y
x1 y1
x2 y2
… …
xi yi
…. ….
xn yn
Prezentarea datelor bivariate
Cel mai frecvent aceste tipuri de date se sistematizează într-un
tabel de contingenţă (crosstab), sub forma unei serii de distribuţie
bidimensională:

Intervale/variante
pentru
Y y1 y2 ... yj ... ym Total
Intervale/
variante pentru X
x1 n11 n12 ... n1j ... n1m n1.
x2 n21 n22 ... n2j ... n2m n2.
. ................... ...
. ................... ...
xi ni1 ni2 ... nij ... nim n i.
. .................... ...
. ................... ...
xr nr1 nr2 ... nrj ... nrm n r.
Total n.1 n.2 .... n.j ... n.m n

3
Prezentarea datelor bivariate
• xi, 𝑖 = 1, 𝑟reprezintă valorile, variantele sau centrele de interval
stabilite prin sistematizarea datelor după variabila X

• yj, 𝑗 = 1, 𝑚 reprezintă valorile, variantele sau centrele intervalelor


de grupare stabilite prin sistematizarea datelor după variabila Y

• nij reprezintă numărul unităţilor statistice care se încadrează


simultan în grupa xi, după variabila X şi yj, după variabila Y

• ni. reprezintă numărul unităţilor statistice care se încadrează în


grupa xi, după variabila X, indiferent de nivelul înregistrat pentru
variabila Y

𝑛𝑖⋅ = σ𝑚
𝑗=1 𝑛𝑖𝑗

• n.j reprezintă numărul unităţilor statistice care se încadrează în


grupa yj, după variabila Y, indiferent de nivelul înregistrat pentru
variabila X:
𝑛⋅𝑗 = σ𝑟𝑖=1 𝑛𝑖𝑗

• n reprezintă volumul total al colectivităţii:


𝑛 = σ𝑟𝑖=1 𝑛𝑖. = σ𝑚 𝑟 𝑚
𝑗=1 𝑛.𝑗 = σ𝑖=1 σ𝑗=1 𝑛𝑖𝑗
4
Prezentarea datelor bivariate
În cadrul tabelelor bidimensionale se pot utiliza atât frecvenţe absolute
cât şi frecvenţe relative.

O firmă de asigurări este interesată de cunoaşterea distribuţiei clienţilor ce deţin


asigurări auto de tip CASCO în funcţie de gen şi numărul accidentelor din ultimii şapte
ani:

5
Prezentarea datelor bivariate

În cazul variabilelor alternative datele se pot prezenta într-


un tabel de asociere de forma:

Clasele lui Y
Clasele lui X TOTAL
Y (y1) nonY (y2)
X (x1) n11 n12 n1. = n11 + n12
nonX (x2) n21 n22 n2. = n21 + n22
TOTAL n.1 = n11 + n21 n.2 = n12 + n22 n.. = n11 + n12+n21+n22

6
Prezentarea datelor bivariate

Exemplu
• Distribuţia asiguraţilor unei companii de asigurări în funcţie de
gen şi şi statutul marital, în anul 2008 a fost:

7
Reprezentarea grafică a datelor bivariate

• Descrierea grafică a relaţiei dintre două variabile numerice se


realizează prin intermediul corelogramei.

• Fiecare unitate statistică este reprezentată printr-un punct de


coordonate xi şi yi.

• Dacă se analizează doar existenţa legăturii dintre două


variabile alegerea poziţiei variabilelor pe axe este arbitrară.

• Dacă analiza legăturii dintre variabile are drept scop


evidenţierea unei relaţii de tip cauză-efect atunci variabila
cosiderată factor cauzal (X) este reprezentată pe abscisă, iar
variabila cosiderată factor efect (Y) este reprezentată pe
ordonată.

8
Reprezentarea grafică a datelor bivariate

Corelograma oferă informaţii privind:


• existenţa, forma și sensul legăturii
• omogenitatea datelor
Un producător din industria uşoară doreşte să afle dacă numărul purtat la
încălţăminte de femei şi înălţimea acestora există o legătură. Pentru
aceasta, au fost înregistrate date referitoare la cele două variabile pentru
un eşantion de 10 femei:

Înălţimea (cm) 168 175 155 180 165 160 185 172 150 145
Nr. purtat la
36 38 35 39 36 35 38 39 35 34
încălţăminte
40

39
Nr. purtat la încălţăminte

38

37

36

35

34

33
140 145 150 155 160 165 170 175 180 185 190
Înălţimea (cm) 9
Reprezentarea grafică a datelor bivariate
Forma de distribuire a punctelor pe grafic oferă informaţii
privind:

a) existenţa legăturii dintre variabile:

a) b) c)
a) existenţa; b) c) inexistenţa legăturii

10
Reprezentarea grafică a datelor bivariate

b) sensul legăturii dintre variabile:

a) legătură directă b) legătură inversă

11
Reprezentarea grafică a datelor bivariate

c) forma legăturii dintre variabile:


• dacă punctele se concentrează în jurul unei drepte oblice atunci legătura
este de tip liniar;
• dacă diagrama arată puncte adunate în jurul unei curbe legătura dintre
variabile nu este de tip liniar, fiind numită legătură neliniară.

Legătură neliniară

12
Tipuri de legături statistice

Există trei scopuri principale, atunci când analizăm


legăturile dintre variabile statistice:
• să descriem şi să înţelegem relaţiile de
dependenţă;
• să previzionăm o nouă valoare a variabilei efect;
• să ajustăm şi să controlăm variabila efect, prin
intervenţia asupra variabilei cauză.

13
Tipuri de legături statistice
• Dacă două variabile se modifică similar se spune
despre ele că sunt corelate.
• Nu întodeauna între cele două variabile corelate
există o relaţie de tip cauză-efect.
• Este posibil ca o relaţie de cauzalitate să existe,
dar este posibil ca ambele variabile să se modifice
în pas cu o a treia variabilă.

Exemplu
Vânzările de ochelari de soare şi numărul vizitatorilor unui oraş
turistic în luna iulie cresc, amândouă, foarte accentuat. Creşterea
vânzărilor de ochelari de soare nu determină un număr mai mare de
turişti şi nici viceversa (să ne gândim de pildă la ce s-ar întâmpla în
luna noiembrie, când turiştii şi-ar cumpăra umbrele de ploaie). În
schimb, amândouă variabilele sunt corelate cu vremea însorită din
luna iulie. 14
Tipuri de legături statistice

Criterii de clasificare a legăturilor statistice:


1. În funcţie de tipul variabilelor luate în consideraţie şi
de scala pe care sunt măsurate
- asocieri statistice (două variabile calitative)
- corelaţii statistice (două variabile cantitative)
2. În funcţie de sensul legăturilor dintre variabile:

Legături directe: X↑ => Y↑

Legături inverse: X↑ => Y↓

15
Tipuri de legături statistice

3. În funcţie de modul de manifestare în timp a legăturii


dintre variabile
- legături sincrone (concomitente), cele în care
modificarea unei variabile are loc aproximativ o dată cu
modificarea alteia/altora)
- legături asincrone (cu decalaj), cele în care efectul se
manifestă după un interval de timp de la producerea
cauzei.
4. După forma funcţiei care descrie relaţia dintre
variabile
- legături liniare
- legături neliniare

16
Metode de analiză a legăturilor statistice

1. ANALIZA DE CORELAŢIE care arată cât de puternic sunt


legate cele două variabile, cât de mult tind să se modifice
împreună
2. ANALIZA DE REGRESIE care studiază schimbările unei
variabile ca o funcţie de schimbările sau nivelurile altei
variabile.

• În analiza statistică a legăturilor dintre variabilele social-


economice cu ajutorul metodelor corelaţiei şi regresiei, se
notează cu:
• X — variabila cauzală, numită şi independentă sau exogenă,
explicativă;
• Y — variabila efect, numită şi dependentă sau endogenă,
explicată, care poate fi cunoscută când se cunoaşte variabila
explicativă. 17
ANALIZA DE CORELAŢIE
În analiza corelaţiei, presupunem că cele două variabile, X şi Y, se
modifică împreună, dar nu implică o relaţie de tip cauză-efect.
Există două categorii de metode de analiză a corelaţiei:
A. Metode parametrice
- se folosesc în cazul în care variabilele X şi Y sunt numerice cu
distribuţie normală
- legătura dintre variabilele X şi Y este de tip liniar
- utilizează parametrii distribuţiilor (media şi dispersia)

B. Metode neparametrice (libere de distribuţie)


se folosesc în cazul în care:
- variabilele X şi Y sunt nenumerice
- variabilele X şi Y nu au distribuţie normală sau aproximativ normală
- datele provin din eşantioane de volum redus şi nu se poate aprecia
forma distribuţiei
- legături liniare şi neliniare 18
ANALIZA DE CORELAŢIE
A. Metode parametrice
1. Covarianţa
2. Coeficientul de corelaţie Pearson

B. Metode neparametrice
3. Coeficientul de asociere Yule (pentru variabile binare)
4. Coeficientul de corelaţie al rangurilor Spearman
5. Coeficientul de corelaţie al rangurilor Kendall

19
COVARIANȚA

• În analiza corelaţiei, presupunem că cele


două variabile, X şi Y, se modifică împreună,
dar nu implică o relaţie de tip cauză-efect.
• Covarianţa se determină ca medie a
produselor abaterilor valorilor xi si yi de la
mediile fiecarei variabile
• Covarianţa este un indicator absolut al
legăturii dintre variabile şi arată cât de mult
se modifică împreună cele două variabile

20
COVARIANŢA

Cadranul xi – x yi – y (xi – x )(yi – y )


I + + +
II – + –
III – – +
IV + – –

21
COVARIANŢA

• legătură directă = modificarea în acelaşi sens


a celor două variabile, punctele se vor situa
predominant în cadranele I şi III (produse
pozitive).
• legătură inversă= variabilele se modifică în
sensuri contrare, punctele se vor situa
predominant (dar nu exclusiv) în cadranele II şi
IV (produse negative)

22
COVARIANŢA

n n n n

(x - x )(y - y ) n x y −  x  y
i =1
i i
i =1
i i
i =1
i
i =1
i
cov(x,y) = s xy = = 2
n n
• Covarianţa este pozitivă dacă legătura dintre variabile
este directă şi negativă, dacă legătura dintre variabile
este inversă.
• Dacă covarianţa este zero, acest lucru implică lipsa
legăturii între variabile, sau, cel puţin, lipsa legăturii
liniare.
• Covarianţa poate lua valori oricât de mari, fiind greu de
interpretat şi comparat.
• Covarianţa arată sensul legăturii, nu şi intensitatea ei.23
2. Coeficientul de corelaţie

Coeficientul de corelaţie Pearson (rxy)

• se obţine prin standardizarea covarianţei (adică


împărţirea la produsul abaterilor standard ale
variabilelor)
• se foloseşte pentru analiza legăturii simple
liniare dintre două variabile numerice distribuite
normal
• evaluează atât sensul, cât şi intensitatea legăturii
(semnul indică direcţia, iar valoarea lui indică
24
intensitatea)
2. Coeficientul de corelaţie
n

cov(x, y ) s xy  ( x − x)( y − y)
i i
rxy = = = i =1
sx s y sx  s y n   n
2
 i −   i −
2
( x x ) ( y y ) 
 i=1   i=1 

n
 n  n 
n xi yi −   xi   yi 
rxy = i =1  i =1  i =1 
 n 2  n   n 2  n
2
 
2

n xi −   xi   n yi −   yi  
 i =1  i =1    i =1  i =1  

25
2. Coeficientul de corelaţie

Coeficientul de corelaţie r Interpretare


r =1 Legătura liniară perfectă directă
r →1 Legătură directă puternică
r→0 r 0 Legătură directă slabă.

r=0 Nu există legătură.

r →0 r 0 Legătură inversă, slabă.

r → −1 Legătură inversă puternică


Legătura liniară perfectă
r = −1 inversă

26
Exemplu
Un producător din industria uşoară doreşte să afle dacă numărul
purtat la încălţăminte de femei şi înălţimea acestora există o legătură.
Pentru aceasta, au fost înregistrate date referitoare la cele două
variabile pentru un eşantion de 10 femei

Înălţimea Nr. purtat la ( xi − x ) ( yi − y) ( xi − x)( yi − y )


(cm) încălţăminte
168 36 2,5 -0,5 -1,25
175 38 9,5 1,5 14,25
155 35 -10,5 -1,5 15,75
180 39 14,5 2,5 36,25
165 36 -0,5 -0,5 0,25
160 35 -5,5 -1,5 8,25
185 38 19,5 1,5 29,25
172 39 6,5 2,5 16,25
150 35 -15,5 -1,5 23,25
145 34 -20,5 -2,5 51,25
medie 165,5 36,5 0 0 193,5
abatere n n

 (x
n

13,041 1,841 − x)  ( y − y)  (x − x)( yi − y )


standard
i i i
i =1 i=1 i =1 27
Exemplu

σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 193,5


cov( 𝑥, 𝑦) = = = 19,35
𝑛 10

cov( 𝑥, 𝑦) 19,35
𝑟𝑥𝑦 = = = 0,806
𝑠𝑥 𝑠𝑦 13,041 ∗ 1,841

28
Exemple

Funcţia EXCEL: CORREL (ARRAY 1, ARRAY 2)


Exemple
Exemple
3. Coeficientul de asociere Yule

Considerăm tabelul de asociere:


Clasele lui Y
Clasele lui x Total
Y(y1) non Y(y2)
X(x1) n11 n12 n1.
nonX(x2) n21 n22 n2.
Total n.1 n.2 n..
•Dacă toate unităţile statistice sunt dispuse doar pe
diagonala principală (n11 şi n22), vorbim de o asociere
perfectă pozitivă
•Dacă unităţile statistice sunt dispuse pe diagonala
secundară (n21 şi n12), vorbim de o asociere perfectă
negativă.
•Dacă variabilele statistice nu sunt asociate, atunci
frecvenţele de pe aceeaşi linie şi frecvenţele de pe aceeaşi
coloană se află în acelaşi raport:
𝑛11 𝑛12
= , 𝑛 𝑛 − 𝑛12 𝑛21 = 0
𝑛21 𝑛22 11 22
32
3. Coeficientul de asociere Yule

Coeficientulde asociere Yule (Q) măsoară


intensitatea asocierii dintre variabile alternative:

𝑛11 𝑛22 − 𝑛21 𝑛12


𝑄=
𝑛11 𝑛22 + 𝑛21 𝑛12

• ia valori cuprinse în intervalul −1, 1;

• o valoare apropiată de +1 ne arată o asociere


pozitivă;

• o valoare apropiată de –1, o asociere negativă.

33
Exemplu

Despre distribuţia turiştilor în funcţie de naţionalitate,


în două hoteluri de categoriile 3 şi 4 stele se cunosc
datele:
Categorie confort
Naţionalitate TOTAL
3 stele 4 stele
Română 802 118 920
Străină 245 497 742
Total 1047 615 1662

802 ⋅ 497 − 245 ⋅ 118


𝑄= = 0,865
802 ⋅ 497 + 245 ⋅ 118

Coeficientul indică asociere directă între naţionalitatea


turiştilor şi categoria de confort aleasă.

34
Corelaţia rangurilor

Se utilizează pentru măsurarea sensului şi intensităţii legăturii


dintre:
• Două variabile nenumerice măsurate pe scala ordinală
• Două variabile numerice
• O variabilă numerică şi una nenumerică măsurată pe
scala ordinală

• Presupune acordarea unor numere de ordine, numite ranguri, tuturor


unităţilor, astfel încât unităţile statistice să poată fi ordonate în funcţie
de variabilele studiate
• Rangurile sunt de la 1 (unitatea cea mai performantă, ori cu valoarea
cea mai mare a variabilei), până la n (unitatea cea mai puţin
performantă)
• Rangurile indică poziţiile în serii ale unităţilor după variabilele studiate.
• Dacă mai multe unităţi statistice au aceeaşi variantă/valoare atunci se
acordă media rangurilor succesive.
35
5. Coeficientul de corelaţie al rangurilor Spearman

6 σ𝑛𝑖=1 𝑑𝑖2
𝑟𝑆 = 1 − 2
, 𝑟𝑆 ∈ −1,1
𝑛 𝑛 −1

𝑑𝑖 = 𝑟𝑥𝑖 − 𝑟𝑦𝑖 reprezintă diferenţele rangurilor perechi


acordate aceleiaşi unităţi statistice.

36
6. Coeficientul de corelaţie al rangurilor Kendall

• se bazează pe studiul concordanţei rangurilor şi necesită


ordonarea unităţilor după rangurile acordate variabilei X şi
înscrierea, în paralel, a rangurilor acordate după variabila Y
2𝑆
𝑟𝑘 =
𝑛 𝑛−1

unde:

S = P – Q, P = Σpi, Q =Σqi

• pi = numărul rangurilor superioare fiecărui rang


ryi, acordat după variabila Y, de la el în jos;
• qi = numărul rangurilor inferioare fiecărui rang ryi,
acordat după variabila Y, de la el în jos.

37
Exemplu
Pentru 6 salariaţi care au urmat un curs de perfecţionare au fost
înregistrate date privind calificativul obţinut şi productivitatea
muncii (buc/h):

Calificativ Calificativ
(X) (Y)
Forte bine 15
Bine 16
Foarte bine 14
Suficient 13
Insuficient 12
Bine 13

38
Exemplu
Pentru 6 salariaţi care au urmat un curs de perfecţionare au
fost înregistrate date privind calificativul obţinut şi
productivitatea muncii (buc/h):

Rx Ry Di qi
1,5 2 -0,5 0,25
3,5 1 2,5 6,25
1,5 3 -1,5 2,25
5 4,5 0,5 0,25
6 6 0 0
3,5 4,5 -1 1
0 10
rs=1-(6*10)/(6*35)=0, 71

39
Exemplu

Rx Ry pi qi
1,5 2 4 1
1,5 3 3 1
3,5 1 3 0
3,5 4,5 1 0
5 4,5 1 0
6 6 0 0
P=12 Q=2
rK=2(12-2)/(6*5)=0,667

40
1. Pentru un eșantion de 432 de familii, pentru care s-au înregistrat și prelucrat datele privind veniturile
(mii lei), s-au obținut rezultatele: venitul mediu=5,6 mii lei și dispersia=2,8. Pentru o probabilitate de
95% (z=1,96), limita inferioară a intervalului de încredere pentru venitul mediu în întreaga colectivitate
din care a fost extras eșantionul este:

Rezolvare:

𝑥̅ = 5,6 mii lei


𝑠 2 = 2,8
𝑃 = 95% → 𝛼 = 5% → 𝑧𝛼 = 1,96
2

Eroarea standard (eroarea medie probabilă):


𝑠 𝑠2 2.8
𝑠𝑥̅ = =√ =√ = 0,0805 mii lei
√𝑛 𝑛 432
Eroarea maximă admisă (eroarea limită, eroarea de estimație):
∆𝑥̅ = 𝑠𝑥̅ ∙ 𝑧𝛼 = 1,96 ∙ 0,0805 = 0,1570 mii lei
2
Intervalul de încredere:
𝑥̅ − ∆𝑥̅ ≤ 𝜇 ≤ 𝑥̅ + ∆𝑥̅ ↔ 5,6 − 0,1570 ≤ 𝜇 ≤ 5,6 − 0,1570 ↔ 5,44 ≤ 𝜇 ≤ 5,76 (mii lei)

Lungimea intervalului de încredere: 𝐿 = 2 ∙ ∆𝑥̅ = 2 ∙ 0,1570 = 0,314 mii lei

Limita inferioară = media din eșantion – eroarea maxima admisă


𝟐.𝟖
Limita inferioară = 𝒙 ̅ − 𝒔𝒙̅ ∙ 𝒛𝜶 = 𝟓, 𝟔 − 𝟏, 𝟗𝟔 ∙ √
̅ − ∆𝒙̅ = 𝒙 = 𝟓, 𝟒𝟒 (mii lei)
𝟐 𝟒𝟑𝟐

Limita superioară = media din eșantion + eroarea maxima admisă


2.8
Limita inferioară = 𝑥̅ + ∆𝑥̅ = 𝑥̅ + 𝑠𝑥̅ ∙ 𝑧𝛼 = 5,6 + 1,96 ∙ √ = 5,76 (mii lei)
2 432

2. Notele studenților de la o facultate de medicină, la examenul de Anatomie, sunt normal distribuite, de


abatere medie pătratică (deviație/abatere standard) 2. Dacă se extrage aleator un eșantion de 111 de studenți,
pentru care se calculează media notelor de 7,8 – atunci eroarea limită (maximă admisibilă), la o
probabilitate de 95% (z=1,96), pentru nota medie a tuturor studenților din facultate este:

Răspuns:
Eroarea maximă admisă (eroarea limită, eroarea de estimație): ∆𝑥̅ = 0,37

3. Doriți să estimați durata de viață a unui tip de baterii pe un interval de încredere de 114 de ore
(𝐿 = 2 ∙ ∆𝑥̅ = 114 → ∆𝑥̅ = 57), cu o probabilitate de 95% (z= 1,96). Studiile anterioare indică o abatere
standard pentru durata de funcționare de 271 de ore. Eșantionul trebuie să conțină: n=?

Răspuns:
𝑧𝛼2⁄2 ∙ 𝑠2
𝑛=
∆2𝑥̅
𝑛 = 86 baterii
4. În urma unui studiu efectuat pe n = 600 din cei 2400 de studenți ai unei facultăți din ASE a rezultat că
84 dintre ei provin din licee cu profil economic. În ipoteza unei selecții cu revenire, pentru o probabilitate
de 95%, limita superioară a intervalului de încredere pentru proporția studenților din întreaga facultate care
au absolvit licee economice este:
a. 0,0123
b. 0,0142
c. 0,0278
d. 0,1258
e. 0,1678

Rezolvare:
(variabilă alternativă)

N=2400 studenți
n=600 studenți
𝑚 84
𝑓= = = 0,14 (media în eșantion)
𝑛 600
𝑃 = 95% → 𝛼 = 5% → 𝑧𝛼 = 1,96
2

Selecție cu revenire
Eroarea standard (eroarea medie probabilă):
𝑓 ∙ (1 − 𝑓 ) 0,14 ∙ 0,86
𝑠𝑓 = √ =√ = 0,0142
𝑛 600
Eroarea maximă admisă (eroarea limită, eroarea de estimație):
∆𝑓 = 𝑠𝑓 ∙ 𝑧𝛼 = 1,96 ∙ 0,0142 = 0,0278
2
Intervalul de încredere:
𝑓 − ∆𝑓 ≤ 𝑝 ≤ 𝑓 + ∆𝑓 ↔ 0,14 − 0,0278 ≤ 𝑝 ≤ 0,14 + 0,0278 ↔ 0,1122 ≤ 𝑝 ≤ 0,1678 ↔ (11,22% ÷ 16,78%)

Limita inferioară=0,14-0,0278=0,1258 (12,58%) (d)

Selecție fără revenire


Eroarea standard (eroarea medie probabilă):
𝑓(1 − 𝑓) 𝒏
𝑠𝑓 = √ ⋅ (𝟏 − ) = 0,0164
𝑛 𝑵
Eroarea maximă admisă (eroarea limită, eroarea de estimație):
∆𝑓 = 𝑠𝑓 ∙ 𝑧𝛼 = 1,96 ∙ 0,0164 = 0,0321
2
Intervalul de încredere:
𝑓 − ∆𝑓 ≤ 𝑝 ≤ 𝑓 + ∆𝑓 ↔ 0,14 − 0,0321 ≤ 𝑝 ≤ 0,14 + 0,0278 ↔ 0,1079 ≤ 𝑝 ≤ 0,1721 ↔ (10,79% ÷ 17,21%)
STATISTICĂ

curs 10
Estimarea parametrilor pe interval de încredere
SONDAJUL STATISTIC
1. Sondajul statistic
Cercetarea statistică se poate desfăşura în 2
modalităţi:
• cercetare statistică totală;
Când realizam o cercetare statistică totală descriem
colectivitatea printr-un sistem de indicatori statistici
numiţi parametrii. Aceştia sunt obţinuţi cu o
probabilitate de 100%.
• cercetare statistică parţială – a unui eşantion
reprezentativ;
Când apelăm la un eşantion parcurgem două etape:
➢ etapa descriptivă;
➢ etapa inferenţială.
Cercetare statistică parţială

• Etapa descriptivă – caracterizăm eşantionul


printr-un sistem de indicatori.

• Etapa de inferenţă statistică/inferenţială – în care


generalizăm rezultatele din eşantion pentru
colectivitatea generală. Se poate realiza în 2
moduri:

➢ estimăm parametrul necunoscut pe baza indicatorilor


din eşantion;
➢ testăm ipoteze pentru colectivitatea generală pe baza
evidenţelor din eşantion.
• În colectivitatea generală indicatorii s.n.
parametrii şi se notează cu litere greceşti:
σ 𝑥𝑖
𝜇= , media
𝑁

σ 𝑥𝑖 −𝜇 2
𝜎2 = , dispersia
𝑁

• În eşantion obţinem estimatori cu ajutorul cărora


realizăm estimaţii asupra parametrilor:
σ 𝑥𝑖
𝑥ҧ = , media
𝑛

σ 𝑥𝑖 −𝑥ҧ 2
𝑠2 = , dispersia
𝑛−1
!!! Un indicator obţinut pentru un eşantion este o estimaţie a
parametrului.
Modelul de bază folosit în sondajul statistic – selecţia
aleatoare simplă → numărul eşantioanelor diferite ce se
pot extrage dintr-o colectivitate de volum N este 𝑵𝒏 .
Cercetarea statistică prin sondaj - avantaje
Avantaje:
➢ costuri mai mici
➢ erori de observare reduse
➢ un plan al cercetării care poate fi mai amplu
➢ posibilitatea utilizării atunci când cercetarea conduce
la distrugerea obiectului cercetat.

Dezavantaje:
Principalul dezavantaj este că întotdeauna vom avea erori
de reprezentativitate. Asta înseamnă că un eşantion nu
poate imita perfect situaţia din colectivitatea generală decât
în mod cu totul întâmplător. Însă dacă vom cunoaşte
distribuţia variabilei aleatoare, media de selecţie, vom
putea măsura erorile de reprezentativitate, le vom putea
diminua şi ţine sub control.
Inferența statistică

6
Inferența statistică
• Inferenţa statistică este procesul prin care
formulăm concluzii despre populaţia statistică, pe
baza indicatorilor calculaţi în eşantion

• Există două modalităţi principale pentru realizarea


inferenţei: -- estimaţia punctuală sau pe interval de
încredere
- testarea de ipoteze statistice.

• Estimaţia înseamnă determinarea valorii


aproximative a parametrului din populaţia statistică
folosind eşantionul statistic
7
Inferența statistică
• Estimaţia asupra mediei, pe interval de încredere,
presupune:
1. calculul indicatorilor de sondaj
2. extinderea rezultatelor sondajului asupra populaţiei statistice

1. Calculul indicatorilor de sondaj presupune determinarea:


- mediei de sondaj
- dispersiei de sondaj
- erorii medii de reprezentativitate
- erorii maxime admise

2. Extinderea rezultatelor selecţiei asupra populaţiei statistice


presupune determinarea unui interval de încredere — pe
baza estimatorului punctual — pentru media populaţiei
statistice. 8
Inferența statistică
Calculul erorilor pentru selecţia aleatoare simplă repetată

1. Eroarea standard (eroarea medie de reprezentativitate)

• Pentru o variabilă cantitativă, nealternativă, pentru estimarea


parametrului media populaţiei statistice ( 𝜇 ) este necesar să
calculăm media de sondaj (𝑥) .

• Media mediilor de selecţie este egală cu media populaţiei 𝜇

• Dispersia mediilor de selecţie este de n ori mai mică decât


dispersia variabilei considerate în populaţia statistică şi, de regulă,
aproximată pe baza dispersiei eşantionului:

𝑠𝑥2
• 𝑠𝑥2 =
𝑛

9
Inferența statistică

• Eroarea medie de reprezentativitate (abaterea standard


a mediei de sondaj) se determină pe baza datelor din eşantion ca:

𝑠𝑥2 𝑠𝑥
𝑠𝑥 = =
𝑛 𝑛

• Deoarece am extras un eşantion de volum n dintr-o populaţie


statistică de N unităţi, nu putem fi siguri 100% în privinţa valorii
adevărate a mediei populaţiei.

• Cu toate acestea, dacă eşantionul este de volum mare


(n > 30), pe baza teoremei limită centrală, putem construi un
interval de încredere, cu o probabilitate de 100(1-)% de
garantare a rezultatelor, pentru parametrul media populaţiei
statistice.

10
Inferența statistică
2. Eroarea maximă admisă

• Pentru probabilitatea cu care garantăm rezultatele 100(1-)%,


eroarea maximă admisibilă este:

𝑠𝑥
𝛥𝑥 = 𝑧𝛼/2 ∙ 𝑠𝑥 = 𝑧𝛼/2 ∙
𝑛

• unde 𝑧𝛼/2 este argumentul funcției Gauss-Laplace si depinde de


probabilitatea de garantare a rezultatelor (valorile lui z sunt
tabelate pentru diverse niveluri de semnificație)

• Aceasta înseamnă că în 100(1-)% din cazuri, media de


sondaj (𝑥) se abate de la media colectivităţii generale (𝜇) cu mai
puţin sau cel mult z/2 ori eroarea medie de reprezentativitate 𝑠𝑥 .

11
Inferența statistică
• Intervalul de încredere pentru media 𝝁

𝑠
𝑥 ± 𝑧𝛼/2 ∙
𝑛

• care va conţine adevărata valoare a mediei din


populaţia statistică (𝜇), în 100(1-)% din cazuri.

• Cea mai folosită probabilitate de garantare a


rezultatelor este de 95%, adică: 𝑧𝛼/2 = 𝑧0.025 = 1.96

▪ Se cere găsirea unui echilibru între mărimea intervalului


de încredere (un interval mai mic înseamnă o precizie
crescută) şi probabilitatea de cuprindere a parametrului
din populaţie (o probabilitate crescută de garantare a
rezultatelor poate fi preferată).
12
Inferența statistică

Interval de încredere pentru 1-=0,999


Interval de încredere pentru 1-=0,99
Interval de încredere pentru 1-=0,95
Interval de încredere pentru 1-=0,90

Mărimea relativă a intervalului de încredere pentru un


eşantion de volum mare

Se observă că, pe măsură ce nivelul de încredere


(probabilitatea cu care garantăm rezultatele creşte),
intervalul de încredere devine mai mare pentru a
acoperi această cerinţă, iar exactitatea estimaţiei
scade.
13
Inferența statistică

▪ Extinderea rezultatelor sondajului la întreaga colectivitate


statistică se va face pentru media caracteristicii numerice
analizată – pe baza erorii limită admisibilă şi a intervalului de
încredere:
𝑥 − 𝛥𝑥 < 𝜇 < 𝑥 + 𝛥𝑥

▪ Deseori suntem interesaţi să estimăm pe baza sondajului nu doar


nivelul mediu al caracteristicii, ci şi nivelul total al
caracteristicii în colectivitatea generală (exemplu: estimarea
pe interval de încredere a fondului de salarizare, a producţiei
totale obţinute etc.).

▪ Intervalul de încredere pentru nivelul total al caracteristicii este:


𝑁

𝑁(𝑥 − 𝛥𝑥 ) < ෍ 𝑥𝑖 < 𝑁(𝑥 + 𝛥𝑥 )


𝑖=1
14
Exemplu
Directorul unui hotel doreşte să cunoască durata medie a
sejurului turiştilor cazaţi în hotel. În acest scop el selectează
aleator date din registrul hotelului, pentru un număr de 80 de
turişti şi calculează durata medie a sejurului 𝑥lj = 4,8 𝑧𝑖𝑙𝑒, cu o
abatere standard 𝑠𝑥 = 2,7 𝑧𝑖𝑙𝑒.
Pentru o probabilitate de garantare a rezultatelor de 95%,
durata medie a sejurului pentru turiştii cazaţi în hotel se
determină astfel:
𝑥lj = 4,8𝑧𝑖𝑙𝑒, 𝑠𝑥 = 2,7𝑧𝑖𝑙𝑒, 𝑛 = 80, 𝑧𝛼/2 = 𝑧0.025 = 1,96
𝑠𝑥 2,7
1. 𝑠𝑥lj = = = 0,30𝑧𝑖𝑙𝑒 (eroarea standard a mediei)
𝑛 8,94

2. 𝛥𝑥 = 𝑧𝛼/2 ⋅ 𝑠𝑥 = 1,96 ⋅ 0,30 = 0,59𝑧𝑖𝑙𝑒


3. 𝑥lj − 𝛥𝑥 ≤ 𝜇 ≤ 𝑥lj + 𝛥𝑥
4,8 − 0,59 ≤ 𝜇 ≤ 4,8 + 0,59
4,21 ≤ 𝜇 ≤ 5,39𝑧𝑖𝑙𝑒

15
ALEGEREA VOLUMULUI EŞANTIONULUI
Volumul eşantionului pentru sondaj aleator simplu repetat

Precizia estimaţiei şi probabilitatea cu care se garantează rezultatele


unei estimaţii pe interval de încredere sunt mărimi invers proporţio-
nale, astfel încât aceste deziderate trebuie puse într-o relaţie de
echilibru în funcţie de scopul cercetării statistice.

Deseori, problema se priveşte dintr-un unghi diferit, astfel încât


trebuie să determinăm volumul eşantionului necesar pentru precizia
şi probabilitatea cerută de cercetare.

Pentru determinarea volumului eşantionului, ne concentrăm atenţia


asupra a trei factori:
• nivelul de încredere dorit;
• eroarea limită admisă;
• omogenitatea datelor, măsurată prin abaterea standard.

16
ALEGEREA VOLUMULUI EŞANTIONULUI

Precizia cerută, asociată cu mărimea intervalului de încredere


pentru media populaţiei (𝜇) poate fi exprimată:

• pe baza erorii limite maxime (𝛥𝑥 )

• prin precizarea lungimii totale a intervalului de


încredere, L=2𝛥𝑥 .

• volumul necesar al eşantionului se determină rezolvând


una din următoarele ecuaţii în n:

𝑠𝑥 𝑠𝑥 𝐿
• 𝑧𝛼/2 ⋅ = 𝛥𝑥 sau 𝑧𝛼/2 ⋅ = .
𝑛 𝑛 2

17
ALEGEREA VOLUMULUI
EŞANTIONULUI

• Soluţia poate fi scrisă ca:

(z  / 2 ) 2  s 2x 4(z / 2 ) 2  s 2x
n= n=
2x sau L2
• sx2 se foloseşte ca o estimaţie a lui  x , în general necunoscută.
2

• sx2 poate fi cunoscută dintr-o cercetare prin sondaj anterioară.


• sx poate fi aproximată pe baza amplitudinii împrăştierii Ax şi sub presupunerea
tendinţei de normalitate a distribuţiei

s x  Ax / 4
(pentru o distribuţie cu tendinţă de normalitate aproximativ 95% din observaţii se
încadrează într-un interval de 4 ori abaterea standard, iar aproximativ 99,73% din
observaţii sunt cuprinse într-un interval de 6 ori abaterea standard)

18
Exemplu
Vacanţa de iarnă este perioada cea mai importantă pentru
activitatea de schi, deoarece mulţi copii, studenţi şi adulţi sunt
dispuşi să-şi petreacă un timp considerabil la munte, practicând
acest sport. Pentru a-şi dimensiona activitatea, managerul unei staţii
de telecabine doreşte să estimeze timpul mediu de aşteptare la
staţie pentru clienţi, de la sosire până la servire. Dintr-o cercetare
anterioară, el ştie că timpul de aşteptare are o distribuţie
aproximativ normală, cu o abatere medie pătratică 𝑠𝑥 =18 min.
Câţi clienţi trebuie să selecteze pentru a estima timpul mediu de
aşteptare, cu o probabilitate de 95%, pe un interval de încredere cu
o lungime de 10 minute (±5 minute)?

𝑠𝑥 = 18 𝑚𝑖𝑛, 𝑧𝛼/2 = 𝑧0.025 = 1,96

𝛥𝑥 = 𝐿/2 = 10/2 = 5 𝑚𝑖𝑛

𝑧 2𝑠2 1,962 ⋅324


𝑛= = = 49,78 ≈ 49 𝑡𝑢𝑟𝑖ș𝑡𝑖.
𝛥2𝑥 25

19
Cercetarea statistică prin sondaj
Paşii pentru determinarea intervalului de încredere pentru
medie sunt următorii (selecţie aleatoare simplă repetată,
variabilă numerică):
1. Pentru eşantionul cu care lucrăm calculăm: 𝑥,ҧ 𝑠 2
2. Determinăm eroarea medie probabilă de
𝑠2
reprezentativitate: 𝑠𝑥ҧ = 𝑠𝑥2ҧ =
𝑛
3. În funcţie de probabilitatea dorită vom determina
eroarea maximă admisibilă: Δ𝑥ҧ = 𝑧𝛼Τ2 𝑠𝑥ҧ , unde
𝑧=argumentul funcţiei de repartiţie;
4. Parametrul 𝜇 necunoscut se situează pentru
probabilitatea dorită în următorul interval:
𝑥ҧ − Δ𝑥ҧ ≤ 𝜇 ≤ 𝑥ҧ + Δ𝑥ҧ
5. Nivelul total al variabilei va fi cuprins între
𝑁(𝑥ҧ − Δ𝑥ҧ ) ≤ 𝜇 ≤ 𝑁(𝑥ҧ + Δ𝑥ҧ )
☺ Temă
Un analist doreşte să estimeze cheltuiala medie şi
totală pe familie, făcută într-o localitate pentru
procurarea unui produs lunar.
În acest scop din cele 14.520 familii selectează un
eşantion de 100 familii pentru care calculează
𝑥 ҧ = 430 𝑙𝑒𝑖 și 𝑣 = 36%.
Pentru o 𝑃 = 95% să se determine intervalul de
încredere pentru cheltuiala medie a familiei.
STATISTICĂ
curs 8-9
Analiza descriptiva a seriilor de date univariate
1. Media si dispersia unei variabile alternative
2. Regula de compunere a variabilității totale
3. Regula empirică a lui Cebîșev
4. Scoruri z
5. Forma distribuției
Media şi dispersia unei variabile de tip alternativ

• Dacă variabila este alternativă celor două variante


de răspuns li se vor acorda, convenţional, valorile
numerice 1 şi 0.
• Datele pot fi sistematizate astfel:

Frecvenţe Frecvenţe relative


Varianta de răspuns xi
ni ni*
m
Afirmativ 1 m = f
n
n−m
Negativ 0 n-m = 1− f
n
Total – n 1

2
Media şi dispersia unei variabile de tip alternativ

• Media este proporţia răspunsurilor afirmative (care posedă


caracteristica studiată), în totalul unităţilor statistice:
2

x n
i =1
i i
1  m + 0(n − m ) m
x= = = = f
n n n
• Dispersia este:

s 2
= s 2f =
(1 − f )2 m + (0 − f )2 (n − m)
= (1 − f )2 f + f 2 (1 − f ) = f (1 − f )(1 − f + f )
n
s 2f = f (1 − f )

• Dispersia maximă pentru o variabilă alternativă este 0,25,


(ponderea răspunsurilor afirmative este egală cu cea a răspunsurilor
negative) f = 1 − f = 0,5

3
Regula de compunere a variabilităţii
Pentru adecvarea promoţiilor la cadourile de sărbători, un
magazin realizează un studiu referitor la veniturile
clienţilor, nivelul sumelor pe alocate pentru cadouri,
categoria socio-profesională.
Datele referitoare la cheltuielile pentru cadouri, înregistrate
pentru 14 clienţi, sunt:
6,5 2,5 3 3,2 2,2 2,3 3 5 4 5,5 6,5 8 2 7

media 4,34
dispersia 4,17
abaterea standard 2,04
Coeficientul de variatie 47%

4
Regula de compunere a variabilităţii
Deoarece seria are un grad redus de omogenitate, clienţii
au fost împărţiţi în 2 grupe, în funcţie de categoria
socio-profesională astfel:

Cheltuieli pentru cadouri (sute lei)


Pensionari (gr.1) Salariati (gr. 2 )
2 3
2,5 5
3 4
3,2 5,5
2,2 6,5
2,3 8
6,5
7
Pensionari (gr.1) Salariați (gr.2 )
medie 2,5 5,69
dispersie 0,22 2,71
abatere standard 0,47 1,65
5
coeficient de variatie 19% 29%
Regula de compunere a variabilităţii

• Dacă o serie statistica este alcătuită din mai multe


grupe componente, variaţia totală se poate calcula
dupa o schemă cunoscută sub numele de “regula de
compunere a variabilităţii totale”.

• Abaterea fiecărei valori de la media totală a seriei


este explicată prin influenţa factorului de grupare şi
a altor factori ce acţionează la nivelul fiecărei grupe.

• Putem cuantifica, astfel, cât din variaţia


caracteristicii studiate este explicată de factorul de
grupare ales
Regula de compunere a variabilităţii

Dacă o serie statistică de volum n este alcatuita din m grupe, pentru fiecare grupă de
m
volum ni , i = 1, m ( n =  ni ) se pot determina mediile ( x i ) şi dispersiile ( si ) astfel:
2

i =1

Volumul grupei Media grupei Dispersia grupei


Grupa 1 x11 , x12 ,  , x1n1 n1 1 n1
x1 =  x1 j s = 2 1 n1
(
 x1 j − x1
n1 − 1 j =1
1 )
2

n1 j =1
Grupa 2 x21 , x22 ,  , x2 n2 ( )
n2
n2 1 1 n2
x  x2 j − x 2
2
x2 = s = 2

n2 − 1 j =1
2j 2
n2 j =1

   
Grupa i xi1 , xi 2 , , xini 1 ni
( )
ni
ni xi =
1
 xij s = 2
 xij − xi
2

ni − 1 j =1
i
ni j =1

   
Grupa m xm1 , xm 2 ,, xmnm 1 nm
( )
nm
nm 1
 xmj − x m
x
2
xm = s = 2

nm − 1 j =1
mj m
nm j =1

7
Regula de compunere a variabilităţii

Abaterea individuală de la media totală poate fi descompusă astfel:

( ) (
xij − x = xij − x i + x i − x )
unde:

1 m ni 1 m
x =  xij =  x i  ni
n i =1 j =1 n i =1 este media totală a seriei.

Prin ridicarea la pătrat şi însumarea fiecărui termen şi folosind proprietăţile


mediei se obţine:

 (x ) ( ) ( )
m ni m ni m
=  xij − x i +  x i − x  ni
2 2 2
−xij
i =1 j =1 i =1 j =1 i =1
        
variatia totala variatia din interiorul grupelor variatia dintre grupe

8
Regula de compunere a variabilităţii

Se notează:

 (x )
m ni
2
ij −x
SST= i =1 j =1 variatia totala sau variabilitatea totala, adica
suma patratelor abaterilor individuale de la media totala a seriei
(sum of total squares).

( )
m ni


2
x ij − xi
SSW= i =1 j =1 variatia din interiorul grupelor , adica
suma patratelor abaterilor individuale de la mediile de grupă (sum of
squares within groups).

(x − x )  n
m

SSB= 
2
i
i =1
i
variatia dintre grupe , adica suma patratelor
abaterilor mediilor de grupă de la media totală (sum of squares
between groups).

9
Regula de compunere a variabilităţii

Relaţia SST = SSW + SSB


- se numeşte “REGULA DE COMPUNERE A VARIABILITĂŢII TOTALE”
- permite determinarea dispersiei seriei cu formula
SST
s2 =
n −1
- permite determinarea măsurii în care factorul de grupare influenţează
variaţia caracteristicii studiate prin calculul coeficientului de
determinaţie:
SSB
R2 =
SST
sau, în expresie procentuală, gradul de determinaţie:

SSB
R2 = *100
SST

10
Regula de compunere a variabilităţii

• Dacă variatia dintre grupe SSB are o pondere mai mare în


variatia totală SST atunci înseamnă că factorul de grupare
explică mai mult variaţia caracteristicii studiate.

• Dacă variatia din interiorul grupelor SSW are o pondere mai


mare în variatia totală SST atunci înseamnă că variaţia
caracteristicii studiate este influenţată de alţi factori
• Se poate calcula coeficientul/gradul de nedeterminaţie:

SSW
K =
2
= 1− R2 K %2 =
SSW
100 = 100 − R%2
SST SST

11
Exemplu

Pentru a analiza în ce proporţie categoria socio-profesională influenţează


variaţia cheltuielilor pentru cadouri se determină:

 (x ) =  (x ) ( )
2 ni 6 8 2
− x1 +  x2 j − x 2 =  si2 (ni − 1) =
2 2 2
ij − xi 1j
i =1 j =1 j =1 j =1 i =1
SSW=
= si2 (ni − 1) = s12 (n1 − 1) + s22 (n2 − 1) = 1.11 + 18.97 = 20.08
şi

(x − x)  n = (2.5 − 4.34)
2

SSB= 
2
i i
2
 6 + (5.69 − 4.34) 2  8 = 34.11
i =1

SST=54,19

SSB
R2 = 100 = 63%
SST

12
Exemplu

Pensionari Salariati
x1 j (x 1j − x1 )
2
x2 j (x 2j − x2 )
2

2 0,28 3 7,22
2,5 0,00 5 0,47
3 0,22 4 2,85
3,2 0,44 5,5 0,04
2,2 0,11 6,5 0,66
2,3 0,05 8 5,35
6,5 0,66
7 1,72

 (x )  (x )
6 8
2 2
Total 1j − x1 = 1,11 2j − x2 = 18,97
j =1 j =1

13
Regula empirică lui Cebîşev
Abaterea standard oferă şi informaţii privind modul de
distribuţie şi de împrăştiere a valorilor într-o serie de
distribuţie de frecvenţe aproximativ normală
Regula empirică lui Cebâşev, evidenţiată în cazul
distribuţiilor cu tendinţă de normalitate (moderat
asimetrice), afirmă că:
• aproximativ 68% din valori se situează în intervalul 𝜇 ± 𝜎,
adică la cel mult o abatere standard faţă de medie
𝜇 − 𝜎, 𝜇 + 𝜎 ;
• aproximativ 95% din valori se situează în intervalul 𝜇 ±
2𝜎, adică la cel mult două abateri standard faţă de medie
𝜇 − 2𝜎, 𝜇 + 2𝜎 ;
• aproximativ 99,8% din valori se situează în intervalul𝜇 ±
3𝜎, adică la cel mult trei abateri standard faţă de
medie 𝜇 − 3𝜎, 𝜇 + 3𝜎 .
Exemplu
Proprietarul unui restaurant ştie că distribuţia
încasărilor este aproximativ normal distribuită, în medie
de 20 Euro pentru un client şi o abatere standard de 7
Euro.
Dacă într-o lună restaurantul a avut 850 de clienţi, el
se aşteaptă ca:
• de la un număr aproximativ de 578 de clienţi
(0,68·850) să încaseze între 13 Euro (20 - 7) şi 27
Euro (20 + 7);
• de la un număr aproximativ de 807 clienţi (0,95·850),
să încaseze între 6 Euro (20 - 2·7) şi 34 Euro (20
+2·7);
• de la un număr aproximativ de 21 clienţi (0.025·850)
să încaseze mai puţin de 6 Euro, iar de la un număr
aproximativ de 21 clienţi să încaseze mai mult de 34
Euro.
Scorurile z
• Pentru compara variabile cu unităţi de măsură diferite se
recurge la transformarea datelor, operaţie numită
standardizarea variabilelor (calcularea scorurilor z).
• Scorul z reprezintă o modalitate de a exprima semnificaţia
unei anumite valori dintr-o serie de date în relaţie cu
parametrii distribuţiei (medie şi abatere standard).
• Scorul z reprezintă distanţa dintre o anumită valoare şi
medie, în unităţi ale abaterii standard:
xi − x xi − 
z= z=
s 
• Se obţine astfel o nouă variabilă, numită variabilă
standardizată, care are media zero şi dispersia unu.
• Dacă pentru o anumită unitate statistică scorul z are semnul ”-”
înseamnă că individul respectiv înregistrează o performanţă sub
medie, iar dacă scorul z are semnul „+” atunci individul are o
performanţă peste medie. 16
Regula empirică a lui Cebîşev

Frecvenţe relative

34% 34%

13,5% 13,5%
2,5% 2,5%

 − 3  − 2  −   +  + 2  + 3
amplitudinea ≈ 4s
-3 -2 -1 0 1 2 3
scoruri z

17
Regula empirică a lui Cebîşev
• aproximativ 68% dintre observaţii înregistrează pentru
scorurile z valori cuprinse între -1 şi 1.

• aproximativ 95% dintre observaţii înregistrează pentru


scorurile z valori cuprinse între -2 şi 2.

• aproximativ 99,8% dintre observaţii înregistrează pentru


scorurile z valori cuprinse între -3 şi 3.

• Amplitudinea absolută a variaţiei într-o distribuţie


aproximativ normală este de patru/șase ori mai mare decât
abaterea standard:
𝐴 𝐴
𝑨 ≈ 𝟒𝒔 sau 𝑠 ≈ sau 𝑨 ≈ 𝟔𝒔 sau 𝑠 ≈ .
4 6

• Se poate estima aşadar, relativ uşor, în cazul unei distribuţii


aproximativ normale, valoarea abaterii standard/dispersiei
dacă se cunoaşte amplitudinea absolută a variaţiei.
18
Indicatori ai formei distribuţiei

• În cazul variabilelor numerice ne interesează şi forma


distribuţiei
• Distribuţia datelor se compară, în general, cu distribuţia
normală teoretică şi se analizează două aspecte:
- oblicitatea = măsura în care distribuţia se abate de la
forma perfectă de simetrie a valorilor în jurul tendinţei
centrale
- boltirea sau aplatizarea = măsura în care distribuţia este
mai plată sau mai boltită în raport cu distribuţia normală
teoretică

19
ASIMETRIA
• Asimetria (skewness, în engl.) unei serii de distribuţie de frecvenţe
se observă din reprezentarea grafică prin histogramă sau poligonul
frecvenţelor, prin modalitatea în care sunt situaţi, unul faţă de celălalt,
indicatorii tendinţei centrale.
• Relaţia existentă între valorile indicatorilor tendinţei centrale permite,
de asemenea, formularea unor aprecieri asupra oblicităţii distribuţiei.

a) distribuţie b) distribuţie cu c) distribuţie cu


simetrică; asimetrie pozitivă asimetrie negativă

20
ASIMETRIA
Pentru aprecierea intensităţii şi a sensului oblicităţii
unei variabile în eşantionul studiat se utilizează o
serie de indicatori/coeficienţi (notaţi CAS) specifici,
absoluţi şi relativi, bazaţi pe relaţia dintre indicatorii
tendinţei centrale, dintre indicatorii medii de poziţie,
precum şi pe indicatori ai variabilităţii:

𝑥−𝑀0 3 𝑥−𝑀𝑒
𝐶𝐴𝑆 = sau 𝐶𝐴𝑆 = ,
𝑠 𝑠

coeficient ce are la bază relaţia existentă între


indicatorii tendinţei centrale în cazul distribuţiilor
moderat asimetrice:
𝑥 − 𝑀𝑜 ≅ 3 𝑥 − 𝑀𝑒
21
ASIMETRIA
• CASQ = Q3+Q1 - 2Me sau

𝑄3 − 𝑀𝑒 − 𝑀𝑒 − 𝑄1 𝑄3 + 𝑄1 − 2𝑀𝑒
CAS𝑄 = =
𝑄3 − 𝑀𝑒 + 𝑀𝑒 − 𝑄1 𝑄3 − 𝑄1

coeficient ce are la bază relaţia existentă între


indicatorii medii de poziţie.

𝑛 σ𝑛
𝑖=1 𝑥𝑖 −𝑥lj
3
• 𝐶𝐴𝑆 =
𝑛−1 𝑛−2 𝑠3

σ𝑛
𝑖=1 𝑥𝑖 −𝑥lj
2
unde 𝑠 = , coeficient implementat de cele
𝑛−1

mai multe pachete software specialiate în analiza


22
datelor.
ASIMETRIA
• Dacă 𝐶𝐴𝑆 > 0 , avem asimetrie pozitivă, coada
distribuţiei este mai alungită la dreapta, în serie
predomină valorile mici
• Dacă 𝐶𝐴𝑆 < 0 , avem asimetrie negativă, coada
distribuţiei este mai alungită la stânga, în serie
predomină valorile mari
• Dacă 𝐶𝐴𝑆 = 0, avem serie perfect simetrică
• Dacă 𝐶𝐴𝑆 → 0, 𝐶𝐴𝑆 ≤ 0.3 seria este moderat
asimetrică

Dacă 𝐶𝐴𝑆 > 1 seria este profund asimetrică, distribuţia empirică


diferă semnificativ de distribuţia normală şi se recomandă
tranformarea datelor (se logaritmează valorile variabilei,
obţinându-se astfel o distribuţie cu tendinţă de normalitate).
23
BOLTIREA/APLATIZAREA
• Boltirea (kurtosis, în engl.) exprimă înălţimea
curbei („cocoaşei”) comparativ cu distribuţia
normală teoretică.
• Întâlnim, astfel distribuţii leptocurtice, ascuţite
(cu „cocoaşa” înaltă) şi distribuţii platicurtice,
aplatizate.

distribuţie leptocurtică

distribuţie platicurtică

24
BOLTIREA/APLATIZAREA
• Coeficientul de boltire sau aplatizare (kurtosis) este o
măsură a împrăştierii fiecărei observaţii în jurul unei valori
centrale şi se determină, pe eşantion, cu formula:
𝑛 𝑛+1 σ𝑛𝑖=1 𝑥𝑖 − 𝑥lj 4 3 𝑛−1 2
𝐶𝐵𝐴 = −
𝑛−1 𝑛−2 𝑛−3 𝑠4 𝑛−2 𝑛−3
σ𝑛
𝑖=1 𝑥𝑖 −𝑥lj
2
unde 𝑠 = .
𝑛−1

• Dacă 𝐶𝐵𝐴 > 0, avem distribuţie leptocurtică, valorile


varibilei fiind concentrate în jurul indicatorilor tendinţei
centrale
• Dacă 𝐶𝐵𝐴 < 0 , avem distribuţii platicurtice valorile
varibilei fiind dispersate în raport cu indicatorii
tendinţei centrale
• Dacă 𝐶𝐵𝐴 = 0 , avem distribuţie mezocurtică, adică
distribuţia normală.

25
EAM 2022-2023
STATISTICĂ curs 6 & 7
Măsuri statistice descriptive pentru date univariate
Măsurarea variabilității
1. Indicatori simpli
2. Indicatori sintetici ai variabilităţii
Variabilitatea
Pentru analiza variabilităţii unei serii de date numerice
se utilizează:

▪ indicatori simpli (măsoară împrăştierea valorilor


individuale ale seriei, una faţă de alta, ori faţă de o
valoare tipică)

▪ indicatori sintetici (utilizati pentru sintetizarea, într-o


singură expresie, împrăştierii tuturor valorilor din seria
statistică analizată în raport cu o anumită valoare
tipică ).

!!! Două serii statistice pot să difere prin tendinţa


centrală, prin împrăştierea datelor sau prin amândouă.
1. Indicatorii simplii ai variabilității
Amplitudinea absolută a variaţiei;

Amplitudinea relativă a variaţiei;

Abaterile individuale absolute;

Abaterile individuale relative.


1.1 Amplitudinea absolută a variaţiei (Ax)
Ax se determină ca diferenţă între valoarea maximă
(xmax) şi valoarea minimă (xmin) a caracteristicii şi arată
câmpul maxim de împrăştiere a valorilor caracteristicii.
𝐴𝑥 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• 𝐴𝑥 are unitatea de măsură a variabilei.
• 𝐴𝑥 descrie ecartul maxim al valorilor pe scală.
• 𝐴𝑥 se foloseşte în construirea intervalelor de variaţie
şi a graficelor.
• 𝐴𝑥 este sensibilă la valorile extreme şi nu ţine cont
de distribuţia celorlalte valori din serie.
• 𝐴𝑥 nu este un indicator adecvat pentru a descrie
împrăştierea datelor din serie.
𝐴𝑥
• Amplitudinea relativă a variaţiei: 𝐴𝑥(%) = ∙ 100
𝑥ҧ
1.2 Abaterea individuală (𝑑𝑖 )
Abaterea inidviduală măsoară împrăştierea fiecărei
valori de la valoarea medie:
𝑑𝑖 = 𝑥𝑖 − 𝑥ҧ sau 𝑑𝑖 = (𝑥𝑖 − 𝑥)ҧ ∙ 𝑛𝑖
• Abaterile di au unitatea de măsură a variabilei;
• Abaterile di sunt pozitive, negative sau egale cu
zero;
• Valorile mari, în valoare absolută, ale abaterilor di
arată o variabilitate ridicată;
• Valorile mici ale abaterile di arată că valorile
variabilei sunt concentrate în jurul mediei;
• Abaterile di se compensează reciproc, suma lor fiind
nulă: 𝑛 𝑛

෍ 𝑑 = ෍ 𝑥𝑖 − 𝑥ҧ = 0
𝑖=1 𝑖 𝑖=1
1.2 Abaterea individuală absolută (𝑑𝑖 )

• În practică se utilizează mai mult abaterea absolută


maximă şi abaterea absolută minimă:
𝑑𝑚𝑎𝑥 = 𝑥𝑚𝑎𝑥 − 𝑥ҧ ≥ 0; 𝑑𝑚𝑖𝑛 = 𝑥𝑚𝑖𝑛 − 𝑥ҧ ≤ 0
• Suma abaterilor maxime şi minime luate în modul
este egală cu amplitudinea absolută a variaţiei:
𝑑𝑚𝑎𝑥 + 𝑑𝑚𝑖𝑛 = 𝐴𝑥
• Dacă în cazul unei serii, abaterea maximă absolută
diferă mult de valoarea abaterii minime absolute
luată în modul, atunci pentru seria respectivă trebuie
calculaţi pe lângă indicatorii variaţiei şi indicatorii
de asimetrie.
• Într-o serie simetrică:
𝑑𝑚𝑎𝑥 = 𝑑𝑚𝑖𝑛
1.3 Abaterea intercuartilică (IQR)
IQR (AI sau QR) se determină ca diferenţă între
cuartila superioară (Q3) şi cea inferioară (Q1) şi arată
intervalul în care se încadrează 50% dintre valorile
variabilei situate în mijlocul distribuţiei:
𝐼𝑄𝑅 = 𝑄3 − 𝑄1

• IQR are unitatea de măsură a variabilei studiate;


• IQR reprezintă lungimea dreptunghiului din
diagrama Box-Plot.
2. Indicatorii sintetici ai variabilității
ҧ
Abaterea medie liniară (𝑑);

Dispersia (varianţa) 𝜎 2 ;

Abaterea medie pătratică (abatere medie standard


sau tip) 𝜎 ;

Coeficientul de variaţie (𝑣).



2.1 Abaterea medie liniară (𝒅)

Abaterea medie liniară, 𝑑,ҧ se calculează ca o medie


aritmetică simplă (în cazul seriilor simple) sau
ponderată (în cazul seriilor de distribuţie de frecvenţe)
a abaterilor individuale în valoare absolută.

▪ pentru o serie simplă:


σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑑ҧ =
𝑛
▪ pentru o serie de distribuţie de frecvenţe absolute:

σ𝑘𝑖=1 𝑥𝑖 − 𝑥ҧ ∙ 𝑛𝑖 σ𝑟𝑖=1 𝑥𝑖 − 𝑥 𝑛𝑖∗%


𝑑ҧ = =
σ𝑘𝑖=1 𝑛𝑖 100

2.1 Abaterea medie liniară (𝒅)

▪ 𝑑 se exprimă în unitatea de măsură a variabilei;

▪ 𝑑 arată cu cât se abat, în medie, valorile individuale


de la media lor ;

▪ 𝑑 nu poate fi utilizată în calcule algebrice;

▪ 𝑑 acordă aceeaşi importanţă atât abaterilor mici cât


şi abaterilor mari ale valorilor de la media lor, însă
variabilitatea datelor este afectată, în mod deosebit,
de abaterile mari de la medie.
2.2 Dispersia
Dispersia (variance, în engl.) se calculează ca medie
aritmetică a pătratelor abaterilor individuale.
Formula de calcul a dispersiei este:
▪ ESTIMATOR (Dispersia variabilei în eşantion, sample variance,
în engl.)
• pentru o serie simplă:
σ𝑛
𝑖=1 𝑥𝑖 −𝑥ҧ
2
𝑠2 =
𝑛
• pentru date sistematizate (serie de distribuţie de
frecvenţe absolute):
σ𝑟𝑖=1 𝑥𝑖 −𝑥ҧ 2 ∙𝑛𝑖
𝑠2 = , 𝑛 = σ𝑟𝑖=1 𝑛𝑖
𝑛−1
• În cazul eşantioanelor de volum mare (𝑛 ≥ 30), putem
lua în calcul următoarea aproximare 𝑛 − 1 ≅ 𝑛,
dispersia în eşantion fiind:
𝑛 2
σ 𝑖=1 𝑥𝑖 − 𝑥
𝑠2 =
𝑛
2.2 Dispersia
▪ Parametru (Dispersia variabilei în populaţia statistică)

σ𝑁
𝑖=1 𝑥𝑖 −𝜇
2
𝜎2 =
𝑁

• Dispersia se poate determina şi prin metoda momentelor


(dispersia este momentul centrat de ordinul 2 şi se
calculează ca diferenţă dintre momentul iniţial de ordinul
2 şi pătratul momentului iniţial de ordinul 1):

𝑛 2 𝑛 2 𝑛 2
2
σ𝑖=1 𝑥𝑖 2 σ𝑖=1 𝑥𝑖 σ𝑖=1 𝑥𝑖
𝑠 = −𝑥 = −
𝑛 𝑛 𝑛
2.2 Dispersia

• Dispersia este cel mai utilizat indicator pentru


analiza variabilităţii datelor datorită proprietăţilor sale
algebrice;
• Dispersia acordă o importanţă mai mare abaterilor
individuale mari (prin calcularea pătratului
abaterilor), sintetizând astfel mai fidel variabilitatea
datelor;
• Dispersia are o unitate de măsură dificil de
interpretat (prin determinarea pătratelor abaterilor
individuale sunt ridicate la pătrat şi unităţile de
măsură ale variabilei)
2.3 Abaterea standard (abaterea medie
pătratică)
Abaterea medie pătratică se calculează ca o medie
pătratică a individuale.
Abaterea medie pătratică ne arată cu cât se abat în
medie termenii unei serii de la tendinţa centrală (de
obicei media):
▪ Abaterea standard determinată la nivelul
eşantionului (sample standard deviation, în engl.) –
estimator este:
• pentru o serie simplă:
σ 𝑛 2
𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠 = 𝑠2 =
𝑛−1
• pentru o serie de distribuţie de frecvenţe absolute:
𝑟
σ𝑘𝑖=1 𝑥𝑖 − 𝑥ҧ 2 ∙ 𝑛𝑖
𝑠= 𝑠2 = , 𝑛 = ෍ 𝑛𝑖
𝑛
𝑖=1
2.3 Abaterea standard (abaterea medie
pătratică)
▪ Abaterea standard determinată la nivelul populației –
parametru este:
σ𝑛𝑖=1 𝑥𝑖 − 𝜇 2
𝜎= 𝜎2 =
𝑁
• Abaterea standard (numită şi abatere medie pătratică)
este cel mai utilizat indicator de caracterizare a
împrăştierii datelor, fiind un parametru al repartiţiei
normale;
• Între indicatorii variabilităţi abatere medie liniară (𝑑) şi
abatere standard (𝑠), adică pentru o serie cu tendinţă
de normalitate, există următoarea relaţie:
4
𝑑 ≤ 𝑠, 𝑑 ≈ 𝑠
5
2.3 Abaterea standard (abaterea medie
pătratică)
• Abaterea standard are unitatea de măsură a
variabilei;
• În dezvoltarea teoriei statistice, majoritatea
modelelor tradiţionale sunt bazate pe distribuţii
descrise de media aritmetică şi abaterea standard;
• În analizele financiare abaterea standard este
considerată o măsură a „riscului”:

Exemplu: Considerând două proiecte de investiţii, A şi


B, pentru care profiturile medii sunt aproximativ egale,
iar deviaţia standard a proiectului A este de 3000 Eur şi
deviaţia standard a proiectului B este de aproximativ
7000 Eur.
Care este investiţia prudentă (cu un risc mai redus)?
De ce?
2.4 Coeficientul de variaţie (𝑣)
Coeficientul de variaţie reprezintă expresia relativă a
variabilităţii. Se calculează ca raport între abaterea
medie pătratică sau liniară şi medie.
𝜎
𝑣 = ҧ ∙ 100
𝑥
Seriile pentru care v  30-35% sunt considerate
omogene (cu variabilitate redusă), cu medii
reprezentative care caracterizează corect tendinţa
centrală a seriei
➢ 𝒗 = 𝟎 ⇒ seria este perfect omogenă, toţi termenii
seriei sunt egali între ei şi sunt egali cu media: în
acest caz nu există variaţie.
➢ 𝒗 ≤ 𝟓% ⇒ seria este foarte omogenă, variaţia este
foarte mică, media este foarte reprezentativă, iar
gruparea a fost foarte bine executată (în cazul seriilor
de distribuţie de frecvenţe).
➢ 𝒗 ≤ 𝟑𝟓% ⇒ seria este omogenă.
➢ 𝒗 ≥ 𝟕𝟎 − 𝟕𝟓% ⇒ seria este eterogenă, variaţia este
foarte mare, media nu este reprezentativă, iar
gruparea trebuie refăcută.
2.4 Coeficientul de variaţie (𝑣)
• Indicatorii sintetici ai variabilităţii, exprimaţi în
mărimi absolute, nu permit realizarea comparaţiilor
între serii statistice, din perspectiva
variabilităţii/omogenităţii datelor;
• Variabilitatea depinde de ordinul de mărime al
datelor chiar şi pentru variabilele exprimate în
aceeaşi unitate de măsură;
• Exprimarea în mărime relativă a variabilităţii, prin
intermediul coeficientului de variaţie, face posibilă
compararea seriilor statistice din punctul de vedere
al variabilităţii;
• Omogenitatea ridicată a datelor este asigurată de
valori mici ale coeficientului de variaţie;
• Dacă două serii statistice au coeficienţi de variaţie
diferiţi, seria care are coeficientul de variaţie mai mic
este mai omogenă;
(ndxxxiii i =
−− (xxx)i n−i nxi)  ni
2

Exemplul 1
Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul
copiilor minori în întreţinere:
Număr copii
Număr
minori în 𝑑𝑖 = (𝑥𝑖 − 𝑥) ⋅ 𝑛𝑖
salariaţi Fci 𝑥𝑖 − 𝑥 ⋅ 𝑛𝑖 (𝑥𝑖 − 𝑥)2 ⋅ 𝑛𝑖
întreţinere
(𝑛𝑖 )
(𝑥𝑖 )
0 (0-2,25)*10 = -22,5 10 22,5
10
50.625
1 (1-2,25)*20 = -25 30 25
20
31.25
2 (2-2,25)*35 = -8,75 65 8,75
35
2.1875
3 (3-2,25)*40 = 30 105 30
40
22.5
4 (4-2,25)*15 =26,25 120 26,25
15
45.9375
Total 120 0 - 112,5 152,5
Exemplul 1
Indicatorii variabilităţii determinaţi sunt:

1. Amplitudinea absolută
• Ax = xmax — xmin = 4 - 0 = 4 copii

2. Abaterea individuală pentru o serie de distribuţie de frecvenţe

• 𝑑𝑖 = (𝑥𝑖 − 𝑥) ⋅ 𝑛𝑖 , 𝑖 = 1,5, 𝑥 = 2.33, σ𝑛𝑖=1 𝑥𝑖 − 𝑥 ⋅ 𝑛𝑖 = 0

3. Abaterea intercuartilică
• 𝐴𝐼 = 𝑄3 − 𝑄1 = 3-2 = 1
1 3
• 𝐿𝑜𝑐𝑄1 = 𝑛 + 1 = 30.25, 𝐿𝑜𝑐𝑄3 = 𝑛 + 1 = 90.75
4 4

• 𝑝𝑟𝑖𝑚𝑎𝐹𝑐𝑖 = 65 ≥ 𝐿𝑜𝑐𝑄1 = 30.25, 𝑝𝑟𝑖𝑚𝑎𝐹𝑐𝑖 = 105 ≥


𝐿𝑜𝑐𝑄3 = 90.75
• 𝑄1 = 2 copii, 𝑄3 = 3 copii
Exemplul 1
4. Abaterea medie liniară

σ 𝑟
𝑥𝑖 −𝑥 𝑛𝑖 112.5
𝑑ҧ = 𝑖=1
σ𝑟
= = 0.94 ≅ 1copil
𝑖=1 𝑛𝑖 120

5. Dispersia
2
σ𝑟𝑖=1 𝑥𝑖 − 𝑥 2 𝑛𝑖 152.5
𝑠 = = = 1.29
𝑛−1 119
6. Abaterea standard

𝑠 = 𝑠 2 = 1.29 = 1.1357 ≅ 1copil


7. Coeficientul de variaţie
𝑠 1.1357
𝑣 = ⋅ 100 = ⋅ 100 = 51% > 30%
𝑥 2.25

Distribuţia salariaţilor în funcţie de numărul minorilor în întreţinere are un


grad ridicat de variabilitate, nu este omogenă, iar media determinată nu
caracterizează adecvat tendinţa centrală.
EAM 2022-2023
STATISTICĂ
Curs 5
Măsuri statistice descriptive pentru serii de date
univariate (II)
Analiza comparativă indicatorilor tendinţei centrale
Indicatori medii de pozitie – CUANTILE
Diagrama Box-Plot
6. Analiza comparativă indicatorilor
tendinţei centrale
Pentru a obţine o imagine completă asupra unui
fenomen economico-social se determină şi analizeză
atât cei trei indicatori ai tendinţei centrale, cât şi relaţia
dintre ei.
▪ Media poate fi utilizată când setul de date este (cel
puţin aproximativ) normal distribuit şi, în acest caz,
este cel mai potrivit indicator pentru a caracteriza
tendinţa centrală.
▪ Media este indicatorul care va fi utilizat cel mai des
deoarece răspunde cel mai bine scopului inferenţei
statistice.
▪ Media este mai stabilă şi mai puţin sensibilă la
fluctuaţiile de selecţie decît mediana
▪ Media poate fi supusă cu uşurinţă calculelor
algebrice, spre deosebire de mediană
6. Analiza comparativă indicatorilor
tendinţei centrale
▪ Modul poate fi calculat pentru orice set de date
univariate
▪ Modul poate fi afectat de modalitatea de construire
a intervalelor, pentru date numerice grupate.

▪ Mediana poate fi calculată pentru orice tip de date,


cu excepţia celor nominale (care nu pot fi ordonate).
▪ Mediana este indicată atunci când:
• datele sunt profund asimetrice
• există valori extreme
• datele sunt măsurate pe scala ordinală
Dacă seria se compune din mai multe subserii componente,
mediana seriei rezultante nu se poate exprima prin medianele
subseriilor componente.
6. Analiza comparativă indicatorilor
tendinţei centrale
Pentru o distribuţie normală cu grad redus de
asimetrie, există diferenţe foarte mici între aceşti
indicatori şi toţi trei caracterizează tendinţa centrală.
Cei trei indicatori fundamentali ai tendinţei centrale
oferă informaţii privind forma distribuţiei într-o serie de
date statistice:
• pentru o distribuţie perfect simetrică (distribuţia normală
teoretică), media, mediana şi modul coincid (a);
• dacă distribuţia prezintă tendinţă de normalitate, având
coada distribuţiei alungită la dreapta, spre valorile mari
ale variabilei, atunci 𝑥 > 𝑀𝑒 > 𝑀𝑜 şi seria prezintă
asimetrie pozitivă (b);
• dacă distribuţia prezintă tendinţă de normalitate, având
coada distribuţiei alungită la stânga, spre valorile mici ale
variabilei, atunci 𝑥 < 𝑀𝑒 < 𝑀𝑜 şi seria prezintă
asimetrie negativă (c);
6. Analiza comparativă indicatorilor
tendinţei centrale

Pentru repartiţii moderat asimetrice, există o relaţie


empirică între cele trei valori şi anume:
𝑥 − 𝑀𝑜 ≅ 3 𝑥 − 𝑀𝑒
Indicatori medii de pozitie – CUANTILE
Cuantilele (percentile, în engl.) reprezintă niveluri ale
variabilei care caracterizează poziţia relativă a unui
nivel individual în setul de date

Cuantilele au aceeaşi unitate de măsură ca şi


caracteristica studiată

Cuantilele realizează o divizare a distribuţiei într-un


număr de „k” părţi egale

Cuantilele pot fi folosite pentru a analiza forma


distribuţiei
Indicatori medii de pozitie – CUANTILE

În caracterizarea unui set de date, cele mai uzuale


cuantile sunt:
• Cuantila de ordin 2 (mediana)
• Cuantilele de ordin 4 (cuartile, notate 𝑄1 , 𝑄2 , 𝑄3 ,
care împart seria în patru părţi egale, delimitând
câte 25% din observaţii, 𝑄2 = 𝑀𝑒)
• Cuantilele de ordin 10 (decile, notate 𝐷1 , ...., 𝐷9 şi
care delimitează câte 10% din observaţii, 𝐷5 = Me)
• Cuantilele de ordin 100 (centile, care delimitează
câte 1% din observaţii)
Cuantilele de ordin mai mare decât 2 se folosesc în
cazul seturilor de date de volum mare (𝑛 ≥ 30)
Indicatori medii de pozitie – CUANTILE

În practică, cel mai frecvent se determină cuartilele


(cuantilele de ordinul 4).
Cele 3 cuartile (Q1, Q2 = Me, Q3) care divizează seria
în patru părţi egale se determină similar cu mediana:
▪ Pas 1: Se ordonează crescător termenii seriei (în
cazul datelor nesistematizate) sau se calculează
frecvenţele absolute cumulate crescător (Fci ) în
cazul datelor sistematizate.
▪ Pas 2: Se determină locul (rangul) cuartilei în serie.
1 1 3
𝐿𝑜𝑐𝑄1 = 𝑛 + 1 , 𝐿𝑜𝑐𝑄2 = 𝑛 + 1 , 𝐿𝑜𝑐𝑄3 = 𝑛 + 1
4 2 4
unde n este volumul eşantionului.
Indicatori medii de pozitie – CUANTILE

PAS 3:
• Dacă seria este simplă (date nesistematizate) se
identifică valoarea cuartilei în serie pe baza rangului
determinat la pasul 2.
• Dacă datele sunt sistematizate pe variante, atunci
cuartila este prima variantă a cărei frecvenţă
cumulată este superioară rangului cuartilei.
• Dacă datele sunt sistematizate pe intevale de
variaţie, atunci se determină intervalul cuartilic, ca
fiind primul interval a cărui frecvenţă cumulată este
mai mare decât poziţia cuartilei; se trece apoi la
pasul 4.
PAS 4: Se estimează valoarea cuartilei ca fiind
mijlocul intervalului cuartilic determinat.
Indicatori medii de pozitie – CUANTILE
Indicatori medii de pozitie – CUANTILE
Indicatorii de poziţie oferă informaţii pertinente
privind forma distribuţiei, astfel:
▪ de exemplu, dacă prima decilă (decila inferioară)
este mai apropiată (ca valoare) de mediană, în timp
ce decila a noua (decila superioară) este relativ mai
depărtată de mediană, vom concluziona că
distribuţia este pozitiv înclinată către valorile mari
ale variabilei (predomină valorile mici ale
distribuției);
▪ dacă prima şi cea de-a treia cuartilă sunt situate
aproximativ la aceeaşi distanţă de mediană, vom
concluziona că distribuţia variabilei este aproximativ
simetrică.
Indicatori medii de pozitie – CUANTILE
Principalii indicatori medii de poziţie pot rezuma grafic
(diagrama Box-Plot), pe de o parte tendinţa centrală,
variabilitate datelor şi forma distribuţiei variabilei
studiate, iar pe de altă parte valorile extreme şi cele
aberante:
▪ valoarea minimă: 𝐱𝐦𝐢𝐧 (numită şi percentila 0);
▪ cuartila inferioară: 𝑸𝟏 (delimitează cele mai mici
25% din valori);
▪ Mediana: Me (delimitează 50% din valori);
▪ cuartila superioară: 𝑸𝟑 (delimitează cele mai mari
25% din valori);
▪ valoarea maximă: 𝐱𝐦𝐚𝐱 (numită şi percentila 100)
Cele cinci valori se reprezintă grafic prin intermediul
diagramei Box-Plot
Indicatori medii de pozitie – CUANTILE
▪ În cadrul diagramei Box-Plot, cutia este delimitată de
cuartilele Q1 şi Q3 şi cuprinde 50% dintre valorile
variabilei, situate în centrul distribuţiei.
▪ Linia din interiorul cutiei reprezintă valoarea mediană,
iar liniile inferioară, respectiv superioară sunt date de
valorile extreme ale seriei (xmin şi xmax).
▪ Diagrama Boxplot este utilă şi pentru identificarea
valorilor extreme şi a celor aberante (outliers)
Indicatori medii de pozitie – CUANTILE
▪ Valorile extreme ale setului de date sunt fixate la o
limită maximă egală cu 1,5*lungimea cutiei (lungimea
cutiei este Q3-Q1).
▪ Valorile aberante (de tip outlier) sunt considerate toate
observaţiile situate la stânga sau la dreapta valorilor
extreme (dacă este cazul) şi reprezentate în
diagramă.
EAM 2022-2023
STATISTICĂ
Curs 4
Măsuri statistice descriptive pentru serii de
date univariate (I)
Indicatorii tendinţei centrale
1. Noţiuni generale privind indicatorii
tendinţei centrale
Indicatorul statistic reprezintă expresia numerică
concretă sau dimensiunea unei colectivităţi sau
fenomen. Poate fi definit ca „rezultat numeric al unei
numărări, al unei măsuri statistice a fenomenelor şi
proceselor de masă sau al unui model de calcul
statistic pe baza datelor înregistrate”.
Pentru o variabilă numerică, folosind indicatorii
statistici, putem analiza trei proprietăţi majore:

➢ tendinţa centrală

➢ variabilitatea

➢ forma distribuţiei
Precizări

• Idicatorii statistici descriptivi calculaţi pentru o


populatie statistică (N) se numesc parametri şi
se notează, de regulă, cu litere greceşti.
• Indicatorii descriptivi determinaţi pentru un
eşantion (n) se numesc estimatori şi se notează,
de regulă, cu litere romane.
În cercetarea statistică, folosim, în general,
eşantioane şi folosim indicatorii descriptivi în scopul
estimării parametrilor populației statistice.
Vor fi explicaţi, în continuare, indicatorii statistici
descriptivi ce caracterizează eşantioanele precizând
simbolurile şi formulele utilizate în determinarea
parametrilor corespunzători.
Clasificarea indicatorilor statistici:
1. După modul de determinare distingem:
▪ Indicatorii primari – se obţin în etapa de
sistematizare a datelor statistice prin centralizarea
acestora.
▪ Indicatori derivaţi – reprezintă rezultatul prelucrării
indicatorilor primari prin diferite modele de calcul
statistic.
2. După gradul de cuprindere se disting:
▪ Indicatori sintetici care reprezintă expresii numerice
ale categoriilor economice de sinteză ce
caracterizează rezultatele economice la nivel
macroeconomic.
▪ Indicatorii analitici – care exprimă structura unei
colectivităţi şi influenţa factorilor care acţionează
asupra acesteia.
Clasificarea indicatorilor statistici:
3. După forma de exprimare se disting:
▪ Indicatori exprimaţi în mărimi absolute adică în
unităţi concrete de măsură aceleaşi cu ale
caracteristicii analizate şi cu acelaşi conţinut ca şi
caracteristica analizată.
▪ Indicatori exprimaţi sub formă de mărimi relative
adică exprimaţi în coeficienţi, procente, promile,
prodecimile, etc. şi care s-au obţinut prin raportarea a
doi indicatori cu acelaşi conţinut sau cu conţinut
diferit, dar aflaţi în relaţie de interdependenţă.
Măsurarea tendinţei centrale
• Indicatorii tendinţei centrale = indicatori sintetici
cu ajutorul cărora urmărim să exprimăm printr-o
singură valoare ceea este tipic, esenţial, stabil
într-o serie de date numerice.
Deoarece nivelurile individuale, înregistrate pentru fiecare unitate statistică în
parte, se manifestă sub influenţa factorilor esenţiali (sistematici) şi neesenţiali
(întâmplători), în procesul de prelucrare a datelor se impune eliminarea
influenţelor întâmplătoare şi exprimarea, într-o singură valoare numerică, a
aspectelor tipice, reprezentative pentru seria de date.

Indicatorii tendinţei se clasifică, în funcţie de modul


de determinare, în:
▪ indicatori medii de calcul: media aritmetică,
media armonică, media pătratică, media
geometrică;
▪ indicatori medii de poziţie: modul, mediana
Măsurarea tendinţei centrale

Indicatorii fundamentali ai tendinţei centrale


sunt:

▪ media aritmetică (𝑥)ҧ


▪ mediana (𝑀𝑒 )
▪ modul (𝑀𝑂 )

Aceşti indicatori au o putere cu atât mai mare de caracterizare a


tendinţei centrale cu cât se determină pe baza unor date mai
omogene.
2. Media
Cuvântul “medie” este prezent în conversaţiile
persoanelor aproape în fiecare zi, folosindu-se în
expresii ca: “durata medie de viaţă a oamenilor”,
“durata medie de funcţionare a unei baterii”,
“greutatea medie a pachetelor de zahăr”.
Media este o valoare tipică sau centrală a unei
distribuţii.
Diferite tipuri de medii utilizate în analiza seriilor de
distribuţie de frecvenţe :
▪ media aritmetică 𝑥ҧ ;
▪ media armonică 𝑥ҧℎ ;
▪ media pătratică 𝑥ҧ𝑝 ;
▪ media geometrică 𝑥𝑔ҧ
2. Media aritmetică 𝑥ҧ

• este indicatorul cel mai utilizat pentru


caracterizarea tendinţei centrale a datelor
numerice
• reprezintă valoarea care, înlocuind toţi termenii
unei serii, nu modifică suma acestora
• se calculează ca suma valorilor raportată la
numărul lor.
2. Media aritmetică 𝑥ҧ
Media se calculează însumând toate valorile
individuale şi împărţind suma la numărul lor, ea
reprezentând acea valoare care înlocuind toţi termenii
unei serii nu modifică nivelul lor totalizator.
Formula de calcul a mediei este:
• pentru eşantion – estimator:

σ𝑛1 𝑥𝑖
𝑥ҧ =
𝑛
• pentru colectivitatea generală – parametru:

σ𝑁
1 𝑥𝑖
𝑥ҧ =
𝑁
Unde:
• 𝑥𝑖 reprezintă valorile variabilei X.
2. Media aritmetică 𝑥ҧ
☺ Exemplul nr. 1
Pentru 5 sucursale ale unei bănci comerciale au fost
înregistrate valorile creditelor în luna decembrie 2021
şi anume: 250.000 Euro; 300.000 Euro; 150.000 Euro;
200.000 Euro; 250.000 Euro. Care este valoarea
medie a creditelor acordate în luna decembrie 2021?
σ𝑛1 𝑥𝑖
𝑥ҧ = =
𝑛
250.000+300.000+150.000+200.000+250.000
= =
5
=230.000 𝐸𝑢𝑟𝑜Τ𝑠𝑢𝑐𝑢𝑟𝑠𝑎𝑙ă
2. Media aritmetică 𝑥ҧ
Media aritmetică este afectată de orice valoare sau
valori extreme.
☺ Exemplul nr. 2
Datele pentru vechimea în muncă a 10 salariaţi sunt:
5, 4, 5, 5, 6, 6, 4, 6, 5 şi 20, atunci vechimea medie
este:
Media aritmetică este afectată de orice valoare sau
valori extreme.
σ𝑛
1 𝑥𝑖 5+4+5+5+6+6+4+6+5+20 66
𝑥ҧ = = = = 6,6 𝑎𝑛𝑖
𝑛 10 10

σ𝑛
1 𝑥𝑖 5+4+5+5+6+6+4+6+5 46
𝑥ҧ = = = = 5,1 𝑎𝑛𝑖
𝑛 9 9
2. Media aritmetică 𝑥ҧ
Într-o colectivitate statistică se întâlnesc foarte rar
cazuri în care numărul valorilor caracteristicii coincide
cu numărul unităţilor. În general se înregistrează de
mai multe ori aceeaşi valoare a caracteristicii pentru
mai multe unităţi şi în acest caz media se va calcula ca
o medie aritmetică ponderată:
σr1 𝑥𝑖 ∙ 𝑛𝑖
𝑥ҧ =
𝑛𝑖
Unde,
• 𝑥𝑖 , 𝑖 = 1, 𝑟 – reprezintă valorile variabilei 𝑋 sau
centrele intervalelor de variaţie (calculate ca medie
a capetelor de interval);
• 𝑟 – numărul de variante / intervale (grupele);
• σ𝑟1 𝑥𝑖 – valoarea centralizată (nivelul totalizat) al
caracteristicii.
2. Media aritmetică 𝑥ҧ
☺ Exemplul nr. 3
Se cunoaşte distribuţia de frecvenţe a 50 de firme
referitor la valoarea alocată cheltuielilor cu cercetarea-
dezvoltarea (mii lei):
Intervalul de variatie
pentru Centrul de
Grupa Valoarea cheltuită cu Nr firme interval
xi  ni Fci
cercetarea-dezvoltarea
(mii lei) ni xi
1 sub 6,25 4 5,70 22,8 4
2 6,25 - 7,35 12 6,80 81,6 16
3 7,35 - 8,45 14 7,90 110,6 30
4 8,45 - 9,55 7 9,00 63 37
5 9,55 - 10,65 7 10,10 70,7 44
6 10,65 - 11,75 3 11,20 33,6 47
7 11,75 - 12,85 0 12,30 0 47
8 12,85 şi peste 3 13,40 40,2 50
Total 50 - 422,5
2. Media aritmetică 𝑥ҧ

• Pentru a putea calcula media se procedează la


fixarea limitelor inferioară, respectiv superioară
pentru aceste intervale.

• Limitele se determină astfel încât toate intervalele să


aibă aceeaşi mărime, adică 1,10.

• Astfel intervalele 1 și 8 devin:


5,15-6,25 mii lei respectiv 12,85-13,95 mii lei.

σ𝑘
1 𝑥𝑖 ∙𝑛𝑖 422,5
• Media va fi 𝑥ҧ = = = 8,45 mii lei
𝑛𝑖 50
2. Media aritmetică 𝑥ҧ

• Rezultatul arată că valoarea medie cheltuită pentru


reclamă şi publicitate de o firmă din cele 50 luate în
studiu este 8,45 mii lei.

• Unele firme cheltuie o sumă mai mică pentru


cercetare-dezvoltare (sub 6,25 mii lei), iar altele
alocă o valoare mai mare.

• Valoarea alocată diferă de la o firmă la alta sub


acţiunea factorilor sistematici, dar şi întâmplători,
care influenţează într-un sens sau în altul. Dacă toţi
factorii ce influenţează valoarea alocată ar acţiona
în mod egal şi constant asupra tuturor firmelor,
atunci suma alocată de o firmă pentru cercetare-
dezvoltare ar fi de 8,45 mii lei.
2. Media aritmetică 𝑥ҧ - Proprietăți

1. Dacă pentru toate unităţile se înregistrează aceeaşi


valoare a caracteristicii atunci media este egală cu
acea valoare:
𝑥1 = 𝑥2 = … = 𝑥𝑛 = 𝑥
σr1 𝑥𝑖 𝑥⋅𝑛
𝑥ҧ = = = 𝑥;
𝑛 𝑛
2. Media aritmetică are întotdeauna valoare cuprinsă
între valoarea minimă a caracteristicii (𝑥𝑚𝑖𝑛) şi
valoarea maximă (𝑥𝑚𝑎𝑥):
𝑥𝑚𝑖𝑛 ≤ 𝑥ҧ ≤ 𝑥𝑚𝑎𝑥
În cazul seriilor de distribuţie pe intervale, media este
cuprinsă între limita inferioară a primului interval şi
limita superioară a ultimului interval.
2. Media aritmetică 𝑥ҧ - Proprietăți

3. Suma abaterilor valorilor individuale ale


caracteristicii de la media lor este nulă, adică
distanţele faţă de centru se compensează reciproc:
➢ pentru seria simplă:
σn
1 𝑥𝑖
σ𝑛𝑖=1 𝑥 − 𝑥ҧ = σ𝑛𝑖=1 𝑥𝑖 − 𝑛𝑥ҧ = σ𝑛𝑖=1 𝑥𝑖 −𝑛 =0;
𝑛

➢ pentru seria de frecvenţe:


𝑟 𝑟 𝑟

෍ 𝑥 − 𝑥ҧ 𝑛𝑖 = ෍ 𝑥𝑖 𝑛𝑖 − 𝑥ҧ ෍ 𝑛𝑖 =
𝑖=1 𝑖=1 𝑖=1
σ𝑟𝑖=1 𝑥𝑖 𝑛𝑖
= σ𝑟𝑖=1 𝑥𝑖 𝑛𝑖 − σ𝑟𝑖=1 𝑛𝑖 =0;
σ𝑟𝑖=1 𝑛𝑖

4. În cazul seriilor de frecvenţă, media oscilează în


jurul termenului căruia îi corespunde frecvenţa
maximă;
2. Media aritmetică 𝑥ҧ - Proprietăți

5. Dacă toţi termenii unei serii statistice se măresc


sau se micşorează cu o constantă “a”, atunci şi
media se va mări sau se va micşora cu respectiva
constantă “a”:
𝑥ҧ ′ = 𝑥ҧ ± 𝑎

6. Dacă toţi termenii unei serii statistice se înmulţesc


sau se împart cu o constantă “h”, atunci şi media se
va multiplica sau se va reduce de “h” ori:
𝑥ҧ ′ = 𝑥ҧ ∙ ℎ

7. Dacă frecvenţele unei serii de repartiţie se


multiplică sau se împart cu o constantă “a”, atunci
media nu se va modifica.
2. Media aritmetică 𝑥ҧ - Proprietăți

8. Media aritmetică este sensibilă la valorile extreme,


care pot afecta semnificaţia şi reprezentativitatea
mediei ca valoare centrală. Pentru ca media să fie
reprezentativă trebuie ca datele din care se
calculează să fie cât mai omogene;

9. Dacă o serie statistică este alcătuită din m serii


componente pentru care s-au calculat mediile
parțiale (𝑥𝑗ҧ ), 𝑗 = 1, 𝑚, atunci media întregii serii
poate fi calculată ca o medie aritmetică ponderată
din mediile parțiale:
σmj=1 𝑥𝑗ҧ 𝑛j
𝑥𝑗ҧ = m
σj=1 𝑛𝑗
Unde nj = volumul seriei componente j (𝑗 = 1, 𝑚).
3. Mediana
• Mediana face parte din categoria cuantilelor alături
de quartile, decile.
• Mediana reprezintă acea valoare a unei serii
ordonate crescător sau descrescător care
împarte seria în două părţi egale, aşa încât 50%
din termenii seriei au valori mai mici decât
mediana, iar 50% mai mari decât mediana.
• Un avantaj al medianei faţă de medie este acela că
poate fi utilizată în caracterizarea tendinţei centrale
pentru o serie de date măsurate pe o scară
ordinală.
• Mediana ia în consideraţie doar poziţia observaţiilor
în serie, nu şi mărimea lor efectivă (nu este afectată
de prezenţa valorilor extreme).
• Mediana se poate determina pe cale grafică. Ea
reprezintă proiecţia pe axa absciselor a punctului de
intersecţie dintre cele două curbe ale frecvenţelor
cumulate (crescător şi descrescător).
3. Mediana
• Pentru a determina mediana se introduce noţiunea
de ranguri, adică numere de ordine asociate
observaţiilor, de la cea mai mică (cu rangul 1), până
la cea mai mare (rangul 𝑛)
• Rangul (locul) medianei va fi, atunci, (𝑛 + 1)/2,
deci rangul unităţii din mijlocul seriei.
• Dacă seria are un număr par de termeni atunci
mediana se calculează ca media aritmetică a celor
doi termeni situaţi în mijlocul seriei ordonate.
• Dacă seria are un număr impar de termeni atunci
mediana reprezintă termenul din mijlocul seriei
ordonate.
☺ Exemplul nr. 4
Pentru o serie numerică de forma
30, 32, 40, 35, 32, 37, 34, 32, 35, 41,
mediana se determină astfel:
• ordonăm crescător valorile seriei:
30, 32, 32, 32, 34, 35, 35, 37, 40, 41
𝑛+1 11
• calculăm locul medianei: 𝐿𝑜𝑐𝑀𝑒 = = = 5,5
2 2
• mediana este valoarea cuprinsă între al 5-lea şi al
6-lea termen al seriei ordonate şi se calculează ca
fiind media aritmetică a celor doi termeni aflaţi în
centrul distribuţiei:

Astfel, jumătate dintre valorile seriei sunt mai mici


decât valoarea 34,5.
☺ Exemplul nr. 5
Pentru 10 şobolani care încearcă să iasă dintr-un
labirint se cunosc următorii timpi de parcurgere: 9
şobolani au parcurs labirintul în mai puţin de 15
minute, în timp ce un şobolan a reuşit să parcurgă
labirintul după 24 de ore.
Pentru a calcula timpul mediu în care un şobolan
parcurge labirintul valoarea reprezentativă este
mediana sau media?
De ce?

Valoarea medianei este invariabilă faţă de convenţia


cu care se închid intervalele extreme, spre deosebire
de medie care este influenţată atât de valori cât şi de
frecvenţa lor.
Calculul medianei:
▪ pentru o serie simplă (pentru date negrupate):
• seria are un număr impar de termeni – atunci
mediana este egală cu termenul central al seriei
ordonate crescător sau descrescător.
Se cunoaşte următorul set de valori ale unei
caracteristici:
5 7 4 9 12 3 10

Ordonăm seria crescător:


3 4 5 7 9 10 12
Me
𝑛+1 8
𝐿𝑜𝑐𝑀𝑒 = = = 4 ⇒ 𝑀𝑒 = 7
2 2
Pentru date ordinale mediana este varianta situată în
centrul seriei.
• seria are un număr par de termeni, atunci mediana
este egală cu media aritmetică simplă a celor 2
termeni centrali ai seriei ordonate crescător sau
descrescător.

Fie următorul set de valori: 3, 1, 5, 7, 9, 4 (𝑥𝑖 )

𝑥𝑖 (valori ordonate): 1 3 4 5 7 9
Rangul valorii 𝑥𝑖 : 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6

6+1 7 𝑥3 + 𝑥4 9
𝐿𝑜𝑐𝑀𝑒 = = = 3,5 ⇒ 𝑀𝑒 = = = 4,5
2 2 2 2
• pentru o serie de distribuţie de frecvenţe pe
variante calculul medianei comportă următoarele
etape:

▪ se determină locul medianei în cadrul seriei:


𝐫
𝟏 𝐧+𝟏
𝐋 𝐌𝐞 = ෍ 𝐧𝐢 + 𝟏 =
𝟐 𝟐
𝐢=𝟏

▪ se cumulează crescător frecvenţele absolute


(𝑭𝒄𝒊) şi se determină acea frecvenţă cumulată
crescător care este imediat mai mare sau egală
cu locul medianei (LMe). Varianta care
corespunde frecvenţei absolute cumulate ce
îndeplineşte condiţia de mai sus este mediana.
☺ Exemplul nr. 6
80 de apartamente dintr-un bloc au fost sistematizate
după numărul de camere rezultând următoarea
distribuţie de frecvenţe:

Nr. Camere Nr. Apartamente ni cumulat


(xi) (ni) crescător
1 13 13
2 25 38
3 28 66
4 14 80
Total 80
r
1 𝑛 81
𝐿𝑀𝑒 = ෍ 𝑛𝑖 + 1 = = = 40,5 < 66 ⇒
2 2 2
𝑖=1
𝑀𝑒 = 3 camere  50% dintre apartamente au mai
puţin de 3 camere, iar 50% mai mult de 3 camere.
• Pentru o repartiţie de frecvenţe pe intervale de
variaţie, mediana se va încadra în intervalul
median
• Intervalul median este primul interval cu frecvenţa
cumulată mai mare decât locul (rangul, poziţia)
medianei.
• Mediana se va estima prin interpolare pe intervalul
median pe baza formulei:
1
σ𝑟𝑖=1 𝑛𝑖 +1 −𝐹𝐶(𝑀𝑒−1)
2
𝑀𝑒 = 𝑥𝑖𝑛𝑓 𝑀𝑒 + ℎ𝑀𝑒
𝑛𝑀𝑒
unde:
• 𝑥𝑖𝑛𝑓 𝑀𝑒 - limita inferioară a intervalului median;
• ℎ𝑀𝑒 - mărimea intervalului median;
1 𝑛+1
• σ𝑟𝑖=1 𝑛𝑖 + 1 = - locul medianei în serie;
2 2
• FC(Me-1) - frecvenţa cumulată a intervalului anterior celui median;
• nMe - frecvenţa absolută a intervalului median.

Obs. MEDIANA POATE FI ESTIMATĂ CA FIIND


CENTRUL INTERVALULUI MEDIAN
☺ Exemplul nr. 7
Repartiţia sucursalelor unei bănci comerciale în funcţie
de volumul depozitelor bancare atrase într-o lună este:
Volum depozite
Nr. ni cumulat
bancare
Bănci (ni) crescător
(mii euro) (xi)
20 – 40 12 12
40 – 60 14 26
60 – 80 20 46
80 – 100 18 64
100 - 120 16 80
Total 80 -
1 81
• 𝐿𝑀𝑒 = σ5𝑖=1 𝑛𝑖
+ 1 = = 40,5 < 46 ⇒
2 2
• Intervalul median: 𝑀𝑒 ∈ 60,80
• Mijlocul intervalului: 70
• Me = 70 mii euro
• Jumătate dintre sucursale au atras depozite în
valoare mai mare de 70 mii euro.
Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
Se parcurg următorii paşi:

▪ calcularea frecvenţelor cumulate crescător, (Fci);

▪ determinarea locului medianei cu formula (𝑛 + 1)/2;

▪ determinarea Me ca fiind valoarea (varianta)


corespunzătoare primei frecvenţe cumulate mai mare
decât (𝑛 + 1)/2.
☺ Exemplul nr. 8
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism,
în anul 2021, mediana se determină astfel:
Frecvenţe
Locul Nr. sportivi
cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
130
𝐿𝑜𝑐𝑀𝑒 = = 65, iar valoarea mediană este locul II,
2
ceea ce înseamnă că jumătate dintre cei 129 de sportivi
situaţi în primele şase locuri la competiţiile internaţionale,
au ocupat locurile I şi II, sau, astfel spus, jumătate dintre
cei 129 de sportivi s-au clasat pe locurile III, IV, V şi VI.
5. Modulul
Modul (Mo, mode în engl.) reprezintă valoarea cel mai
des întâlnită într-o serie de date (valoarea care are
cea mai mare frecvenţă de apariţie).
• Valoarea modală se poate determina pentru orice tip de
variabilă (nenumerică sau numerică), indiferent de scala de
măsurare.
• Modul este singurul indicator ce poate fi determinat pentru
variabilele măsurate pe scala nominală.
• Grafic, într-o histogramă ori poligon al frecvenţelor, modul
reprezintă valoarea de pe abscisă, corespunzătoare vârfului
reprezentării.
• O serie de date statistice poate să aibă una sau mai multe
valori modale.
• Modul are unitatea de măsură a variabilei studiate.
• În cazul datelor sistematizate sub forma seriilor de distribuţie
de frecvenţe, modul este varianta/valoarea variabilei cu
frecvenţa cea mai mare de apariţie.
Modul este cel mai potrivit indicator pentru caracterizarea
tendinţei centrale în cazul în care ne interesează categoria cea
mai importantă (reprezentată cel mai mult în setul de date).
5. Modulul
O distribuţie cu un singur mod se numeşte unimodală
(a), o distribuţie este bimodală (b) dacă are două
valori dominante şi multimodală (c) dacă are mai mult
de două valori modale.
ni
ni
a) b)

xi
xi
Mo Mo1 Mo2

ni
c)

xi
Mo1 Mo2 Mo3
5. Modulul
Determinarea modului pentru o variabilă nenumerică:
☺ Exemplul nr. 9
Distribuţia celor 130 de salariaţi ai unei firme în funcţie de
nivelul ultimelor studii absolvite este:

Nivelul Număr 50
Distribuția salariaților în funcție de nivelul studiilor
46
studiilor salariaţi 45
40
Gimnaziale 7 35 33

Număr salaiați
Liceale 25 30
25
25
Postliceale 33 20
19

Universitare 46 15
10 7

Postuniversitare 19 5
0

Total 130
Nivel studii

Mo=„universitare”
5. Modulul
Determinarea modului pentru o variabilă
numerică

a) Serie simplă (date nesistematizate)


Pentru o serie numerică de forma
30, 32, 40, 35, 32, 37, 34, 32, 35, 41
Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.
Dacă toate valorile apar cu aceeaşi frecvenţă spunem că seria nu are
mod.

b) Serie de distribuţie de frecvenţe (date


sistematizate)
Dacă datele sunt sistematizate pe intervale de variaţie
modul se determină, prin interpolare astfel:
5. Modulul
▪ Se identifică intervalul modal (intervalul cu frecvenţa
maximă)
▪ Se calculează modul, prin relaţia:
Δ1
𝑀𝑜 = 𝑥0 + ℎ
Δ1 +Δ2

Unde:
• x0 = limita inferioară a intervalului modal;
• h = mărimea intervalului modal;
• 1 = diferenţa dintre frecvenţa intervalului modal şi a
celui anterior;
• 2 = diferenţa dintre frecvenţa intervalului modal şi a
celui următor.
• Intervalul modal este intervalul căruia îi corespunde
frecvenţa absolută maximă.
Obs. MODUL POATE FI ESTIMAT CA FIIND
CENTRUL INTERVALULUI MODAL
☺ Exemplul nr. 10
80 de apartamente dintr-un bloc au fost
sistematizate după numărul de camere rezultând
următoarea distribuţie de frecvenţe:
Nr. camere (xi) Nr. apartamente(ni)
1 13
2 25
Mo=3 28
4 14

Mo = 3 camere deoarece variantei 3 îi corespunde


frecvenţa absolută maximă.
Cele mai multe apartamente au trei camere.
EAM 2022-2023
STATISTICĂ
curs 2
COLECTAREA DATELOR
1. Scale de măsurare a datelor statistice
Pentru ca datele statistice să poată fi supuse
prelucrării prin metode statistice, ele trebuie
măsurate, adică exprimate cantitativ, cu ajutorul
numerelor.
Măsurarea este operaţia prin care fiecărei observaţii,
fiecărui aspect cantitativ sau calitativ al unităţilor
statistice (obiectelor, evenimentelor etc.) li se atribuie
în mod sistematic numere.
Modalitatea prin care se atribuie această valoare
numerică, precum şi semnificaţia ei depinde de
nivelul de măsurare. Fiecărui nivel de măsurare îi
corespunde o anumită scală de măsurare.
!!!!! Toate operaţiile matematice permise pentru o
anumită scală sunt valabile şi pentru toate scalele
inferioare ei, dar nu şi pentru cele următoare.
a. Scala nominală
Este scala cu cel mai scăzut nivel al preciziei,
utilizată pentru a atribui variantelor caracteristicii
măsurate „însuşiri”, cu scopul de a stabili diferenţe
calitative între observaţii.

Rolul scalei nominale: de a încadra unităţile


statistice în grupe/clase/categorii diferite, după un
anumit criteriu, fără a indica dacă o categorie este
mai bună sau mai puţin bună decât alta, dacă o
categorie este mai largă sau mai restrânsă decât
alta.
Operaţii admise pe scala nominală: singurele
relaţii matematice permise pe scala nominală sunt
echivalenţa şi non-echivalenţa. Astfel, o unitate
statistică poate avea caracteristica definitorie pentru
o anumită clasă (=) sau nu (≠). Putem spune, de
exemplu, „masculin” (≠) „feminin”, dar nu şi
„masculin” > „feminin”.
☺ Exemplul nr. 1
Clasificarea persoanelor intervievate în cadrul unui
studiu statistic, după statutul civil
(căsătorit/necăsătorit), după gen (masculin/feminin),
după profesie (inginer/economist/arhitect/avocat
etc.).

☺ Exemplul nr. 2
Pentru uşurarea procesului de prelucrare a datelor,
variantele/categoriile nominative se pot codifica
numeric, sub forma: (0 = masculin, 1 = feminin); (1
= inginer, 2 = economist, 3 = arhitect etc.). Aceste
numere nu sunt purtătoare ale vreunei informaţii
cantitative, ci doar separă subiecţii în
clase/categorii distincte din punctul de vedere al
statutului civil, al sexului, al profesiei etc. Cu aceste
coduri numerice nu se pot determina medii sau alţi
indicatori statistici, nu se pot efectua comparaţii.
Putem însă să determinăm frecvenţele de apariţie
ale ficărei categorii.
b. Scala ordinală (categorială)

Oferă un plus de precizie în „măsurare”, faţă de


scala nominală, deoarece ea nu numai că împarte
unităţile colectivităţii studiate în clase/grupe
omogene diferite, din punct de vedere al unei
caracteristici, ci permite şi stabilirea unei relaţii de
ordine între aceste clase/grupe.

☺ Exemplul nr. 3
Nu putem afirma cu câte grade Celsius diferă
temperatura „scăzută” de cea „normală”, sau cu
câte kilograme este mai grea o persoană din
categoria „peste greutatea normală” decât una din
categoria „cu greutatea normală”.
c. Scala de raport (proporţională)

Caracteristici:

▪ se aplică variabilelor numerice, având cel mai înalt


nivel de precizie;

▪ două valori, măsurate pe această scală se află,


indiferent de unitatea de măsură folosită, în acelaşi
raport una faţă de alta;

▪ pe această scală sunt permise şi operaţiile de


multiplicare şi de divizare;

▪ punctul de origine (zero) este unul fix, rigid, este


zero absolut, matematic şi reprezintă absenţa
caracteristicii;

▪ unitatea de măsură poate fi aleasă arbitrar.


☺ Exemplul nr. 7
Dacă un agent economic are 20 de angajaţi şi un
altul are 10 angajaţi, putem afirma că primul are de
2 ori mai mulţi angajaţi decât cel de-al doilea, sau
dacă o persoană cântăreşte 90 de kg. şi o alta doar
30 de kg., se poate spune că a doua persoană
cântăreşte de 3 ori mai puţin decât prima
persoană.

☺ Exemplul nr. 8
Deşi pe scala de raport valoarea zero a unei
variabile înseamnă „absenţă”, nu este necesar ca
această valoare să se fi înregistrat, în practică, la
una din unităţile statistice. De exemplu, vârsta se
măsoară cu scala de raport, deşi nu există nici o
persoană care să aibă 0 ani (adică 0 ani, 0 luni, 0
zile etc.). Timpul după care participanţii la un
concurs de atletism parcurg distanţa de 400 m se
măsoară pe scala de raport, deşi nu există nici o
persoană care să străbată această distanţă în 0,00
minute.
1. Scale de măsurare a datelor statistice

DENUMIREA SCALEI CARACTERISTICI ALE SCALEI EXEMPLE DE UTILIZARE

Sex, stare civilă, stagiul


NOMINALĂ Absenţa relaţiei de ordine militar, profesia, culoarea
părului,

Calificative pentru activitatea


şcolară, ordinea sosirii
ORDINALĂ Relaţie de ordine alergătorilor dintr-o cursă,
preferinţele consumatorilor
pentru un produs,

Relaţie de ordine
Diferenţe (intervale)
semnificative Vârsta, greutatea corporală,
RAPORT
Origine fixă, valoarea 0 salariul, profitul, cifra de
(PROPORŢIONALĂ)
înseamnă absenţă afaceri, număr de angajaţi
Operaţii de multiplicare /
divizare
TEST 1
1. Precizaţi care din următoarele asocieri între
variabilele statistice şi scalele de măsurare nu este
adevărată:
a) marca de calculator cumpărat cel mai de curând de
către 20 de oameni de afaceri – scală nominală.
b) salariul mediu pe ramuri ale economiei naţionale –
scală de raport.
c) luna din anul 2000 în care 41 de firme selectate
aleator au realizat cele mai mari vânzări – scală
nominală.
d) punctajul obţinut de către 10 concurenţi la un
concurs de cultură generală – scală nominală.
e) afilierea la un partid politic a 50 de directori
executivi selectaţi aleator – scală nominală.
TEST 1
2. O companie de produse alimentare doreşte să
comercializeze un nou produs de snack-food. Pentru a
vedea cum reacţionează cumpărătorii la acest produs,
compania organizează o testare a gusturilor pentru
100 de cumpărători selectaţi întâmplător la un
magazin suburban. Cumpărătorii sunt rugaţi să guste
produsul şi apoi să completeze un chestionar cu
următoarele întrebări:

a) Care este vârsta dumneavoastră?


b) Sunteţi persoana care face de obicei cumpărături
pentru familia dumneavoastră?
c) Câte persoane sunt în familia dumneavoastră?
TEST 1

d) Cum notaţi, pe o scală de la 1 la 10, gustul


produsului, dacă 1 este cel mai puţin gustos?
e) Veţi cumpăra acest produs dacă va fi disponibil în
magazine?
f) Dacă răspunsul la e) este “Da”, cât de des veţi
cumpăra produsul?

Clasificaţi datele oferite de răspunsuri în cantitative şi


calitative şi indicaţi scala de măsurare pentru fiecare
dintre ele.
TEST 1
3. Ordinea în care sosesc alergătorii dintr-o cursă
reprezintă o variabilă statistică ale cărei valori pot fi
măsurate pe o scală:

a) nominală;
b) ordinală
c) raport.
2. Surse de date statistice
În scopul aplicării metodelor statistice de analiză a
fenomenelor și proceselor social-economice este
necesar să avem la dispoziție date statistice. Datele
necesare se pot obţine din diferite surse:
▪ din investigaţii statistice special organizate, atunci
când datele nu există iniţial sub forma necesară –
acestea sunt datele primare (de exemplu prin
recensământ statistic sau sondaj statistic);
▪ din sistemul informaţional existent (de exemplu: din
evidenţele curente ale agenţilor economici, bănci şi
baze de date pe suport de hârtie sau electronic al
unor instituţii ale administraţiei centrale şi locale etc.)
şi se numesc date secundare.
Clasificarea datelor statistice

I. În funcţie de numărul de variabile:


▪ Date univariate – caracterizate de o singură
variabilă statistică, înregistrându-se o singură
valoare pentru fiecare unitate statistică;
▪ Datele bivariate – caracterizate prin intermediul
a două variabile statistice înregistrându-se câte
două valori pentru fiecare unitate statistică;
• Datele multivariate – se referă la trei sau mai
multe variabile statistice, obţinând aşadar câte
trei sau mai multe valori pentru fiecare unitate
statistică.
Clasificarea datelor statistice

II. În funcţie de dimensiunea temporală:


▪ Date transversale (de tip profil, secvenţă sau secţiune)
ce reprezintă rezultatul unor măsurători efectuate la un
anumit moment dat de timp asupra uneia sau mai
multor variabile de interes pentru populaţia studiată.
▪ Date longitudinale (de tip serii de timp sau serii
cronologice) ce reprezintă rezultate ale unor măsurători
efectuate asupra caracteristicilor unităţilor populaţiei
studiate, la momente succesive sau la anumite intervale
de timp;
▪ Date de tip panel – combinaţii ale datelor de tip profil şi
serii de timp şi reprezintă rezultate ale măsurătorilor
efectuate asupra caracteristicilor unităţilor statistice
dintr-un panel (eşantion fix), la anumite momente
succesive de timp.
2. Surse de date statistice
☺ Exemplul nr. 9
Spre exemplu, Direcţia Generală de Statistică
Regională Bucureşti a publicat, în septembrie 2012,
în Buletinul statistic pentru trimestrul II al anului
2012, mişcarea naturală a populaţiei oraşului în
semestrul I al anului 2012, veniturile personalului
salariat, numărul şomerilor la 30 iunie 2012,
producţia principalelor produse industriale fabricate
în Municipiul Bucureşti, dinamica cifrei de afaceri
pentru întreprinderile cu activitate principală de
comerţ cu amănuntul şi servicii de piaţă etc.
Toate aceste informaţii publicate se constituie în
surse secundare de date statistice.
3. Observarea statistică: conţinut,
necesitate, obiective.

Observarea datelor primare presupune parcurgerea


etapei de observare statistică. Orice proces de
investigaţie statistică începe cu observarea
statistică, modul în care este ea organizată şi
realizată influenţează, în continuare celelalte etape
ale procesului de cercetare statistică, deoarece
obţinerea unor date autentice, reale, exacte
determină calitatea etapelor de prelucrare, analiză şi
intepretare a rezultatelor.

Observarea statistică este prima etapă a


investigaţiei statistice, care constă în culegerea şi
înregistrarea în mod sistematic şi unitar a datelor
statistice, de la unităţile colectivităţii, referitoare la
toate caracteristicile include în programul cercetării.
3. Observarea statistică: conţinut,
necesitate, obiective.
Observarea trebuie fie corespunzătoare sub aspect
cantitativ şi calitativ.
▪ îndeplinirea condiţiei de cantitate (de volum)
înseamnă obţinerea în timpul prestabilit a întregului
volum de date necesar pentru atingerea tuturor
obiectivelor investigaţiei statistice;
▪ îndeplinirea condiţiei de calitate presupune
asigurarea autenticităţii, a caracterului real al
datelor, astfel încât rezultatele obţinute prin
prelucrarea acestor date să fie cât mai exacte şi să
ducă la adoptarea unor decizii cât mai pertinente.
În cazul în care pentru obţinerea datelor statistice
este necesară organizarea unei investigaţii statistice,
atunci ea trebuie făcută în conformitate cu un anumit
plan, pentru a ne asigura că obţinem, cu un minim de
resurse materiale şi financiare, rezultate cât mai
exacte şi mai pertinente.
4. Planul observării statistice
Planul sau Programul observării (în accepţiune mai
largă) cuprinde următoarele elemente:
▪ scopul observării;
▪ colectivitatea observată;
▪ unitatea de observare;
▪ timpul şi locul observării;
▪ lista caracteristicilor urmărite;
▪ formularele de înregistrare a datelor;
▪ măsuri organizatorice.
Programul observării, într-o accepţiune restrânsă,
cuprinde doar o listă a tuturor caracteristicilor ce vor fi
înregistrate, a indicatorilor necesari etc.
5. Metode de observare statistică -
clasificare
I. după frecvenţa înregistrării în timp a datelor
despre fenomenele şi procesele economico-sociale:
▪ observări curente;
▪ observări periodice;
▪ observări ocazionale.
II. după gradul de cuprindere a populaţiei de
observare delimitate:
▪ observări totale;
▪ observări parţiale;
III. după modul de obţinere a datelor:
▪ observări primare (directe);
▪ observări secundare (indirecte);
5.1 Recensământul statistic
Recensământul statistic, este o metodă de
observare totală, periodică, prin care un fenomen
este surprins în mod static, înregistrându-se valorile
caracteristicilor din programul observării referitoare la
un moment de referinţă numit „moment critic”, de la
toate unităţile populaţiei statistice.

5.2 Sondajul statistic


Sondajul statistic (selecţia statistică) este o metodă
de observare parţială, special organizată, una din
cele mai des utilizate metode de observare statistice
moderne, deoarece realizează o economie de
resurse materiale, financiare şi umane, înlocuind o
observare totală, de mare extindere, mai dificil de
organizat şi efectuat, cu cheltuieli considerabile.

5.3 Ancheta statistică


Ancheta statistică este o metodă de observare
parţială, cu caracter mai mult ocazional.
5.4 Panelul
Panelul este o metodă de observare parţială, realizată
pe baza unui eşantion fix, stabil, format din aceleaşi
unităţi care răspund la aceleaşi întrebări, la mai multe
momente succesive, diferite de timp (tehnica
longitudinală). În acest fel cercetarea se concentrează
pe identificarea, pe determinarea modificărilor
survenite de-a lungul timpului asupra fenomenului
studiat.

5.5 Monografia

Este o metodă de observare parţială, special


organizată, care presupune caracterizarea detaliată,
sub multiple aspecte, ale unei singure unităţi statistice
complexe (se elaborează monografia unui unei
întreprinderi, a unui judeţ, a unei localităţi etc.).
6. Erori de observare
Deoarece statistica operează cu seturi mari de date,
este posibilă apariţia, după fiecare etapă a procesului
de investigaţie statistică, a unor erori. Putem întâlni,
aşadar, erori de observare (de înregistrare), erori de
prelucrare, erori de analiză şi de interpretare.
În accepţiune largă, eroarea statistică reprezintă
diferenţa dintre nivelul real al unui indicator şi nivelul
obţinut în urma procesului de investigaţie statistică.
Clasificarea erorilor:
1. Erori de observare statistică
2. Erori de prelucrare
3. Erori de reprezentativitate
4. Erori de modelare
Erori de observare
Erori sistematice
▪ rezultă din acţiunea unui factor ce determină devierea
variabilei studiate întotdeauna în acelaşi sens;
▪ surse de astfel de erori: încălcarea regulilor de
delimitare a colectivităţii, a unităţii statistice, de
construire a chestionarelor, de selecţie a eşantionului;
▪ distorsiunile pot fi introduse de răspunsuri
incorecte ale persoanelor anchetate din motive
psihologice, economice etc.
Erori întâmplătoare
▪ se produc în ambele sensuri şi diferă ca mărime;
▪ influenţele lor se compenseză reciproc pe total şi nu
afectează rezultatele;
▪ sunt generate de cauze obiective şi nu pot fi evitate ci
doar minimizate.
Erori grosiere
▪ sunt cauzate de lipsa de experienţă, incompetenţă etc.
▪ trebuie depistate şi eliminate.
Concluzii

• Orice măsurare statistică implică erori


• Ceea ce interesează este ordinul de mărime al
erorii pentru a se cunoaşte între ce limite de
acceptabilitate se găseşte afirmaţia unei
investigaţii statistice
• Erorile generate în procesul de observare
statistică pot fi determinate
TEST 2
1. Erorile de înregistrare sistematice sunt acelea care:

a) se produc în urma unor accidente;


b) determină, de regulă, abateri în ambele în ambele
sensuri faţă de valorile reale ale fenomenului;
c) determină, de regulă, abateri într-un singur sens
faţă de valorile reale;
d) pot apărea datorită neînţelegerii şi neaplicării
corecte a instrucţiunilor datorită comodităţii sau relei-
credinţe;
e) nu pot fi înlăturate prin control statistic.
EAM 2022-2023
STATISTICĂ
curs 1
INTRODUCERE
Să facem cunoștință cu ... STATISTICA

• Prezentarea disciplinei. Adresabilitate.


Competențe dobândite de studenți

• Structura notei finale;

• Structura cursului;

• Bibliografia cursului;
Modul de evaluare
• Examen,5 puncte credit

• 30% evaluare pe parcurs

• teste, teme, activitate la seminar

• 70% examen
Bibliografie

• Manea D., Statistică aplicată, Meteor Press,


București, 2016

• Manea D., Statistică. Teorie și aplicații, ASE,


București, 2013

• Țițan E., Statistică. Teorie și aplicații în sectorul


terțiar, Meteor Press, București, 2012

• Voineagu V., Țițan E., Ghiță S., Boboc C., Todose D.,
Statistica. Baze teoretice și aplicații, Economică,
București, 2007
Ce este statistica?

• Pronunțarea cuvântului „statistică” vă face să vă


gândiți la: rata șomajului, sondaje, studii de piață
sau este o disciplină de studiu la facultate și nimic
mai mult?
• Statistica este o știință utilă cu aplicabilitate
pentru mediul de afaceri (la nivel microeconomic),
guvern (la nivel macroeconomic), științele sociale
etc.
• Statistica „minte” doar când nu este aplicată
corect.
Ce este statistica?

• Statistica formează gândirea critică, fie că sunteți


în sala de curs, la locul de muncă, fie în viața de
zi cu zi , așadar timpul petrecut studiind această
disciplină va fi răsplătit în multe feluri
• Statistica nu poate fi evitată deoarece se
regăsește la orice nivel și stă la baza oricărei
decizii
• Statistica este știința care se ocupă cu obținerea,
clasificarea/sistematizarea, analiza și
interpretarea datelor în scopul obținerii
informațiilor necesare într-un proces decizional
Ce este statistica?

• Statisticianul nu este o persoană care


centralizează date statistice sub forma de tabele
si grafice sau calculează medii

• Statisticianul profesionist colectează, obține


date (numerice și nenumerice), le analizează și
formulează concluzii adecvate, stabilind care sunt
informațiile relevante pentru o anumită situație și
dacă concluziile obținute sunt de încredere sau
nu.
1. Obiectivele unităţii de învăţare

• Cu un secol în urmă, H.G.Wells afirma că


„modul de gândire statistic va deveni, într-o zi,
la fel de necesar precum abilitatea de a citi ori
de a scrie”.
2. De ce trebuie să cunoştem statistica?
• Statistica este un „numitor comun” al tuturor
ştiinţelor, un limbaj comun al acestora, este,
deopotrivă, un set de instrumente ce poate fi
aplicat în toate domeniile cercetării, dar şi „arta”
de mânuire corectă a acestor instrumente.

• Statistica reprezintă ştiinţa colectării datelor, a


prezentării lor într-o formă sistematică, a
analizării acestora şi a interpretării informaţiilor
numerice obţinute.

• Rolul ei nu este, aşadar, acela de a emite


decizii, ci de a orienta decidentul pe o bază
fundamentată asupra deciziei optime pe care o
va adopta.
2. De ce trebuie să cunoştem
statistica?
▪ Etimologia cuvântului „statistică” este de
origine latină, de la termenul „status”, ce
desemnează o stare, o situaţie, un fapt.
▪ Astăzi, statistica reprezintă un ansamblu de
principii şi metode cu ajutorul cărora putem
obţine informaţii utile despre un set de date.

▪ Domeniul statisticii poate fi subdivizat în două


arii:
• statistica descriptivă;
• statistica inferenţială.
☺ Exemplul nr. 1

Metodele statisticii descriptive pot ajuta managerul


unei reţele de magazine de produse electrocasnice
să compare vânzările săptămânale din ultimul an în
două puncte de vânzare diferite, astfel:
▪ sunt sintetizate vânzările săptămânale (eventual
grupate pe tipuri de produse electrocasnice) în
câteva niveluri numerice:
• nivelul mediu al vânzărilor săptămânale,
• gradul de variaţie al vânzărilor faţă de media lor.
Tabelele şi graficele ajută la prezentarea mai facilă,
mai clară şi mai uşor de reţinut a informaţiilor
obţinute, astfel încât să poată fi repede identificate
diferenţele esenţiale între vânzările celor două
puncte de vânzare
3. Obiect şi metodă în statistică

▪ Statistica studiază fenomenele şi procesele


care prezintă următoarele particularităţi:

• se întâlnesc la un număr mare de unităţi;

• variază ca nivel de la o unitate la alta;

• sunt definite, circumscrise în timp, în spaţiu şi


ca structură organizatorică (adică sunt entităţi
distincte circumscrise în timp, spaţiu şi
organizatoric);

• Aceste fenomene se numesc fenomene


de masă şi constituie obiectul de studiu al
statisticii.
3. Obiect şi metodă în statistică
• Fenomenele studiate de statistică (fenomene
stochastice sau statistice) sunt fenomene
nedeterministe, influenţate, de regulă, de un
număr mare de factori cu acţiune sistematică sau
aleatoare, esenţială sau neesenţială, cu acţiune
într-un acelaşi sens sau în sensuri diferite.
• În antiteză cu fenomenele stochastice, există
fenomene deterministe, univoc determinate, care
apar sub influenţa unui număr restrâns de cauze
şi care se manifestă cu aceeaşi valoare/nivel,
dacă şi cauzele care le-au generat sunt aceleaşi.

• Metoda statisticii este constituită din „totalitatea


operaţiilor, tehnicilor, procedeelor şi metodelor
de investigare statistică a fenomenelor ce aparţin
unor procese de tip stochastic”.
4. Concepte de bază utilizate în statistică
a. Populaţia statistică (colectivitatea statistică)
Reprezintă totalitatea elementelor de acelaşi fel, cu
trăsături observabile comune, studiate atunci când
vrem să iniţiem un demers statistic.

☺ Exemplul nr. 2
Populaţia tuturor absolvenţilor unei instituţii de
învăţământ superior economic este infinită,
deoarece ea poate include absolvenţii din trecut,
prezent şi viitor; dacă facem însă nişte precizări,
nişte delimitări, circumscrieri în timp, în spaţiu şi ca
organizare, populaţiile infinite pot căpăta caracter
finit (populaţia absolvenţilor din București, din anul
universitar 2021-2022, de la Facultatea de
Economie Agroalimentară și a Mediului - ASE).
Eşantionul reprezintă un subset de elemente
selectate dintr-o colectivitate statistică.
4. Concepte de bază utilizate în statistică

b. Unitatea statistică
Este elementul, entitatea de sine stătătoare a unei
populaţii statistice, care posedă o serie de trăsături
caracteristice ce-i conferă apartenenţa la populaţia
studiată.

c. Variabila statistică (caracteristică statistică)


Reprezintă o însuşire, o proprietate măsurabilă a
unei unităţi statistice, întâlnită la toate unităţile care
aparţin aceleiaşi colectivităţi şi care prezintă
variabilitate (variază ca nivel) de la o unitate
statistică la alta.
4. Concepte de bază utilizate în statistică
Variabilele statistice sunt de numeroase tipuri, putând
fi clasificate după următoarele criterii:
I. după dimensiunea în care sunt definite, avem:
• de timp;
• de spaţiu;
• atributive.
II. după natura variabilelor şi modul lor de exprimare,
avem:
• variabile cantitative sau numerice;
• variabile calitative sau nenumerice.

III. după tipul variaţiei, variabilele numerice pot fi:


• cu variaţie continuă;
• variaţie discontinuă (discrete);
☺ Exemplul nr. 3
Există situaţii în care datele sunt măsurate în
expresie numerică (cantitativă) şi redate în formă
calitativă (de exemplu: măsurarea şi exprimarea
gradului de poluare a aerului: poluarea este
măsurată numeric, dar catalogată ca „redusă”,
„medie” sau „mare”; la fel şi măsurarea intensităţii
cutremurelor pe scala Richter).

☺ Exemplul nr. 4
Numărul de bolnavi internaţi într-un spital la
31.12.2021, numărul şcolilor generale existenteîntr-un
oraş – sunt variabile discrete, deoarece pot lua doar
valori întregi, în timp ce greutatea şi înălţimea unor
persoane, media generală cu care au promovat anul I
studenţii unei facultăţi etc. – sunt variabile continue,
întrucât pot lua şi valori fracţionare.
4. Concepte de bază utilizate în statistică
IV. după numărul de variante pe care-l poate avea o
variabilă, întâlnim:
• variabile alternative, binare sau dihotomice, de
tipul variabilelor logice („adevărat/fals”), care pot
avea doar două variante de răspuns
• variabile nealternative, sunt cele care pot avea cel
puţin trei variante de răspuns, de manifestare.
Variabilele nealternative se pot transforma în variabile
alternative printr-un proces de dihotomizare (prin
impunerea unei limite, a unui prag – în cazul
variabilelor numerice, sau prin regrupări ale
variantelor – în cazul variabilelor nenumerice).
Exemplu: salariul: mai mic sau egal cu 3500 RON şi
mai mare de 3500 RON; profesia: economist şi alte
profesii).
4. Concepte de bază utilizate în statistică
V. după modul de obţinere, pot exista:
• variabile primare;
• variabile derivate.

VI. după relaţia de cauzalitate, putem avea:


• variabile independente – reprezintă variabile ce
pot fi utilizate pentru a descrie sau a explica
variaţiile, diferenţele (modificările) survenite în alte
variabile, pe care le influenţează;
• variabile dependente – un rezultat ce prezintă un
anumit interes, observat şi măsurat pentru a evalua
efectele unei variabile independente.
4. Concepte de bază utilizate în statistică
d. Varianta statistică
Nivelul sau valoarea unei variabile, indiferent de
natura/tipul acestei variabile, întâlnită la o anumită
unitate se numeşte variantă.

e. Frecvenţa unei variante


Este numărul de apariţii al acelei variante, la toate
unităţile unei colectivităţi.
☺ Exemplul nr. 5
În unele cazuri, întâlnim variabile discrete, care pot
lua valori foarte mari (de exemplu: populaţia
continentelor la 31.12.2021. Datorită diferenţei mari
între ordinul de mărime a datelor şi pasul cu care se
discontinuizează variabila (adică 1, în acest
exemplu), ultimul devine nesemnificativ în raport cu
primul, astfel că variabila capătă caracter continuu,
chiar dacă ea are, prin însăşi natura ei, variaţie
discretă.
☺ Exemplul nr. 6
Un angajat al unei companii are o vechime de 5 ani
în muncă.
Angajatul reprezintă unitatea statistică, vechimea în
muncă este variabila urmărită, iar 5 este varianta
acestei variabile.
☺ Exemplul nr. 7
Dacă 10 angajați ai unei companii sunt de profesie
„economiști”, atunci: angajatul este unitatea
statistică, profesia este variabila studiată,
„economist” reprezintă o variantă a acestei variabile,
iar „10” este frecvenţa acestei variante.
4. Concepte de bază utilizate în statistică
În funcţie de tipul variabilelor ale căror valori le
reprezintă şi datele statistice se pot clasifica în:
• temporale, spaţiale sau atributive;
• cantitative sau calitative;
• datele cantitative (numerice) pot fi: continue sau
discrete;
În funcţie de numărul variabilelor la care se referă,
datele statistice pot fi:
• date univariate;
• date bivariate;
• date multivariate,
După momentul sau perioada de timp la care se
referă datele înregistrate, putem întâlni:
• date dinamice, atunci când datele se referă la mai
multe momente sau perioade de timp succesive;
• date statice, atunci când ele se referă la acelaşi
moment / perioadă de timp;
TEST 1
1. Pentru următoarele cazuri, precizaţi unitatea
statistică, identificaţi variabila statistică studiată şi
tipul de variabilă. Precizaţi dacă variabila este
cantitativă sau calitativă, dacă ea este continuă
sau discontinuă:

a) cifra de afaceri a 100 firme din domeniul IT;


b) Absenteismul angajaţilor (zile)
c) Profesiile a 200 de salariaţi
d) Numărul personalului din 1.000 de întreprinderi
e) Numărul copiilor din 2.000 de familii.
TEST 1

2. Un cercetător este interesat să compare salariul de


încadrare pentru bărbaţii şi femeile care intră în
serviciu imediat după absolvirea facultăţii. Sunt
cercetaţi 100 de bărbaţi şi 100 de femei:

a) Descrieţi populaţia;
b) Descrieţi eşantionul;
c) Descrieţi inferenţa care interesează;
TEST 1
3. Deseori, locuitorii unui oraş preferă să achiziţioneze
produse şi servicii din afara ariei lor comerciale locale.
Acest fenomen afectează îndeosebi localităţile mici,
întrucât dacă el ia amploare, poate influenţa negativ
prosperitatea localităţii. Pentru a reduce dimensiunea
unui astfel de fenomen şi a determina motivele care îi
fac pe unii localnici să cumpere produse şi servicii din
afara localităţii lor, un grup de cercetători au făcut un
studiu pe 200 de locuitori ai unei aşezări.

a) Identificaţi populaţia statistică, eşantionul şi


unitatea statistică;
b) Identificaţi câteva caracteristici ce ar putea fi
înregistrate;
clasificaţi-le, conform criteriilor învaţate.

S-ar putea să vă placă și