Sunteți pe pagina 1din 138

UNIVERSITATEA “ALEXANDRU IOAN CUZA” DIN IAŞI

FACULTATEA DE ECONOMIE ŞI ADMINISTRAREA AFACERILOR

CARMEN PINTILESCU
MIRCEA ASANDULUI DANIELA VIORICĂ

BAZELE STATISTICII

Suport de curs – I.D.

2020

1
CUPRINS

PARTEA 1. STATISTICA DESCRIPTIVĂ


US1 - NOȚIUNI INTRODUCTIVE 3
1.1. Populație statistică 4
1.2. Eșantion 4
1.3. Unitate statistică 5
1.4. Variabilă statistică 5
1.5. Obiectivele statisticii descriptive 7
US2 - ANALIZA UNEI SERII STATISTICE UNIVARIATE 8
2.1. Variabile cantitative 9
2.1.1. Variabile cantitative discrete 9
2.1.2. Variabile cantitative continue 52
2.2. Variabile calitative 55
US3 - ANALIZA UNEI SERII STATISTICE BIVARIATE 62
3.1. Structurarea datelor 63
3.1.1. Tabelul cu dublă intrare 63
3.1.2. Tipuri de variabile 64
3.2. Distribuția după o variabilă cantitativă (X) și o variabilă calitativă (Y) 65
3.2.1. Frecvențe absolute marginale, parțiale și condiționate 65
3.2.2. Frecvențe relative marginale, parțiale și condiționate 69
3.2.3. Distribuții marginale 73
3.2.4. Distribuții condiționate 76
3.3. Analiza statistică descriptivă a distribuției bivariate 78
3.3.1. Media pe total eșantion ( x ) 78
2 81
3.3.2. Varianța pe total eșantion ( s )

PARTEA A DOUA. STATISTICA INFERENŢIALĂ


US4 - NOŢIUNI ŞI NOTAŢII FOLOSITE ÎN STATISTICA INFERENŢIALĂ 87
4.1. Populaţie şi eşantion 88
4.2. Parametri şi estimaţii 88
4.3. Noţiunea de probabilitate 89
4.4. Abaterea standard şi distribuţia normală 91
4.5. Distribuţia Student 99
4.6. Distribuţia de selecţie a mediei 102
US5 - ESTIMAREA PARAMETRILOR UNEI POPULAŢII 106
5.1. Estimarea mediei unei populaţii (μ) 107
5.1.1. Estimarea punctuală a mediei unei populaţii 107
5.1.2. Estimarea prin interval de încredere a mediei unei populaţii 107
5.2. Estimarea proporţiei unei populaţii (π) 110
5.2.1. Estimarea punctuală a proporţiei la nivelul unei populaţii 110
5.2.2. Estimarea prin interval de încredere a proporţiei unei populaţii 111
US6 - TESTAREA IPOTEZELOR STATISTICE 113
6.1. Testarea ipotezelor cu privire la valoarea unui parametru 114
6.1.1 Demersul testării 114
6.1.2. Testarea semnificaţiei mediei unei populaţii 115
6.1.3 Testarea semnificaţiei proporţiei unei populaţii 124
6.2. Testarea ipotezelor cu privire la două valori ale unui parametru 126
6.2.1 Testarea diferenţei dintre două medii 126
6.2.2 Testarea diferenţei dintre două proporţii 130
6.3. Estimare versus testare 132
Anexe 134
Bibliografie 137

2
PARTEA 1: STATISTICA DESCRIPTIVĂ

US1 - NOȚIUNI INTRODUCTIVE

Cuprins

1.1. Populație statistică


1.2. Eșantion
1.3. Unitate statistică
1.4. Variabilă statistică
1.5. Obiectivele statisticii descriptive

Rezumat

Acest capitol prezintă cele mai importante concepte folosite în analiza statistică:
populație, eșantion, variabile statistice, unități statistice. Pentru variabilele statistice sunt
prezentate criteriile de clasificare și tipurile acestora. Metodele de analiză statistică a datelor
diferă în funcție de natura variabilelor (cantitative sau calitative) și de tipul acestora (discrete
sau continue; nominale sau ordinale).

Bibliografie

1. Andrei, T., Statistică şi econometrie, Ed. Economică, 2003.


2. Biji, E.M., Lilea, E., Roşca, E., Vătui, M., Statistică aplicată în economie, Editura
Universal Dalsi, 2000.
3. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002.

3
US1. NOŢIUNI INTRODUCTIVE

Termenul de “statistică” a evoluat din momentul în care a apărut pentru prima oară în
lucrarea lui Gottfried Achenwall, publicată în 1746, până în zilele noastre. În acea perioadă,
prin termenul de statistică se înţelegea un ansamblu de informaţii despre lucrurile remarcabile
cu privire la colectivitatea numită stat, expuse într-o anumită ordine. În prezent, prin statistică
se înţelege un ansamblu de metode folosite pentru culegerea, prezentarea şi analiza datelor
înregistrate pentru o colectivitate statistică.
Principalele concepte fundamentale din statistică sunt populaţia statistică, eşantionul,
unitatea statistică şi variabila statistică.

1.1. Populaţie statistică

DEFINIȚIE Populaţia statistică este obiectul studiului statisticii şi reprezintă un


ansamblu de elemente omogene.

Omogenitatea este definită prin specificarea naturii calitative a elementelor, a timpului


şi a spaţiului de manifestare a acestora. Definirea corectă şi completă a populaţiei este
esenţială pentru identificarea elementelor eligibile pentru observarea şi analiza statistică.
Elementele componente ale unei populaţii statistice pot fi fiinţe, obiecte sau evenimente.
Volumul unei populaţii se notează cu N.

Exemplul 1.1. Definirea unei populaţii statistice


Populaţia României la 20 octombrie 2011, ora 0.00 este o populaţie statistică definită
prin cele trei dimensiuni: natura calitativă (persoane), spaţiul de manifestare (România) şi
timpul de manifestare (20 octombrie 2011, ora 0.00).

1.2. Eşantion

DEFINIȚIE Eşantionul este un sub-ansamblu de elemente extrase, după principii de


reprezentativitate, dintr-o populaţie statistică supusă studiului.

Volumul unui eşantion se notează cu n.

4
1.3 Unitate statistică

DEFINIȚIE Unităţile statistice reprezintă elementele componente ale unei populaţii


statistice de interes.

Aceste unităţi sunt purtătoare de informaţii care vor fi observate si înregistrate cu scopul
de a caracteriza populaţia din care provin.

Exemplul 1.2. Identificarea unităţilor statistice


Considerând populaţia României la 20 octombrie 2011, ora 0.00, unitatea statistică este
reprezentată de un locuitor.

1.4 Variabilă statistică

DEFINIȚIE Variabila statistică este o caracteristică, o însuşire a unor unităţi statistice,


care înregistrează o anumită valoare, pentru fiecare unitate statistică
observată.

Exemplul 1.3. Variabile statistice


Dacă se consideră ansamblul firmelor din judeţul Iaşi care desfăşoară activitate de
producţie, variabilele statistice care pot reprezenta un interes pentru cercetarea statistică sunt:
valoarea vânzărilor, numărul de salariaţi, cifra de afaceri, mărimea firmei etc. Dacă se
consideră ansamblul studenţilor unei serii, variabilele statistice care pot fi supuse analizei
statistice sunt: vârsta studenţilor, sexul persoanei etc.

O variabilă statistică este notată cu X. Valorile sau variantele variabilei X se notează cu


xi. Din punct de vedere formal, avem: X : ( xi ), cu i = 1, m .
Variabilele statistice pot fi clasificate, după modul de exprimare, în variabile numerice
şi variabile nenumerice.

a. Variabile numerice sau cantitative

DEFINIȚIE Variabilele numerice sunt acele variabile pentru care valorile sunt
exprimate numeric.

5
Exemplul 1.4. Variabile numerice
Variabile numerice sunt: vârsta persoanelor, câştigul salarial, înălţimea etc.

După modul de manifestare a variaţiei valorilor, variabilele numerice pot fi discrete sau
continue.
Variabilele discrete sunt acele variabile care nu pot lua decât valori finite din domeniul
de valori al variabilei.

Exemplul 1.5. Variabile discrete


Variabile discrete sunt: Numărul de angajaţi, Numărul de şomeri, Numărul de copii pe
familie etc.

Variabile continue sunt acele variabile care pot lua o infinitate de valori din domeniul
de valori al variabilei.

Exemplul 1.6. Variabile continue


Variabile continue sunt: Înălţimea, Greutatea, Viteza etc.

b. Variabile nenumerice, calitative sau categoriale

DEFINIȚIE Variabilele nenumerice sunt acele variabile pentru care valorile sunt
exprimate prin cuvinte.

Exemplul 1.7. Variabile nenumerice


Variabile nenumerice sunt: sexul persoanei (masculin şi feminin), starea civilă
(celibatar, căsătorit, văduv, divorţat), mediul de rezidenţă (urban, rural) etc.

Pentru analiza statistică, valorilor variabilei categoriale li se atribuie un cod numeric. De


exemplu, pentru variabila X, sexul persoanei, se pot atribui codurile: 1 pentru persoanele de
sex masculin şi 2 pentru persoanele de sex feminin.
Variabilele categoriale pot fi nominale sau ordinale.
Variabilele nominale sunt acele variabile pentru care ordinea acordării codurilor nu are
un sens.

6
Exemplul 1.8. Variabile nominale
Pentru variabila X, mediul de rezidenţă, se pot acorda codurile 1 pentru varianta Urban
şi 2 pentru varianta Rural, fără să se poată stabili o relaţie de ordine între aceste două valori.

Un caz particular al variabilelor nominale este reprezentat de variabilele alternative


(dichotomice sau dummy). Variabilele dichotomice sunt acele variabile care înregistrează
două valori.

Exemplul 1.9. Variabile alternative


Dacă se înregistrează rata şomajului în diferite ţări ale Uniunii Europene se pot defini
două categorii de ţări: o categorie formată din ţările cu o rată a şomajului mai mică decât
nivelul mediu înregistrat pentru ansamblul ţărilor UE şi o categorie formată din ţările cu o rată
a şomajului mai mare.

Variabilele ordinale sunt acele variabile pentru care există o relaţie de ordine între
unităţile din categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale
variabilei X are, în acest caz, un sens.

Exemplul 1.10. Variabile ordinale


Pentru variabila X, preferinţa pentru un produs, cu variantele Foarte bun, Bun, Nici
bun-nici rău, Foarte rău, Rău, ordinea acordării codurilor are un sens. Valorile variabilei X
sunt 1- Foarte bun, 2- Bun, 3- Nici bun-nici rău, 4 - Foarte rău, 5-Rău.

1.5. Obiectivele statisticii descriptive

Datele obţinute în urma observării statistice sunt prelucrate cu ajutorul metodelor


statisticii descriptive şi a statisticii inferenţiale.
Statistica descriptivă are ca obiectiv prezentarea sintetică a datelor statistice, folosind
metode de reprezentare grafică şi prin calculul diferiţilor indicatori statistici (indicatori ai
tendinţei centrale, indicatori ai dispersiei, indicatori ai asimetriei şi boltirii).
Statistica inferenţială are ca obiectiv caracterizarea unei populaţii prin prelucrarea
datelor înregistrate pentru un eşantion extras din aceasta. Problemele statisticii inferenţiale
sunt, astfel, estimarea parametrilor populaţiei (a mediei, varianţei şi proporţiei) şi testarea
ipotezelor statistice.

7
US2. ANALIZA UNEI SERII STATISTICE UNIVARIATE

Cuprins

2.1. Variabile cantitative


2.2. Variabile calitative

Rezumat

În acest capitol sunt prezentate metodele de analiză statistică univariată a datelor.


Analiza statistică univariată a datelor presupune caracterizarea unor unități statistice după
variația unei variabile statistice (cantitative sau calitative). Caracterizarea sintetică a acestor
unități statistice se poate realiza prin calculul indicatorilor statisticii descriptive (indicatori ai
tendinței centrale, indicatori ai dispersiei și indicatori ai formei) și prin reprezentarea grafică a
seriei de date. Prezentarea acestor metode de analiză descriptivă a datelor este realizată pe
tipuri de variabile (cantitative sau calitative).

Bibliografie

Andrei, T., Statistică şi econometrie, Ed. Economică, 2003.


Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002.
James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and Economics,
Pearson, Education New Jersey , 2008
Weiss, N, A., Elementary Statistics, Pearson, 2012
Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.

8
Analiza statistică descriptivă a unei variabile cantitative sau calitative poate fi realizată
grafic și numeric, prin calculul indicatorilor statisticii descriptive. Graficele care pot fi folosite
pentru un set de date și indicatorii statistici care pot fi calculați depind de natura variabilelor
(cantitative sau calitative).

2.1. Variabile cantitative

Variabilele cantitative pot fi variabile cantitative discrete şi continue.

2.1.1 Variabile cantitative discrete

O prezentare sintetică a valorilor unei variabile statistice discrete poate fi realizată prin
structurarea datelor într-o serie (distribuție) statistică, prin calculul indicatorilor statisticii
descriptive și prin reprezentarea grafică a seriei.

a. Structurarea datelor statistice

Structurarea datelor corespunzătoare unei variabile statistice discrete presupune


gruparea observațiilor sau unităților statistice pe valori ale variabilei statistice X într-un tabel
de date. Acest tabel prezintă valorile xi ale variabilei statistice și frecvența de apariție a
fiecărei valori (de câte ori apare o valoare distinctă xi). Tabelul acestor date grupate
reprezintă o serie statistică sau distribuția de frecvență a unităților statistice observate pe
valori ale variabilei X.
Pentru formarea unei serii statistice se pot folosi frecvenţe absolute (ni) sau frecvenţe
relative (fi).

a.1. Distribuția de frecvență

DEFINIȚIE Distribuția de frecvență este reprezentată de tabelul valorilor variabilei X și


a frecvenței de apariție a acestor valori (ni)

Pentru formarea distribuției de frecvențe, se parcurg următoarele etape :


1. Se ordonează crescător valorile xi ale variabilei X și se trec în această ordine în prima
coloană a tabelului.

9
2. Pentru fiecare valoare xi, se determină frecvența de apariție (se numără
num de câte ori
apare aceastăă valoare în setul de date). Rezultatul acestor numărări
numărări se trec în a doua
coloană a tabelului.

Forma generalăă a distribuției


distribu de frecvențe este prezentată în tabelul de mai jos :

Tabelul 2.1. Distribuția


Distribu de frecvență a unei variabile cantitative discrete
Valori ale variabilei (xi) Frecvența de apariție a fiecărei
ărei valori (ni)
x1 n1
x2 n2

xi ni

xm nm

TOTAL
   


Frecvența de apariție
ție a unei valori a variabilei X se mai numește
ște frecvență
frecven absolută de
apariție (ni). Suma acestor frecvențe
frecven absolute este volumul eșantionului (n).
(n)

Exemplul 2.1. Distribuția


ția de frecvență
frecven a unei variabile cantitative discrete
În urma Recensământului
ământului populației
popula și al locuințelor
elor din România care a avut loc în
anul 2011, Institutul Național
țional de Statistică
Statistic a publicat rezultatele numărului
ărului de persoane dintr-o
dintr
gospodărie
rie (sau familie). Pentru un eșantion
e de familii din oraşul
şul Iași,
Ia s-au obținut
următoarele
toarele rezultate privind numărul
num de membri/familie:

3 4 2 3 3 2 4
2 3 3 3 4 6 4
5 4 4 3 3 4 5
4 4 4 2 3 3 3

Să se grupeze datele de mai sus într-o


într distribuție de frecvență.

Rezolvare
Pentru formarea distribuției
distribu de frecvență, se parcurg următoarele
toarele etape:
1. Se ordoneazăă crescător
ător valorile variabilei X : 2, 3, 4, 5, 6.
10
2. Aceste valori se trec în prima coloană a unui tabel (Tabelul 2.2).
3. Pentru fiecare valoare a numărului de membri dintr-o familie, se numără familiile care
înregistrează acest număr de membri. De exemplu, numărul de familii care au 2
membri (x1=2) este 4 (n1=4). Aceste rezultate se trec în a doua coloană a Tabelului
2.2.

Tabelul 2.2. Distribuția familiilor după numărul de membri


Număr membri (xi) Numărarea familiilor în funcție de Număr familii (ni)
numărul de membri
2 …. 4
3 ………… 11
4 ………. 10
5 .. 2
6 . 1
TOTAL n=28

Interpretare: Din cele 28 de familii observate, 4 familii au câte 2 membri, 11 familii au 3


membri etc.

a.2. Distribuția frecvențelor relative

Formarea distribuției frecvențelor relative presupune calculul ponderii unităților


statistice pe valori xi ale variabilei X. Frecvența relativă, notată cu fi, reprezintă raportul dintre
frecvența absolută și numărul total de observații (suma frecvențelor absolute). Aceasta se
calculează astfel :
ni n
fi = = i
 ni n
i

Frecvența relativă poate fi exprimată în procente și, în acest caz, aceasta se calculează
astfel :
ni n
fi = ⋅ 100 = i ⋅ 100
 ni
i
n

DEFINIȚIE Distribuția frecvențelor relative este reprezentată de tabelul valorilor


variabilei X și a frecvenței relative de apariție a acestor valori (fi).

Pentru formarea distribuției frecvențelor relative, se parcurg următoarele etape :


11
1. Se formează distribuția
ția de
d frecvență a variabilei X (folosind frecvențele
frecven absolute).
2. Se împarte fiecare frecvență
frecven absolută la numărul
rul total de observații
observa (se calculează
frecvențele
ele relative pentru fiecare valoare xi).

Forma generalăă a distribuției


distribu frecvențelor relative este prezentatăă în tabelul de mai jos :

Tabelul 2.3. Distribuția


ția frecvențelor
frecven elor relative ale unei variabile cantitative discrete
Valori ale variabilei (xi) Frecvența relativă (fi)
x1 f1
x2 f2

xi fi

xm fm

TOTAL
   


Suma frecvențelor relative este 1 sau 100, atunci când datele se exprimă
exprim în procente.

Exemplul 2.2. Distribuția


ția frecvențelor
frecven elor relative ale unei variabile cantitative discrete
Să se formeze distribuțția frecvențelor
elor relative pentru datele prezentate în Tabelul 2.2.

Rezolvare
1. Distribuția
ia de frecvență
frecvenț a numărului de familii în funcție
ie de numărul
num de membri pe
familie este cea prezentată în Tabelul 2.2.
2. Se calculeazăă frecvențele
frecven relative prin împărțirea fiecărei
ărei frecvențe
frecven absolute (din
coloana a doua a Tabelului 2.4)
2.4 la suma lor. Rezultatele obținute
ținute se prezintă
prezint astfel :

Tabelul 2.4. Distribuția


Distribu ponderii familiilor după numărul
rul de membri
Număr membri (xi) Frecven absolute (ni)
Frecvenţe Frecvențe relative (fi) Mod de calul
2 4 0.143 4/28
3 11 0.393 11/28
4 10 0.357 10/28
5 2 0.071 2/28
6 1 0.036 1/28
TOTAL 28 1
12
Interpretare: Din cele 28 de familii observate, 14,3% dintre familii au câte 2 membri, 39,3%
familii au 3 membri etc.

Observații:
- Pentru compararea mai multor distribuții de frecvență, se recomandă folosirea
frecvențelor relative. Frecvențele relative variază între 0 și 1 (sau 100) și oferă o
măsură similară de comparație (fac datele comparabile).
- Distribuția de frecvență a unei variabile folosind frecvențe relative este similară
distribuției de frecvență folosind frecvențe absolute. Distribuția frecvențelor relative
reflectă însă mai bine structura unui eșantion pe valori ale unei variabile. În exemplul
dat, distribuția eşantionului de familii din oraşul Iaşi folosind frecvențe absolute și
relative poate fi prezentată astfel :

Tabelul 2.5. Distribuția familiilor după numărul de membri, folosind frecvențe absolute și relative
Număr membri (xi) Număr familii (ni) Ponderea familiilor (fi)
2 4 14,3
3 11 39,3
4 10 35,7
5 2 7,1
6 1 3,6
TOTAL n=28 100

Rezultatele din tabelul de mai sus arată că 4 familii, care reprezintă 14,3% din numărul
total de familii, înregistrează 2 membri. Cele 11 familii, care reprezintă 39,3% dintre familii,
au câte 3 membri ș.a.m.d.

a.3. Distribuția frecvențelor absolute cumulate

Folosind frecvențele absolute, ni, se pot afla unitățile statistice (efectivele) care
înregistrează valori mai mici sau egale decât un anumit nivel xi al variabilei (care au valori cel
mult egale cu valoarea xi) sau care înregistrează valori mai mari sau egale decât un nivel xi al
variabilei (care au valori cel puțin egale cu valoarea xi). Aceste frecvențe sunt frecvențele
absolute cumulate crescător (Ni↓) sau descrescător (Ni↑).

13
a.3.1 Frecvențele absolute cumulate crescător (Ni↓)

DEFINIȚIE Frecvențele absolute cumulate crescător (Ni↓) arată numărul de unități


statistice (efectivele) care înregistrează valori mai mici sau egale decât un
anumit nivel xi al variabilei X.

Frecvențele absolute cumulate crescător (Ni↓) se calculează după relația :


i
N i ↓= N i−1 ↓ + ni =  nh
h =1

Exemplul 2.3. Calculul frecvenţelor absolute cumulate crescător


Se consideră distribuția familiilor după numărul de membri pe familie prezentată
astfel :

Tabelul 2.6. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28

Să se calculeze frecvențele absolute cumulate crescător.

Rezolvare
- prima frecvență N1↓ este reprezentată de numărul de familii care au 2 membri,
respectiv de frecvența absolută n1. Deci, N1↓=4.
- a doua frecvență cumulată presupune însumarea la cele 4 familii care au 2 membri pe
cele care au 3 membri, adică 11 familii. Obținem astfel : N2↓=4+11=15 familii.
- a treia frecvență cumulată presupune însumarea la cele 15 familii care au 2 și 3
membri pe cele care au 4 membri, respectiv : N3↓=15+10=25 familii sau
N3↓=4+11+10=25 familii.
Acest demers continuă până se cumulează toate efectivele din eșantion.

14
Rezultatele obținute pot fi centralizate într-un tabel de forma :

Tabelul 2.7. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni) Ni↓ Mod de calcul
2 4 4 4
3 11 15 4+11
4 10 25 15+10 sau 4+11+10
5 2 27 25+2 sau 4+11+10+2
6 1 28 27+1 sau 4+11+10+2+1
TOTAL n=28 -

Interpretare: Din numărul total de familii observate, 4 familii au 2 membri, 15 familii au cel
mult 3 membri, 25 de familii au cel mult 4 membri etc.

Observație: Frecvențele absolute cumulate crescător arată efectivele care înregistrează valori
mai mici sau egale decât un anumit nivel xi al variabilei. De exemplu, 15 familii au cel mult 3
membri (inclusiv 3 membri), 25 de familii au cel mult 4 membri (inclusiv 4 membri) etc.

a.3.2. Frecvențele absolute cumulate descrescător (Ni↑)

DEFINIȚIE Frecvențele absolute cumulate descrescător (Ni↑) arată numărul de unități


statistice (efectivele) care înregistrează valori mai mari sau egale decât un
anumit nivel xi al variabilei X.

Frecvențele absolute cumulate descrescător (Ni↑) se calculează după relația :


m
N i ↑= N i +1 ↑ + ni =  nh
h =i

Exemplul 2.4. Calculul frecvenţelor absolute cumulate descrescător


Se consideră distribuția familiilor după numărul de membri pe familie prezentată astfel :

15
Tabelul 2.8. Distribuția familiilor după numărul de membri
Număr membri Număr familii
(xi) (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28

Să se calculeze frecvențele absolute cumulate descrescător.

Rezolvare
În cazul frecvențelor cumulate descrescător, însumarea frecvențelor se face «de jos în
sus», adică de la ultima frecvență până la prima frecvență.
Frecvențele absolute cumulate descrescător se calculează astfel :
- ultima frecvență N5↑ este reprezentată de numărul de familii care au 6 membri. Deci,
N5↑=6.
- următoarea frecvență, N4↑, presupune însumarea la cele 6 familii, care au 1 membru,
pe cele 2 familii care au 5 membri. Obținem astfel : N4↑=1+2=3 familii.
- a treia frecvență cumulată presupune însumarea la cele 3 familii care au 5 și 6 membri
pe cele care au 4 membri, respectiv : N3↓=1+2+10=13 familii.
Acest demers continuă până se cumulează toate efectivele din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :

Tabelul 2.9. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni) Ni↑ Mod de calcul
2 4 28 24+4 sau 1+2+10+11+4
3 11 24 13+11 sau 1+2+10+11
4 10 13 3+10 sau 1+2+10
5 2 3 1+2
6 1 1 1
TOTAL n=28 -

16
Interpretare: Din numărul
rul total de familii observate, o familie are cel puțin
ărul pu 6 membri, 3
familii au cel puțin
in 5 membri, 13 de familii au cel puțin
pu 4 membri etc.

Observații:
- Frecvențele
ele absolute cumulate descrescător
descresc arată efectivele care înregistrează
înregistreaz valori
mai mari sau egale decât un anumit nivel xi al variabilei. De exemplu, 3 familii au cel
puțin
in 5 membri (inclusiv 5 membri), 13 familii au cel puțin
puțin 4 membri (inclusiv 4
membri) etc.
- Frecvențele
ele absolute cumulate descrescător
descresc pot fi calculate și scăzând
sc din numărul
total de familii pe cele care au 2 membri, apoi pe cele care au 3 membri ș.a.m.d. De
exemplu, din cele 28 de familii care au 2 membri, 24 de familii (adică
(adic 28 – 4 = 24) au
cel puțin
in 3 membri, 13 familii (adică
(adic 24-11=13) au cel puțin
țin 4 membri etc.

a.3.3. Distribuția frecvențelor absolute cumulate crescător (Ni↓) și descrescător (Ni↑)

Folosind frecvențele
țele absolute cumulate crescător
cresc și descrescător
ător se poate forma
distribuția frecvențelor
elor cumulate.

DEFINIȚIE Distribuția frecvențelor cumulate este formată din valorile xi ale variabilei X
și frecvențele absolute cumulate crescător și descrescător asociate acestora.

Forma generalăă a distribuției


distribu frecvențelor absolute cumulate crescător
ător și descrescător se
prezintă astfel:
Tabelul 2.10. Distribuția
Distribu frecvențelor absolute cumulate crescător și descrescător
descresc
ale unei variabile cantitative discrete
Valori ale Frecven
Frecvența Frecvența absolută Frecvența
ța absolută
absolut cumulată
variabilei (xi) absolută (ni) cumulată crescător (Ni↓) descresc
descrescător (Ni↑)
x1 n1 N1↓ N1↑= N2↑+n1=n
x2 n2 N2↓= N1↓+n2 N2↑=N
↑ 3↑+n2

xi ni Ni↓ =Ni-1↓+ni Ni↑= Ni+1↑+ni

xm nm Nm↓=Nm-1↓+nm=n Nm↑=nm

TOTAL
   


17
a.4. Distribuția frecvențelor relative cumulate

În mod similar, folosind frecvențele relative (fi), se poate afla ponderea unităților
statistice (ponderea efectivelor) care înregistrează valori mai mici sau egale decât un anumit
nivel xi al variabilei, respectiv valori mai mari sau egale decât un nivel xi al variabilei X.
Aceste frecvențe sunt frecvențele relative cumulate crescător (Fi↓) sau descrescător (Fi↑).

a.4.1. Frecvențele relative cumulate crescător (Fi↓) și descrescător (Fi↑)

DEFINIȚIE Frecvențele relative cumulate crescător (Fi↓) și descrescător (Fi↑) arată


ponderea unităților statistice (ponderea efectivelor) care înregistrează valori
mai mici sau egale decât un anumit nivel xi al variabilei X, respectiv mai
mari sau egale decât un anumit nivel xi al variabilei X.

Frecvențele relative cumulate crescător (Fi↓) se calculează după relația :


i
ni n
Fi ↓= Fi −1 ↓ + f i =  f h , cu f i = sau f i = i ⋅ 100 .
h =1 n n
Frecvențele relative cumulate descrescător (Fi↑) se calculează după relația :
m
Fi ↑= Fi+1 ↑ + f i =  f h
h =i

Exemplul 2.5. Calculul frecvenţelor relative cumulate crescător şi descrescător


Se consideră distribuția familiilor după numărul de membri pe familie prezentată astfel :

Tabelul 2.11. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni) Ponderea familiilor (fi)
2 4 14,3
3 11 39,3
4 10 35,7
5 2 7,1
6 1 3,6
TOTAL n=28 100

Să se calculeze frecvențele relative cumulate crescător și descrescător.

18
Rezolvare
Frecvențele relative cumulate crescător se află astfel:
- prima frecvență F1↓ este reprezentată de ponderea familiilor care au 2 membri,
respectiv de frecvența relativă f1. Deci, F1↓=14,3%.
- a doua frecvență relativă cumulată presupune însumarea ponderii familiilor care au 2
membri (14,3%) cu cele care au 3 membri (39,3%). Obținem astfel :
F2↓=14,3%+39,3%=53,6%.
Acest demers continuă până se cumulează toate frecvențele relative din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :

Tabelul 2.12. Distribuția ponderii familiilor după numărul de membri


Număr membri (xi) Ponderea familiilor (fi) Fi↓ Mod de calcul
2 14,3 14,3 14,3
3 39,3 53,6 14,3+39,3
4 35,7 89,3 53,6+35,7 sau 14,3+39,3+35,7
5 7,1 96,4 89,3+7,1 sau 14,3+39,3+35,7+7,1
6 3,6 100,0 96,4+3,6 sau 14,3+39,3+35,7+7,1+3,6
TOTAL 100 -

Interpretare: Din numărul total de familii observate, 14,3% au 2 membri, 53,6% au cel mult
3 membri, 89,3% au cel mult 4 membri etc.

Frecvențele relative cumulate descrescător se află astfel:


- ultima frecvență F5↑ este reprezentată de ponderea familiilor care au 6 membri. Deci,
F5↑=3,6%.
- următoarea frecvență, F4↑, presupune însumarea ponderii familiilor care au 6 membri
(3,6%) și 5 membri (7,1%). Obținem astfel : F4↑=3,6+7,1=10,7%.
Acest demers continuă până se cumulează toate frecvențele relative din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :

19
Tabelul 2.13. Distribuția familiilor după numărul de membri
Număr membri (xi) Ponderea familiilor (fi) Fi↑ Mod de calul
2 14,3 100 85,7+14,3 sau 3,6+7,1+35,7+39,3+14,3
3 39,3 85,7 46,4+39,3 sau 3,6+7,1+35,7+39,3
4 35,7 46,4 10,7+35,7 sau 3,6+7,1+35,7
5 7,1 10,7 3,6+7,1
6 3,6 3,6 3,6
TOTAL 100 -

Interpretare: Din numărul total de familii observate, 3,6% au cel puțin 6 membri, 10,7% au
cel puțin 5 membri, 46,4% au cel puțin 4 membri etc.

a.4.2. Distribuția frecvențelor relative cumulate crescător (Fi↓) și descrescător (Fi↑)

Folosind frecvențele relative cumulate crescător și descrescător se poate forma


distribuția frecvențelor relative cumulate.

DEFINIȚIE Distribuția frecvențelor relative cumulate este formată din valorile xi ale
variabilei X și frecvențele relative cumulate crescător (Fi↓) și descrescător
(Fi↑) asociate acestora.

Forma generală a distribuției frecvențelor relative cumulate crescător și descrescător se


prezintă astfel :

20
Tabelul 2.14. Distribuția frecvențelor
frecven relative cumulate crescător și descrescător
ător ale unei variabile
cantitative discrete
Valori ale Frecvența Frecven relativă
Frecvența Frecvența relativă Frecven relativă
Frecvența
variabilei absolută (fi) cumulată crescător cumulat descrescător
cumulată
(xi) (ni) (Fi↓) (Fi↑)
x1 n1 f1 F1↓ F1↑= F2↑+f1=1
x2 n2 f2 F2↓= F1↓+f2 F2↑=F3↑+f2

xi ni fi Fi↓ =Fi-1↓+fi Fi↑= Fi+1↑+fi

xm nm fm Fm↓=Fm-1↓+fm=1 sau Fm↑=fm


100

TOTAL m

    f
i =1
i = 1 sau 100


Observații:
- În mod similar distribuțiilor de frecvențe, pentru a înțelege repartizarea efectivelor pe
valori ale unei variabile, se recomandă folosirea frecvențelor relative. Pentru exemplul
anterior, prezentarea frecvențelor absolute și relative cumulate este realizat
realiza ă astfel :

Tabelul 2.15.
2.15 Distribuția familiilor după numărul
rul de membri
Număr membri (xi) Număr
ăr familii (ni) Ponderea familiilor (fi) Ni↓ Ni↑ Fi↓ Fi↑
2 4 14,3 4 28 14,3 100
3 11 39,3 15 24 53,6 85,7
4 10 35,7 25 13 89,3 46,4
5 2 7,1 27 3 96,4 10,7
6 1 3,6 28 1 100,0 3,6
TOTAL n=28 100 - - - -

Rezultatele din tabelul de mai sus arată că 15 familii (N2↓), care reprezintă 53,6% din
numărul total de familii (F2↓), au cel mult 3 membri. În același timp, 13 familii (N3↑), care
reprezintă 46,4% din numărul total de familii (F3↑), au cel puțin 4 membri.

21
b. Indicatori ai statististicii descriptive

Analiza unei variabile cantitative discrete poate fi realizată prin calculul unor indicatori
statistici sintetici, care pot fi grupați în indicatori ai tendinței centrale (mărimi medii),
indicatori ai dispersiei și indicatori ai formei (asimetriei și boltirii).

b.1. Indicatori ai tendinței centrale (mărimi medii)

Mediile sunt acele valori în jurul cărora se repartizează efectivele unui eșantion. Cele
mai importante mărimi medii sunt media ( x ), modul (Mo) și mediana (Me).

b.1.1. Media

Cel mai cunoscut indicator al tendinței centrale este reprezentat de media aritmetică a
unei variabile ( x ).

DEFINIȚIE Media unei variabile reprezintă media aritmetică a valorilor xi ale


variabilei, respectiv suma valorilor xi împărțită la numărul de observații.

Media se calculează astfel:


 xi
x= i
.
n

Exemplu 2.6. Media simplă a unei variabile cantitative discrete


Salariile lunare (sute lei) înregistrate pentru un eșantion format din 10 salariați ai unei
firme se prezintă astfel:

10 12 15 20 15
23 28 18 19 10

Să se calculeze media.
Rezolvare
 xi 10 + 12 + 15 + ... + 10
Media variabilei este x = i
= = 17 sute lei.
n 10
Interpretare: Salariul mediu lunar înregistrat de angajații firmei este de 17 sute lei.
22
În cazul unor date prezentate într-o distribuție de frecvență, media se calculează ca o
medie ponderată, după relația :
 xi ⋅ ni  xi ⋅ ni
x= i
= i

 ni n
i

Folosind frecvențe relative, media se calculează astfel:


ni n
x =  xi ⋅ f i , cu f i = = i
i  ni n
i

Exemplul 2.7. Media ponderată a unei variabile cantitative discrete folosind frecvenţe
absolute
Distribuția unor familii din municipiul Iaşi după numărul de membri se prezintă astfel :

Tabelul 2.16. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se calculeze numărul mediu de membri pe familie.

Rezolvare
Pentru aflarea mediei, trebuie parcurse următoarele etape :
- se calculează produsele xi ⋅ ni . Aceste produse sunt prezentate în tabelul de mai jos :

Tabelul 2.17. Calculul produselor xi ⋅ ni

Număr membri (xi) Număr familii (ni) xi ⋅ ni


2 4 8
3 11 33
4 10 40
5 2 10
6 1 6
TOTAL n=28

23
- se calculează suma acestor produse:  xi ⋅ ni =8+33+40+10+6=97;
i

- se calculează media ca raport între suma acestor produse și numărul total de


 xi ⋅ ni 2 ⋅ 4 + 3 ⋅ 11 + ... + 6 ⋅ 1 8 + 33 + 40 + 10 + 6 97
observații: x = i
= = = = 3,464
 ni 28 28 28
i

Interpretare: Numărul mediu de membri pe familie este de 3,464 ~ 3 membri.

Exemplul 2.8. Media ponderată a unei variabile cantitative discrete folosind frecvenţe
relative
Managerul unei firme înregistrează vechimea în muncă pentru angajații săi și obține
următoarele rezultate :

Tabelul 2.18. Distribuția angajaților unei firme după vechimea în muncă


Vechime în muncă (ani) Ponderea angajaților (%)
1 15
2 10
3 29
4 16
5 20
6 10
TOTAL 100

Să se calculeze vechimea medie a angajaților firmei.

Rezolvare
Pentru aflarea mediei folosind frecvenţele relative, trebuie parcurse următoarele etape :
ni
- se calculează produsele xi ⋅ f i , cu f i = . Aceste produse sunt prezentate în
 ni
i

tabelul de mai jos :

24
Tabelul 2.19. Calculul produselor xi ⋅ f i

Vechime în muncă (ani) Ponderea angajaților fi xi ⋅ f i


1 15 0,15 0,15
2 10 0,10 0,20
3 29 0,29 0,87
4 16 0,16 0,64
5 20 0,20 1,00
6 10 0,10 0,60
TOTAL 100 1 3,46

- media este reprezentată de suma produselor xi ⋅ f i :

x =  xi ⋅ f i = 0,15 + 0,20 + 0,87 + 0,64 + 1 + 0,60 = 3,46 ;


i

Interpretare: Vechimea medie în muncă pentru angajații firmei este de e 3,46 ~ 3 ani.

Observație: Media este sensibilă la prezența valorilor extreme (outliers). Valorile extreme
sunt valori diferite (foarte mari sau foarte mici) față de ansamblul tuturor celorlalte valori. Dat
fiind modul de calcul al mediei, aceste valori pot influența în mod semnificativ media.

Exemplu 2.9. Media în cazul unei serii cu valori extreme


Pentru un eșantion de persoane, se înregistrează venitul anual (mii lei) și se obțin
următoarele rezultate: 24, 30, 29, 32, 5000.
 xi 24 + 30 + 29 + 32 + 5000
Venitul mediu anual este x = i
= = 1023 mii lei. Se observă
n 5
că valoarea extremă, x5=5000, are o influență importantă asupra mediei.
În această situație, se recomandă fie calculul mediei fără această valoare, fie folosirea
altei mărimi medii pentru aprecierea tendinței centrale. Pentru exemplul dat, venitul mediu
anual calculat fără includerea acestei valori extreme este :
 xi 24 + 30 + 29 + 32
x= i
= = 28,75 mii lei.
n 4
Această medie este mai reprezentativă pentru eșantionul observat.

25
b.1.2. Modul

A doua mărime medie prin care poate fi apreciată tendința centrală este modul (Mo).

DEFINIȚIE Modul este acea valoare a variabilei cel mai frecvent observată într-o
distribuție.

Pentru aflarea modului, trebuie identificată frecvența de apariție a fiecărei valori:


- dacă nicio valoare xi nu are o frecvență mai mare decât unu, atunci seria nu prezintă mod.
- dacă frecvențele de apariție sunt diferite, atunci valoarea care corespunde frecvenței
maxime este modul. Dacă sunt mai multe valori care corespund acestei frecvențe maxime,
atunci seria are mai multe valori modale (este o serie pluri-modală).

Exemplul 2.10. Modul în cazul unei serii simple


Se consideră numărul de zile de absență de la locul de muncă înregistrate într-un an
pentru un eșantion de persoane și se obțin următoarele rezultate: 3, 5, 3, 6, 1, 4. Să se afle
modul.

Rezolvare
Pentru aflarea modului, se parcurg următoarele etape:
- se află frecvența de apariție a fiecărei valori: valoarea xi=3 apare de 2 ori în șirul de
date, deci frecvența de apariție este ni=2. Pentru toate celelalte valori, frecvența de
apariție este egală cu unu.
- valoarea care corespunde frecvenței celei mai mari, adică xi=3, este modul. Deci,
Mo=3 zile.

Interpretare: Cei mai mulți salariați din eșantionul observat au lipsit 3 zile de la locul de
muncă.

Exemplul 2.11. Modul în cazul unei serii bimodale


Se consideră numărul de ore alocate zilnic studiului pentru un eșantion de persoane și se
obțin următoarele rezultate: 2, 3, 4, 3, 4, 5. Să se afle modul.

26
Rezolvare
Se observă că valorile 3 și 4 apar fiecare de 2 ori în șirul de date, aceasta fiind frecvența
de apariție cea mai mare. Seria dată are deci 2 valori modale: x1=3 și x2=4.

Interpretare: Cele mai multe persoane din eșantionul observat alocă pentru studiu 3 și 4 ore
în fiecare zi.

Exemplul 2.12. Modul pentru o distribuție de frecvențe


Distribuția unor familii din oraşul Iaşi după numărul de membri se prezintă astfel :

Tabelul 2.20. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28

Să se afle modul.

Rezolvare
Frecvența cea mai mare pentru distribuția dată este ni=11. În dreptul acestei valori, se
citește valoarea xi corespunzătoare, respectiv xi=3, iar această valoare este modul. Deci,
Mo=3 membri.

Interpretare: Cele mai multe familii din eșantionul observat au câte 3 membri.

Exemplul 2.13. Modul pentru o distribuție de frecvențe relative


Managerul unei firme înregistrează vechimea în muncă pentru angajații săi și obține
următoarele rezultate :

27
Tabelul 2.21. Distribuția angajaților unei firme după vechimea în muncă
Vechime în muncă (ani) Ponderea angajaților (%)
1 15
2 10
3 29
4 16
5 20
6 10
TOTAL 100

Să se afle modul.

Rezolvare
Frecvența cea mai mare pentru distribuția dată este fi=29%. În dreptul acestei valori se
citește valoarea modului : Mo=3 ani.

Interpretare: Cei mai mulți salariați au o vechime de 3 ani.

b.1.3. Mediana

Cea de-a treia mărime medie prin care poate fi apreciată tendința centrală este mediana
(Me).

DEFINIȚIE Mediana este valoarea unei variabile care împarte efectivele unui eșantion
în 2 părți: 50% din efective au valori mai mici sau egale decât mediana, iar
50% au valori mai mari sau egale decât mediana. Mediana corespunde
n +1
locului unității medianei dintr-un set de date, și anume: U Me = .
2

Pentru aflarea medianei, șirul de date se ordonează în sens crescător. După aceasta, în
funcție de tipul seriei mediana se află astfel:
- dacă seria are un număr impar de termeni, mediana este termenul central al seriei;
- dacă seria are un număr par de termeni, mediana este media aritmetică a celor 2
termeni centrali ai seriei;

28
- dacă seria este prezentată sub forma unei distribuții de frecvențe, atunci mediana este
valoarea xi care se citește în dreptul primei valori N i ↓≥ U Me .

Exemplul 2.14. Mediana pentru o serie cu număr impar de termeni


Se consideră numărul de zile de absență de la locul de muncă înregistrate într-un an
pentru un eșantion de persoane și se obțin următoarele rezultate: 3, 5, 4, 2, 1. Să se afle
mediana.

Rezolvare
Pentru aflarea medianei, se parcurg următoarele etape:
- se ordonează seria în sens crescător: 1, 2, 3, 4, 5.
- mediana este termenul central al acestei serii ordonate crescător, și anume: Me=3.
5 +1
- mediana corespunde astfel locului unității mediane, U Me = = 3 , adică este a treia
2
valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5.

Interpretare: 50% dintre salariații din eșantionul observat au lipsit cel mult 3 zile de la locul
de muncă, iar 50% au lipsit cel puțin 3 zile.

Exemplul 2.15. Mediana pentru o serie cu număr par de termeni


Se consideră salariul (euro/oră) înregistrat pentru un eșantion de persoane și se obțin
următoarele rezultate: 5, 7, 6, 5, 8, 4. Să se afle mediana.

Rezolvare
Pentru aflarea medianei, se parcurg următoarele etape:
- se ordonează seria în sens crescător: 4, 5, 5, 6, 7, 8.
- mediana este media celor 2 termeni centrali al acestei serii ordonate crescător, și
5+6
anume: Me = = 5,5 euro/oră.
2
6 +1
- mediana corespunde astfel locului unității mediane, U Me = = 3,5 , adică este între
2
a treia și a patra valoare a șirului de date ordonat crescător: 4, 5, 5, 6, 7, 8.

Interpretare: 50% dintre salariații din eșantionul observat au un salariu de cel mult 5,5
euro/oră, iar 50% au cel puțin 5,5 euro/oră.
29
Exemplul 2.16. Mediana pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :

Tabelul 2.22. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se afle mediana.

Rezolvare
Pentru aflarea medianei, trebuie parcurse următoarele etape:
28 + 1
- se calculează unitatea mediană: U Me = = 14,5 ;
2
- se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:

Tabelul 2.23. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni) Ni↓
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 -

- prima valoare N i ↓≥ U Me este ( N i ↓= 15) ≥ (U Me = 14,5) . În dreptul acestei valori se


citește mediana : Me=3.

Interpretare: 50% dintre familiile din eșantionul observat au cel mult 3 membri, iar 50% au
cel puțin 3 membri.

30
Observație: Mediana este o mărime medie care nu este influențată de valorile extreme (este o
mărime medie „stabilă” față de influența unor valori extreme).

Exemplul 2.17. Mediana în cazul unei serii cu valori extreme


În exemplul 2.9, am considerat venitul anual (mii lei) pentru un eșantion de persoane și
am obținut următoarele rezultate: 24, 30, 29, 32, 5000.

Pentru această serie de date, media este x = 1023 mii lei, iar mediana este Me=30 mii
lei. Se observă astfel că mediana nu este influențată de valoarea extremă, x5=5000. În această
situație, se recomandă folosirea medianei ca indicator al tendinței centrale, în locul mediei.

b.1.4. Compararea celor 3 mărimi medii

Cele 3 mărimi medii, media, modul și mediana, au de cele mai multe ori valori diferite
pentru aceeași distribuție. Analiza lor comparativă permite cunoașterea eșantionului observat
și aprecierea omogenităţii sale.
De exemplu, analiza PIB real al țărilor din Uniunea Europeană înregistrat în anul 2013
(euro/locuitor) duce la obținerea următoarelor rezultate: x = 21292 euro/loc., Me=15750
euro/loc. Diferențele mari între nivelurile mediei și medianei evidențiază disparități
importante între țările UE din punctul de vedere al PIB/loc.
În general, cu cât diferențele dintre medie, mod și mediană sunt mai mari, cu atât
diferențele dintre unitățile statistice sunt mai mari, din punctul de vedere al variabilelor
înregistrate.

b.1.5. Quantile

Quantilele sunt valori ale variabilei care împart efectivele unui eșantion în mai multe
părți egale. Cele mai importante quantile sunt quartilele și decilele.

1. Quartilele

Quartilele sunt valori ale variabilei care împart efectivele din eșantion în 4 părți egale. O
distribuție are 3 quartile:

31
- Quartila una (Q1) este valoarea pentru care 25% dintre unităţi înregistrează valori mai
mici decât Q1 și 75% înregistrează valori mai mari decât Q1. Quartila unu corespunde
n +1
locului unității quartilice unu calculate astfel: U Q1 = .
4
- Quartila doi (Q2) este mediana și arată valoarea pentru care 50% din efective
înregistrează valori mai mici decât mediana și 50% înregistrează valori mai mari decât
mediana.
- Quartila trei (Q3) este valoarea pentru care 75% dintre unităţi înregistrează valori mai
mici decât Q3 și 25% înregistrează valori mai mari decât Q3. Quartila trei corespunde
3(n + 1)
locului unității quartilice trei calculate astfel: U Q3 = .
4

Exemplul 2.18. Aflarea quartilelor pentru o serie cu număr impar de termeni


Se consideră numărul de zile de absență de la locul de muncă înregistrate într-un an
pentru un eșantion de persoane și se obțin următoarele rezultate: 3, 5, 4, 2, 1. Să se afle cele 3
quartile.

Rezolvare
Quartila unu
Pentru aflarea quartilei unu, se parcurg următoarele etape:
- se ordonează seria în sens crescător: 1, 2, 3, 4, 5.
5 +1
- quartila unu corespunde locului unității quartilice unu, U Q1 = = 1,5 , adică este
4
între prima și a treia valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5. Quartila
1+ 2
unu este deci media primilor 2 termeni ai seriei : Q1 = = 1,5 .
2
Interpretare: 25% dintre salariații din eșantionul observat au lipsit cel mult 1,5~2 zile de la
locul de muncă, iar 75% au lipsit cel puțin 1,5~2 zile.

Quartila doi
2(n + 1) n + 1
Quartila doi este mediana, întrucât U Q2 = = = U Me . Quartila doi este deci
4 2
Q2=3.
Interpretare: 50% dintre salariații din eșantionul observat au lipsit cel mult 3 zile de la locul
de muncă, iar 50% au lipsit cel puțin 3 zile.

32
Quartila trei
3 ⋅ (5 + 1)
Quartila trei corespunde locului unității quartilice trei, U Q3 = = 4,5 , adică este
4
între a patra și a cincea valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5. Quartila trei
4+5
este deci media ultimilor 2 termeni ai seriei : Q3 = = 4,5 .
2
Interpretare: 75% dintre salariații din eșantionul observat au lipsit cel mult 4,5~5 zile de la
locul de muncă, iar 25% au lipsit cel puțin 4,5~5 zile.

Exemplul 2.19. Quartilele pentru o distribuție de frecvență


Distribuția unor familii după numărul de membri se prezintă astfel :

Tabelul 2.24. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28

Să se afle quartilele unu și trei.

Rezolvare
Quartila unu
Pentru aflarea quartilei unu, trebuie parcurse următoarele etape:
28 + 1
- se calculează unitatea quartilică unu: U Q1 = = 7,25 ;
4
- se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:

33
Tabelul 2.25. Distribuția familiilor dintr-un bloc după numărul de membri
Număr membri (xi) Număr familii (ni) Ni↓
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 -

- prima valoare N i ↓≥ U Q1 este ( N i ↓= 15) ≥ (U Q1 = 7,25) . În dreptul acestei valori se


citește quartila unu: Q1=3.

Interpretare: 25% dintre familiile din eșantionul observat au cel mult 3 membri, iar 75% au
cel puțin 3 membri. În acest caz, quartila unu coincide cu mediana.

Quartila trei
Pentru aflarea quartilei trei, se calculează unitatea quartilică trei:
3(28 + 1)
U Q3 = = 21,75 . Se observă că prima valoare N i ↓≥ U Q3 este
4
( N i ↓= 25) ≥ (U Q3 = 21,75) . În dreptul acestei valori se citește quartila trei: Q3=4.

Interpretare: 75% dintre familiile din eșantionul observat au cel mult 4 membri, iar 25% au
cel puțin 4 membri.

2. Decilele
Decilele sunt valori ale variabilei care împart efectivele din eșantion în 10 părți egale. O
distribuție are 9 decile. Cele mai importante decile sunt decila unu și decila nouă.
- Decila unu (D1) este valoarea pentru care 10% dintre efective înregistrează valori mai
mici decât D1 și 90% înregistrează valori mai mari decât D1. Decila unu corespunde
n +1
locului unității decilice unu, calculate astfel: U D1 = .
10
- Decila nouă (D9) este valoarea pentru care 90% dintre efective înregistrează valori mai
mici decât D9 și 10% înregistrează valori mai mari decât D9. Decila nouă corespunde
9(n + 1)
locului unității decilice nouă, calculate astfel: U D9 = .
10

34
Exemplul 2.20. Decilele pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :

Tabelul 2.26. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni) Ni ↓
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 -

Să se afle decilele unu și nouă.

Rezolvare
Decila unu
Pentru aflarea decilei unu, trebuie parcurse următoarele etape:
28 + 1
- se calculează unitatea decilică unu: U D1 = = 2,9 ;
10
- se află prima valoare N i ↓≥ U D1 este ( Ni ↓= 4) ≥ (U D1 = 2,9) . În dreptul acestei valori
se citește decila unu: D1=2.

Interpretare: 10% dintre familiile din eșantionul observat au cel mult 2 membri, iar 90% au
cel puțin 2 membri.

Decila nouă
9(28 + 1)
Pentru aflarea decilei nouă, se calculează unitatea decilică nouă: U D9 = = 26,1 .
10
Se observă că prima valoare N i ↓≥ U Q3 este ( N i ↓= 27) ≥ (U D9 = 26,1) . În dreptul acestei
valori se citește decila nouă: D9=5.

Interpretare: 90% dintre familiile din eșantionul observat au cel mult 5 membri, iar 10% au
cel puțin 5 membri.

35
b.2. Indicatori ai dispersiei (variației)

Dispersia măsoară variația valorilor unei variabile în jurul tendinței centrale. Aprecierea
dispersiei este importantă într-o analiză statistică întrucât mai multe distribuții pot avea
aceleași mărimi medii, dar pot să difere din punctul de vedere al variației valorilor variabilei.
De exemplu, să considerăm următoarele serii de date:

Seria 1: 4, 4, 4, 4, 4
Seria 2: 2, 3, 4, 4, 7
Seria 3: 1, 2, 4, 4, 9

Toate aceste serii de date au media, mediana și modul egale cu 4, însă cele 3 serii de
date diferă din punctul de vedere al variației celor 5 valori: seria 3 se caracterizează printr-o
variație mai mare a celor 5 valori față de tendința centrală, măsurată prin medie, mod sau
mediană.

Măsurarea acestei variații se realizează prin calculul indicatorilor dispersiei sau


variației. Acești indicatori ai dispersiei măsoară variația valorilor unei variabile față de media
lor sau față de mediană.

b.2.1. Indicatori ai dispersiei față de medie


Cei mai importanți indicatori ai dispersiei sunt:
- varianța ( s 2 );
- abaterea standard ( s );
36
- coeficientul de variație (v).
1. Varianța (s2)
Varianța măsoară variația medie a pătratelor diferențelor valorilor unei variabile de la
nivelul mediu.
Pentru calculul varianței, se parcurg următoarele etape:
- Se calculează diferențele valorilor unei variabile față de nivelul mediu: xi − x ;

- Se calculează pătratele diferențelor valorilor unei variabile față de nivelul mediu:


( xi − x )2 ;

- Se află suma acestor pătrate:  ( xi − x ) 2 ;


i

 ( xi − x ) 2
- Se calculează media acestor diferenţe (variații): s = 2 i
.
n

Observație: În cazul unei distribuții de frecvență, pătratele diferențelor valorilor unei variabile
față de nivelul mediu trebuie înmulțite cu frecvența de apariție (absolută sau relativă) a
fiecărei valori xi.
Relațiile de calcul ale varianței sunt:

 ( xi − x ) 2 ⋅ ni
- folosind frecvențe absolute: s = 2 i
n
ni
- folosind frecvențe relative: s 2 =  ( xi − x ) 2 ⋅ f i , cu f i = .
i n
Se poate demonstra că varianța poate fi calculată și ca diferență între media pătratelor
valorilor xi și pătratul mediei. Relațiile de calcul în acest caz sunt:

 xi2 ⋅ ni   xi ⋅ ni 
2

- folosind frecvențe absolute: s 2 = i


−  i 

n  n
 
2

- folosind frecvențe relative: s 2 =  xi2 ⋅ f i −   xi ⋅ f i 


i  i 

Exemplu 2.21. Măsurarea variației valorilor unei variabile față de nivelul mediu
Să considerăm seria 3 de date prezentată mai sus, compusă din valorile: 1, 2, 4, 4, 9.
1+ 2 + 4 + 4 + 9
Media acestor valori este: x = = 4.
5

37
Pentru a afla variația fiecărei valori a acestei serii de date față de media lor, se
calculează diferențele : xi − x . Pentru prima valoare, obținem astfel : ( x1 − x ) = (1 − 4) = −3 .
Aceste diferențe sunt prezentate în coloana a doua a tabelului de mai jos :

Tabelul 2.27. Calculul diferenţelor valorilor seriei faţă de nivelul mediu


Valori ale variabilei (xi) Diferențe față de medie ( xi − x )

1 -3
2 -2
4 0
4 0
9 5

Aceste diferențe sunt reprezentate grafic în figura de mai jos.

Pentru a măsura variația tuturor valorilor față de medie, putem calcula suma acestor
variații :  ( x − x ).
i
i Această sumă este însă întotdeauna egală cu zero. Pentru a obține o

valoare diferită de zero, se calculează pătratele acestor diferențe:  ( xi − x ) . Pentru seria de


2

mai sus, aceste pătrate sunt calculate în tabelul de mai jos:

38
Tabelul 2.28. Calculul pătratelor diferenţelor valorilor seriei faţă de nivelul mediu
Valori ale variabilei (xi) Diferențe față de medie ( xi − x ) Pătrate ale diferențelor ( xi − x )
2

1 -3 9
2 -2 4
4 0 0
4 0 0
9 5 25
TOTAL 0 38

În exemplul dat, suma pătratelor diferențelor valorilor xi față de media lor este egală cu

38:  ( xi − x ) = 38.
2

Pentru a calcula media acestor pătrate, se împarte această sumă la numărul de observații

 ( xi − x ) 2 38
și se obține indicatorul dispersiei, varianța: s = 2 i
= = 7,6 .
n 5
Această valoare arată variația pătratelor valorilor unei variabile față de media lor. Pentru
a exprima aceste variații în aceeași unitate de măsură cu a variabilei, se calculează rădăcina

 ( xi − x ) 2 38
acestei valori, respectiv s = i
= = 2,76 . Acest indicator este abaterea
n 5
(deviația) standard.

Exemplu 2.22. Calculul varianței pentru o distribuție de frecvență, folosind frecvențe


absolute
Pentru a arăta modul de calcul al varianței pentru o distribuție de frecvență folosind
frecvențe absolute, se consideră distribuția unor familii din oraşul Iaşi după numărul de
membri, prezentată în tabelul de mai jos.

Tabelul 2.29. Distribuția familiilor după numărul de membri


Număr membri (xi) Număr familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28

39
Pentru această distribuție, media a fost calculată și este egală cu 3,464.
Pentru calculul varianței, se parcurg următoarele etape:
- Se calculează diferențele valorilor xi față de nivelul mediu: xi − x . Aceste diferențe

sunt prezentate în coloana a treia a tabelului 2.30;


- Se calculează pătratele diferențelor valorilor unei variabile față de nivelul mediu:
( xi − x )2 ;

- Se înmulțesc aceste pătrate cu frecvențele absolute ni: ( xi − x ) 2 ⋅ ni ;

 ( xi − x ) 2 ⋅ ni 147,652
- Se calculează varianța: s = 2 i
= = 5,27 .
n 28

Tabelul 2.30. Calculul varianţei folosind frecvenţele absolute


Număr Număr Diferențe Pătrate ale Ponderarea pătratelor
membri (xi) familii ( xi − x ) diferențelor ( xi − x )
2 diferenţelor cu frecvențele
(ni) absolute ( xi − x ) ⋅ ni
2

2 4 -1.464 2.143 8.573


3 11 -0.464 0.215 2.368
4 10 -3.464 11.999 119.993
5 2 1.536 2.359 4.719
6 1 -3.464 11.999 11.999
TOTAL n=28 - - 147.652

Exemplu 2.23. Calculul varianței pentru o distribuție de frecvență, folosind frecvențe relative

Pentru aceeași distribuție, se consideră frecvențele relative (fi) și se ponderează pătratele


diferențelor cu frecvențele relative, ( xi − x ) 2 ⋅ fi . Suma acestor pătrate este varianța.
Elementele pentru calculul varianței sunt prezentate în tabelul de mai jos:

40
Tabelul 2.31. Calculul varianţei folosind frecvenţele relative
Număr Ponderea Diferențe Pătrate ale diferențelor Ponderarea pătratelor
membri (xi) familiilor (fi) ( xi − x ) ( xi − x )2 diferenţelor cu
frecvențele relative

( xi − x ) 2 ⋅ fi
2 0.143 -1.464 2.143 0.306
3 0.393 -0.464 0.215 0.085
4 0.357 -3.464 11.999 4.284
5 0.071 1.536 2.359 0.168
6 0.036 -3.464 11.999 0.432
TOTAL 1 - - 5,274

Varianța este deci:


 ∑  − ̅ 
∙   5,274.

Observație: Întrucât pentru aflarea varianței s-au ridicat la pătrat diferențele  − ̅ , pentru a
acorda o importanță mai mare abaterilor de la medie, varianța nu se interpretează și nu are
unitate de măsură.

2. Abaterea standard

Abaterea standard arată variația medie a valorilor unei variabile față de nivelul mediu
(arată cât de mult se „îndepărtează” valorile unei variabile de la media lor).

Exemplul 2.24. Abaterea standard pentru o serie simplă


Pentru seria valorilor: 1, 2, 4, 4, 9, am calculat următorii indicatori:
x = 4, s = 2,76 .

Interpretare: Abaterea standard arată că valorile șirului de date prezentat variază, în medie,
de la media lor cu 2,76 (în sens pozitiv și negativ).

Observație: Măsurarea dispersiei permite aprecierea omogenității unei distribuții și a


reprezentativității unei medii. O distribuție caracterizată printr-o dispersie mare a valorilor xi
față de media lor este o distribuție eterogenă. Media calculată poate astfel să nu fie
reprezentativă pentru acea distribuție.
De exemplu, să considerăm seriile de date:

41
Seria 1: 2, 3, 4, 4, 7
Seria 2: 1, 2, 4, 4, 9

Pentru aceste serii de date, mediile și abaterile standard se prezintă astfel:

Seria 1 Seria 2
x1 = 4 x2 = 4
s1 = 1,67 s2 = 2,76

Se observă că aceste serii au aceeași medie și dispersii diferite. Seria 1 se caracterizează


printr-o variație mai mică a valorilor xi față de media lor: s1 < s2 . Aceasta arată că seria 1 este
o serie mai omogenă față de seria 2.

Pentru a aprecia reprezentativitatea mediei pentru fiecare din aceste serii de date, se
compară abaterea standard față de media seriei respective. În acest sens, se poate calcula un
coeficient de variație care măsoară în procente cât de mare este dispersia valorilor xi față de
media lor.

3. Coeficientul de variaţie (v)

Relația de calcul a acestui indicator este:


s
v= ⋅ 100 .
x
Pentru cele două serii de date de mai sus, valorile coeficienților de variație sunt:
s1 1,67
Seria 1: v1 = ⋅ 100 = ⋅ 100 = 41,75%
x1 4

s2 2,76
Seria 2: v2 = ⋅100 = ⋅100 = 69%
x2 4

Interpretare: Valori ridicate ale coeficientului de variație (mai mari de 50%) arată că o
distribuție se caracterizează printr-o dispersie mare a valorilor xi față de media lor. Aceasta
este deci o distribuție eterogenă, iar media nu este reprezentativă pentru seria valorilor date.

42
În exemplul dat, seria 2 se caracterizează printr-o dispersie mare a celor 5 valori față de
media lor (v2>50%), ceea ce arată că media calculată ( x = 4) nu este reprezentativă pentru
această serie.

Observație: Aprecierea variației valorilor unei variabile este importantă în analiza seriilor de
date financiare. Variabilitatea randamentelor unui activ financiar este cunoscută în finanțe sub
denumirea de volatilitate, iar studiul volatilității este important în analizele de risc financiar.
Cu cât volatilitatea unui activ financiar este mai mare, cu atât riscul investitorului este mai
mare. Măsurarea volatilității se poate realiza prin calculul abaterii standard a randamentelor
activelor financiare.

b.2.2. Indicatori ai dispersiei față de mediană

Măsurarea dispersiei valorilor xi ale unei variabile față de mediana lor se realizează prin
calculul amplitudinii intervalului interquartilic.

1. Amplitudinea intervalului interquartilic

Amplitudinea intervalului interquartilic (IQ) măsoară dispersia celor 50% dintre valorile
centrale ale unei distribuții.

DEFINIȚIE Amplitudinea intervalului interquartilic (IQ) este diferența dintre quartila


trei (Q3) și quartila unu (Q1). Relația de calcul este: IQ=Q3-Q1.

Exemplul 2.25. Amplitudinea intervalului interquartilic


Pentru distribuția unor familii după numărul de membri, prezentată în Tabelul 2.28,
valorile quartilelor sunt: Q1=3 și Q3=4. Intervalul interquartilic este: IQ=Q3-Q1=4-3=1.

Interpretare: Amplitudinea intervalului interquartilic arată că, pentru 50% dintre familii,
diferenţa maximă de membri ai familiei între oricare două familii este de un membru.

b.3. Indicatori ai formei (asimetriei și boltirii)

Forma unei distribuții poate fi apreciată prin măsurarea asimetriei și boltirii distribuției.

43
b.3.1. Indicatori ai asimetriei

Asimetria unei distribuții poate fi măsurată prin coeficientul de asimetrie Fisher


(skewness). Acest coeficient se calculează astfel:
µ3
sw =
s3
unde:

 ( xi − x ) 3
- µ3 = i
și reprezintă momentul centrat de ordinul 3 ;
n
- s3 este abaterea standard la puterea a treia.

În funcție de gradul de simetrie al unei distribuții, putem distinge:


- distribuții asimetrice la stânga (asimetrie negativă), pentru care sw<0.
- distribuții simetrice, pentru care sw=0;
- distribuții asimetrice la dreapta (asimetrie pozitivă), pentru care sw>0;
Reprezentarea grafică a acestor tipuri de distribuții este realizată în figura de mai jos:

Asimetrie la stânga Simetrie Asimetrie la dreapta


Figura 2.1. Reprezentarea grafică a simetriei unei distribuții

b.3.2. Indicatori ai boltirii

Boltirea unei distribuții poate fi măsurată prin coeficientul de boltire Fisher (kurtosis).
Acest coeficient se calculează astfel:
µ4
k= −3
s4
unde:

 ( xi − x )4
- µ4 = i
și reprezintă momentul centrat de ordinul 4.
n
44
În funcție de gradul de boltire al unei distribuții, putem distinge:
- distribuții simetrice (mezocurtice), pentru care k=0;
- distribuții leptocurtice, pentru care k>0;
- distribuții platicurtice (aplatizate), pentru care k<0.
Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvenţelor. Alura
curbei frecvenţelor în cazul unei distribuţii normale (mezocurtice) sau care prezintă un
accentuat fenomen de boltire este reprezentată în figura de mai jos:

Figura 2.2. Reprezentarea grafică a boltirii unei distribuţii

În cazul unei distribuţii leptocurtice, se înregistrează o variaţie mică a valorilor


variabilei X şi o variaţie mare a frecvenţelor absolute, ni. În cazul unei distribuţii platicurtice,
se înregistrează o variaţie mare a variabilei X şi o variaţie mică a frecvenţelor absolute, ni.

Observație: Aprecierea boltirii unui distribuții este importantă în analiza seriilor de date
financiare. O distribuție leptocurtică (fat tails) este o distribuție care arată că valorile extreme
(mari sau mici) sunt mai „frecvente” față de o distribuție „normală”.

c. Reprezentare grafică

După cum am precizat, o reprezentare sintetică a unei variabile se poate realiza prin
gruparea valorilor unei variabile într-o distribuție de frecvență, prin calculul indicatorilor
statisticii descriptive sau prin reprezentarea grafică.
Reprezentarea grafică a unei distribuții după o variabilă cantitativă discretă se poate
realiza folosind poligonul frecvențelor, curba frecvențelor, histograma și diagrama box-plot.

45
c.1. Poligonul frecvenţelor

Construirea poligonului frecvenţelor presupune găsirea locului geometric al punctelor


Ai de coordonate (xi , ni) sau (xi , fi) şi unirea acestora prin segmente de dreaptă. Poligonul
frecvenţelor aproximează forma unei distribuţii.
Alura poligonului frecvenţelor este reprezentată în figura de mai jos:

Figura 2.3. Poligonul frecvenţelor

c.2. Curba frecvenţelor

Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă a


poligonului frecvenţelor. Curba frecvenţelor aproximează mai bine forma de distribuţie a unei
variabile.
Alura curbei frecvenţelor este reprezentată în figura de mai jos:

Figura 2.4. Curba frecvenţelor


46
Interpretare: Curba frecvenţelor pentru distribuţia dată se compară cu forma curbei
frecvenţelor pentru o distribuţie normală, reprezentată în figura de mai sus, cunoscută sub
denumirea de Clopotul lui Gauss. Această curbă este o curbă simetrică faţă de nivelul mediu:
jumătate din unităţi au valori mai mici decât nivelul mediu, iar jumătate au valori mai mari
decât nivelul mediu.
Orice deviere de la forma unei distribuții simetrice arată că distribuția empirică este o
distribuție asimetrică. Formele asimetriei unei distribuții sunt :
- Asimetrie la dreapta (pozitivă) este forma unei distribuții în care frecvențele mai mari
sunt înregistrate pentru valorile mici ale variabilei;
- Asimetrie la stânga (negativă) este forma unei distribuții în care frecvențele mai mari
sunt înregistrate pentru valorile mari ale variabilei.

Exemplul 2.26. Poligonul și curba frecvențelor pentru o distribuție de frecvență a unei


variabile cantitative discrete
Se consideră distribuția din Tabelul 2.31. Aceasta se prezintă astfel:

Tabelul 2.32. Distribuția familiilor după numărul de membri


Număr membri Număr familii
(xi) (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28

Să se reprezinte poligonul și curba frecvențelor folosind frecvențele absolute.

Rezolvare
Pentru construirea poligonului și curbei frecvențelor, pe axa absciselor reprezentăm
numărul de membri pe familii (variabila X), iar pe axa ordonatelor reprezentăm numărul
familiilor (ni). Reprezentarea grafică a distribuției date este realizată în figura de mai jos.

47
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7

Figura 2.5. Distribuţia unui eşantion de familii după numărul de membri/familie

Interpretare: Se observă că distribuția eșantionului de familii după numărul de membri


prezintă o asimetrie la dreapta. Aceasta arată că se înregistrează frecvențe mai mari pentru
valorile mici ale variabilei (este o distribuție în care predomină familiile cu un număr mic de
copii).

c.3. Histograma

Pentru construirea histogramei, pe axa absciselor se reprezintă valorile variabilei X și pe


axa ordonatelor frecvența de apariție (absolută, ni, sau relativă, fi) a fiecărei valori xi.
Construirea histogramei presupune ridicarea de pe axa absciselor a unor dreptunghiuri de
înălțime ni sau fi.

Exemplul 2.26. Histograma pentru o distribuție de frecvență a unei variabile cantitative


discrete
Pentru reprezentarea histogramei, să considerăm distribuția din Tabelul 2.32. Aceasta se
prezintă astfel:
Tabelul 2.32. Distribuția familiilor după numărul de membri
Număr membri Numărarea familiilor în Număr familii Frecvențe relative
(xi) funcție de numărul de membri (ni) (fi)
2 …. 4 0.143
3 ………… 11 0.393
4 ………. 10 0.357
5 .. 2 0.071
6 . 1 0.036
TOTAL n=28 1
48
Să se reprezinte histograma folosind frecvențe absolute și relative.

Rezolvare
Pentru construirea histogramei, pe axa absciselor reprezentăm numărul de membri pe
familii, iar pe axa ordonatelor reprezentăm numărul familiilor (ni), respectiv ponderea
acestora (fi). Graficele obținute sunt de forma:

Figura 2.6. Distribuţia unui eşantion de familii după numărul de membri/familie


*Notă : Histograma este obținută realizând o rotație de 900 a primelor 2 coloane ale Tabelului 2.32.

Se observă că forma distribuției este aceeași folosind frecvențe absolute sau relative. Se
recomandă reprezentarea histogramei folosind frecvențele relative atunci când se compară
mai multe distribuții de frecvență.

Interpretare: Ca și în cazul poligonului și curbei frecvențelor, histograma evidențiază o


asimetrie la dreapta a distribuției familiilor după numărul de membri.

c.4. Diagrama “box-plot”

Diagrama box-plot, numită și diagrama “box-and-whiskers”, este o diagramă care


reprezintă cinci valori ale unei distribuții: xminim și xmaxim, quartila unu, mediana, quartila trei,
decila unu și nouă.

c.4.1. Construirea diagramei “box-plot”

Forma generală a unei diagrame “box-plot” este reprezentată în figura de mai jos:

49
Figura 2.7. Diagrama box-plot

Diagrama “box-plot” permite aprecierea principalelor caracteristici ale unei distribuții,


și anume:
- tendința centrală: prin reprezentarea medianei (quartilei doi) se poate interpreta grafic
tendința centrală a unei distribuții;
- dispersia: prin reprezentarea intervalului interquartilic (IQ=Q3-Q1) se poate aprecia
dispersia celor 50% din efectivele unei distribuții. Variația primelor 25% din efective
se măsoară prin diferența ( Q1 − xmin ), iar variația ultimelor 25% din efective se

măsoară prin diferența ( xmax − Q3 );

- asimetria: prin reprezentarea quartilelor se apreciază simetria distribuției. Într-o


distribuție normală, quartila unu și quartila trei se găsesc la aceeași distanță față de
mediană.
Reprezentarea grafică a simetriei unei distribuții, folosind diagrama box-plot, este
realizată în figura de mai jos.

Nota 1 Nota

4,00 5,00 6,00 7,00 8,00 9,00 10,00


4,00 5,00 6,00 7,00 8,00 9,00 10,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

Asimetrie la stânga Simetrie Asimetrie la dreapta

Figura 2.8. Reprezentarea grafică a simetriei unei distribuții folosind diagrama box-plot

50
Observație: Diagrama “box-plot” permite identificarea punctelor extreme (outliers). Pentru
[ ]
aceasta, se definesc intervalele: Q1 − 1,5 ⋅ I Q ; Q3 + 1,5 ⋅ I Q . Valorile situate în afara acestui

interval pot fi considerate valori extreme.

c.4.2. Folosirea diagramei “box-plot” pentru analiza comparativă a mai multor distribuții

Reprezentarea diagramei “box-plot” pentru mai multe distribuții în mod simultan


permite realizarea unei analize comparative a acestor distribuții.
De exemplu, să considerăm distribuția regiunilor României în funcție de câștigul
salarial nominal mediu net lunar (lei) înregistrat în anul 2015. Reprezentarea grafică a acestei
distribuții pe cele 8 regiuni de dezvoltare (Nord-Vest, Centru, Nord-Est, Sud-Est, Sud-
Muntenia, București-Ilfov, Sud-Vest Oltenia, Vest) este realizată în figura de mai jos:

Figura 2.9. Distribuția regiunilor României în funcție de câștigul salarial nominal mediu net lunar

Aceste diagrame evidențiază diferențe inter-regionale importante din punctul de vedere


al câștigului salarial nominal mediu net înregistrat în anul 2015. Regiunea București-Ilfov se
caracterizează prin cel mai ridicat nivel al câștigului salarial față de ansamblul tuturor
celorlalte regiuni.
Regiunea cea mai omogenă din punctul de vedere al câștigului salarial este Regiunea
Nord-Vest, care se distinge totuși prin prezența unei valori extreme, reprezentate de județul
Cluj. Câștigul salarial nominal mediu net din acest județ este mult mai ridicat față de cel al
celorlalte județe din această regiune.
Diagramele din figura de mai sus au evidențiat astfel și diferențe intra-regionale
importante din punctul de vedere al câștigului salarial nominal mediu net înregistrat în anul
2015.
51
2.1.2. Variabile cantitative continue

O prezentare sintetică a valorilor unei variabile statistice continue poate fi realizată prin
structurarea datelor într-o serie (distribuție) statistică pe intervale de variație, prin calculul
indicatorilor statisticii descriptive și prin reprezentarea grafică a seriei.

a. Structurarea datelor statistice

Structurarea datelor corespunzătoare unei variabile statistice continue presupune


gruparea observațiilor sau unităților statistice pe intervale de variație ale variabilei statistice X.
Intervalele de variație au o limită inferioară xi-1 (reprezentată de cea mai mică valoare) și o
limită superioară xi (reprezentată de cea mai mare valoare).
Pentru gruparea datelor pe intervale egale de variație se parcurg următoarele etape:
- Se calculează mărimea intervalelor de variație (l) în care se grupează datele:
xmax − xmin
l= , unde k este numărul intervalelor de variație;
k
- Primul interval se construiește plecând de la cea mai mică valoare a variabilei X la
care se adaugă mărimea intervalului calculată anterior.

Exemplul 2.27. Construirea unei distribuţii de frecvenţă cu gruparea valorilor variabilei pe


intervale egale de variaţie
Se consideră distribuţia unui eşantion de firme din municipiul Iaşi după numărul de
angajaţi. Valorile variabilei numărul de angajaţi pentru cele 28 de firme din eşantion sunt
prezentate mai jos.

49, 52, 68, 38, 42, 44, 45, 48, 58, 61, 20, 49, 53, 54,
48, 22, 30, 32, 53, 41, 42, 55, 57, 45, 47, 57, 64, 32

Să se construiască distribuţia de frecvenţe a celor 28 de firme din eşantion după numărul


de angajaţi, prin gruparea valorilor variabilei pe cinci intervale egale de variaţie.

Rezolvare
Etapele pentru construirea distribuţiei de frecvenţe în cazul grupării valorilor variabilei
pe intervale egale de variaţie sunt:

52
1. Se stabileşte numărul de intervale de variaţie dorit pentru gruparea valorilor
variabilei. În cazul nostru, vom grupa valorile în k=5 intervale de variaţie de tipul (xi-1,xi+1), cu
xi-1 limita inferioară a intervalului şi xi+1 limita superioară a intervalului.
2. Se calculează mărimea intervalelor de variație (l) în care se grupează datele.
xmax − xmin 68 − 20
l= = = 9,6 ≈ 10.
k 5
Vom grupa valorile variabilei în 5 egale de variaţie, cu o lungime de 10 unităţi.
3. Construirea distribuției de frecvență presupune numărarea observațiilor care apar în
fiecare interval de variație. Intervalele de variaţie pot fi închise, deschise sau semi-închise.
Am optat, pentru acest exemplu, pentru varianta semi-închisă a intervalului de forma [xi-
1,xi+1).

Distribuţia de frecvenţă construită este prezentată în Tabelul 2.33.

Tabelul 2.33. Distribuția firmelor după numărul de angajaţi, cu valorile grupate pe cinci intervale
egale de variaţie
Număr angajaţi Număr firme
[xi-1,xi+1) (ni)
20-30 2
30-40 4
40-50 11
50-60 8
60-70 3
TOTAL 28

Observații
- Numărul intervalelor de variație (k) trebuie să fie ales astfel încât să realizeze o
grupare sintetică a datelor, dar să evidențieze și caracteristicile datelor. În funcție de
numărul observațiilor și de obiectivul grupării, numărul intervalelor de variație poate
varia între 5 și 20 de intervale;
- O unitate statistică trebuie să aparțină unui singur interval de variație.

53
b. Indicatori ai statisticii descriptive

Indicatorii statisticii descriptive se calculează în mod identic ca în cazul variabilelor


discrete, luând în considerare în locul valorilor xi ale variabilelor, centrul intervalelor de
xi −1 + xi
variație ( xi' ) , calculat ca medie a celor două limite ale intervalelor: xi' = .
2

Exemplul 2.28. Calculul mediei aritmetice şi a abaterii standard pentru o distribuţie de


frecvenţe cu valori grupate pe intervale egale de variaţie
Se consideră distribuţia firmelor după numărul de angajaţi, prezentată în Tabelul 2.33.
Să se calculeze media aritmetică și abaterea standard a numărului de angajaţi.

Rezolvare
Pentru distribuţia firmelor după numărul de angajaţi, cu valorile grupate pe cinci
intervale de variaţie, am prezentat, în Tabelul 2.34, elementele de calcul necesare pentru
aflarea mediei şi abaterii standard.

Tabelul 2.34. Calculul mediei şi a abaterii standard în cazul unei serii cu valori grupate pe intervale
egale de variaţie
Număr Număr Mijlocul Produsele Diferențele Pătratele Ponderarea
angajaţi firme intervalului xi' ⋅ ni ( xi' − x ) diferențelor pătratelor
[xi-1,xi+1) (ni) de variaţie ( xi' − x ) 2 diferenţelor cu
(x )
'
i
frecvențele
absolute

( xi' − x ) 2 ⋅ ni
20-30 2 25 50 -22,14 490,1796 980,3592
30-40 4 35 140 -12,14 147,3796 589,5184
40-50 11 45 495 -2,14 4,5796 50,3756
50-60 8 55 440 7,86 61,7796 494,2368
60-70 3 65 195 1,.86 318,9796 956,9388
TOTAL n=28 - 1320 - - 3071,429

Media aritmetică se află aplicând formula:

 xi' ni 1320
x= i
= = 47.14 ≈ 47 angajaţi.
 ni 28
i

54
Interpretare: În medie, o firmă are 47 de angajaţi.

Abaterea standard se calculează aplicând formula:

 (xi' − x ) ni
2

3071.429
s= i
= = 10.47 ≈ 10 angajaţi.
 ni 28
i

Interpretare: În medie, numărul de angajaţi ai unei firme variază de la media grupului cu 10


angajaţi.

c. Reprezentare grafică

O distribuție după o variabilă cantitativă continuă poate fi reprezentată grafic folosind


histograma, curba frecvențelor și diagrama box-plot.

2.2. Variabile calitative

Variabilele calitative pot fi variabile nominale şi variabile ordinale. Ca și în cazul


variabilelor cantitative, prezentarea sintetică a valorilor unei variabile statistice calitative
poate fi realizată prin structurarea datelor într-o serie (distribuție) statistică, prin calculul
indicatorilor statisticii descriptive și prin reprezentarea grafică a seriei.

a. Structurarea datelor statistice


Structurarea datelor corespunzătoare unei variabile statistice calitative presupune
gruparea observațiilor sau unităților statistice pe valori (categorii) ale variabilei statistice X
într-un tabel de date.
Distribuția de frecvență este reprezentată de tabelul valorilor variabilei X și a frecvenței
de apariție a acestor valori.

Exemplul 2.29. Distribuția de frecvență a unei variabile calitative nominale


Pentru un eșantion format din 10 persoane, se înregistrează genul persoanei (masculin,
feminin) și se obțin următoarele rezultate : M, M, F, F, F, F, M, M, F, F.
Să se formeze distribuția frecvențelor absolute și relative.

55
Rezolvare
Distribuția frecvențelor absolute presupune numărarea persoanelor pentru fiecare gen în
parte (masculin și feminin), respectiv aflarea frecvențelor de apariție a fiecărei categorii. În
tabelul de date, în prima coloană se trec cele 2 categorii (masculin și feminin), iar în a doua
coloană se trec aceste frecvențe. Tabelul de date obținut se prezintă astfel :

Tabelul 2.35. Distribuția persoanelor după gen, folosind frecvenţe absolute


Genul persoanei (xi) Numărarea persoanelor în funcție de gen Număr persoane (ni)
Masculin …. 4
Feminin …… 6
TOTAL n=10

Interpretare: Din cele 10 persoane înregistrate, 4 persoane sunt de genul masculin, iar 6 sunt
persoane de genul feminin.

Distribuția frecvențelor relative presupune aflarea ponderii persoanelor de gen masculin


ni
și feminin, respectiv aflarea frecvențelor relative, f i = ⋅100.
n
Tabelul de date obținut se prezintă astfel :

Tabelul 2.36. Distribuția persoanelor după gen, folosind frecvenţe relative


Genul persoanei (xi) Pondere persoane (fi)
Masculin 40 f1 =
4
⋅ 100
10

Feminin 60 f2 =
6
⋅ 100
10

TOTAL 100

Interpretare: Din cele 10 persoane înregistrate, 40% sunt persoane sunt de genul masculin, iar
60% sunt persoane de genul feminin.

Exemplul 2.30. Distribuția de frecvență a unei variabile calitative ordinale


Pentru un eșantion format din 20 persoane, se înregistrează nivelul de studii absolvite
(studii liceale, studii universitare, studii post-universitare și doctorat) și se obțin următoarele
rezultate:

56
Universitar, Universitar, Post-universitar, Liceal, Post-universitar, Post-
universitar, Post-universitar, Universitar, Universitar, Universitar, Liceal, Liceal,
Liceal, Liceal, Universitar, Universitar, Universitar, Liceal, Doctorat, Doctorat.

Să se formeze distribuția frecvențelor absolute și relative.

Rezolvare
Distribuția frecvențelor absolute presupune numărarea persoanelor pentru fiecare nivel
de studii absolvite (studii liceale, studii universitare, studii post-universitare și doctorat) și
gruparea acestor rezultate într-un tabel de forma :

Tabelul 2.37. Distribuția persoanelor după nivelul de studii absolvite


Nivel studii (xi) Număr persoane (ni)
Studii liceale 6
Studii universitare 8
Studii post-universitare 4
Doctorat 2
TOTAL n=20

Interpretare: Din cele 20 persoane înregistrate, 6 persoane au absolvit studii liceale, 8


persoane au absolvit studii universitare, 4 persoane au studii post-universitare și 2 persoane au
doctorat.

Distribuția frecvențelor relative presupune aflarea ponderii persoanelor pentru fiecare


nivel de studii absolvite.
Tabelul de date obținut se prezintă astfel :

Tabelul 2.38. Distribuția persoanelor după nivelul de studii absolvite, folosind frecvenţe relative
Nivel studii (xi) Pondere persoane (fi)
Studii liceale 30 f1 =
6
⋅ 100
20

Studii universitare 40 f2 =
14
⋅ 100
20

Studii post-universitare 20 f3 =
18
⋅ 100
20

Doctorat 10 f4 =
10
⋅ 100
20

TOTAL 100

57
Interpretare: Din cele 20 persoane înregistrate, 30% au absolvit studii liceale, 40% au
absolvit studii universitare, 20% au studii post-universitare și 10% au doctorat.

Observație: Formarea distribuției de frecvență pentru variabilele ordinale presupune


ordonarea categoriilor variabilei de la inferior la superior.

b. Reprezentare grafică

O distribuție după o variabilă calitativă nominală sau ordinală poate fi reprezentată


grafic folosind diagramele cercul de structură (Pie chart) sau diagrama prin coloane (Bar
chart).

Exemplul 2.31. Reprezentarea grafică a variabilelor calitative


Să se reprezinte grafic distribuțiile de frecvență prezentate în tabelele 2.34 şi 2.35.

Rezolvare
Reprezentarea grafică a distribuției frecvențelor absolute și relative se poate realiza
folosind diagramele Pie Chart sau Bar Chart.

Figura 2.10. Distribuția persoanelor după nivelul de studii absolvite

58
Figura 2.11. Distribuția persoanelor după nivelul de studii absolvite

c. Indicatori ai statisticii descriptive

Pentru o variabilă calitativă nominală se poate afla modul, iar pentru o variabilă
calitativă ordinală se pot afla modul, mediana și quartilele.

Exemplul 2.32. Modul pentru o variabilă calitativă nominală


Pentru distribuția persoanelor după gen (masculin și feminin) prezentată în Tabelul
2.33, să se afle valoarea modului.

Rezolvare
Distribuția persoanelor după gen se prezintă astfel:

Tabelul 2.39. Distribuția persoanelor după gen


Genul persoanei (xi) Număr persoane (ni) Pondere persoane (fi)
Masculin 4 40
Feminin 6 60
TOTAL n=10 100

Aflarea modului presupune identificarea categoriei care corespunde frecvenței celei mai
mari. Frecvența absolută cea mai mare este 6, iar frecvența relativă cea mai mare este 60%.
Categoria asociată acesteia este genul « feminin ». Modul este reprezentat de această categorie
(feminin).
59
Interpretare: În eșantionul observat, cele mai multe persoane (6 persoane sau 60%) sunt de
genul feminin.

Exemplul 2.33. Mediana și quartilele pentru o variabilă calitativă ordinală


Pentru distribuția persoanelor după nivelul de studii absolvite, prezentată în Tabelul
2.38, să se afle valoarea mediană și quartila 3.

Rezolvare
Mediana
Pentru aflarea medianei, se parcurg etapele prezentate pentru o variabilă cantitativă
discretă, și anume:
20 + 1
- se calculează unitatea mediană: U Me = = 10,5 ;
2
- se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:

Tabelul 2.40. Distribuția persoanelor după nivelul de studii absolvite


Nivel studii (xi) Număr persoane (ni) Ni↓
Studii liceale 6 6
Studii universitare 8 14
Studii post-universitare 4 18
Doctorat 2 20
TOTAL n=20

- prima valoare N i ↓≥ U Me este ( N i ↓= 14) ≥ (U Me = 10,5) . În dreptul acestei valori se


citește mediana : Me este reprezentată de categoria Studii universitare.

Interpretare: 50% din numărul total de persoane au cel mult studiile universitare absolvite.

Quartila 3
Pentru aflarea quartilei 3, se parcurg etapele prezentate pentru o variabilă cantitativă
discretă, și anume:
3(20 + 1)
- se calculează unitatea mediană: U Me = = 15,75 ;
4

60
- se află prima valoare N i ↓≥ U Me , și anume : ( N i ↓= 17) ≥ (U Me = 15,75) . În dreptul
acestei valori se citește mediana : Me este reprezentată de categoria Studii post-
universitare.

Interpretare: 75% din numărul total de persoane au cel mult studiile post-universitare
absolvite.

61
US 3. ANALIZA UNEI SERII STATISTICE BIVARIATE

Cuprins

3.1. Structurarea datelor


3.2. Distribuția după o variabilă cantitativă (X) și o variabilă calitativă (Y)
3.3. Analiza statistică descriptivă a distribuției bivariate

Rezumat

În acest capitol sunt prezentate metodele de analiză statistică bivariată a datelor. Analiza
bivariată a datelor presupune analiza unor unități statistice după variația simultană a două
variabile. Pentru realizarea acestei analize, este necesară gruparea acestora într-un tabel cu
dubă intrare și calculul frecvențelor absolute și relative marginale, parțiale și condiționate.
Analiza statistică descriptivă a unui tabel cu dublă intrare (a unei distribuții bivariate) se poate
realiza prin calculul mediilor și varianțelor de grupă, a mediei și varianței pe total eșantion (în
cazul în care o variabilă dintre cele două este cantitativă).

Bibliografie

1. Andrei, T., Statistică şi econometrie, Ed. Economică, 2003


2. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002
3. James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and
Economics, Pearson, Education New Jersey, 2008
4. Weiss, N, A., Elementary Statistics, Pearson, 2012
5. Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.

62
US 3. ANALIZA UNEI SERII STATISTICE BIVARIATE

Analiza bivariată presupune analiza statistică a distribuției unor efective după variația
valorilor a două variabile în mod simultan.

3.1. Structurarea datelor

Structurarea datelor înregistrate pentru două variabile statistice, X și Y, presupune


gruparea observațiilor sau unităților statistice după variația simultană a valorilor xi și yj ale
celor două variabile. Efectivele care înregistrează simultan valorile xi și yj ale variabilelor X și
Y sunt notate cu nij.

3.1.1. Tabelul cu dublă intrare

Tabelul de date care prezintă aceste valori poartă denumirea de tabel cu dublă intrare.
Distribuția obținută este o distribuție bivariată definită de :
- variabila X : ( xi ), cu i=1,m;

- variabila Y : ( y j ), cu j=1,p;

- frecvențele absolute nij, cu i=1,m și j=1,p.

Exemplul 3.1. Distribuția de frecvență a unităților statistice după 2 variabile


Se înregistrează pentru un eșantion format din 10 persoane salariul lunar (sute lei) și
nivelul de studii absolvite (studii liceale, studii universitare și studii post-universitare) și se
obțin următoarele rezultate:
Nivel de studii Salariu
Liceale 10
Universitare 19
Liceale 12
Liceale 12
Universitare 22
Post-universitare 25
Universitare 22
Universitare 19
Universitare 22
Post-universitare 27

63
Să se formeze distribuția de frecvență.

Rezolvare
Pentru aceasta, se consideră variabilele:
X : Salariul, cu xi, i=1,6 (valorile 10, 12, 19,22,25,27);
Y : Nivelul de studii, cu yj, j=1,3 (valorile Liceale, Universitare, Post-universitare)
Formarea distribuției bivariate presupune parcurgerea următoarelor etape:
- se ordonează în sens crescător valorile variabilei X și se trec în prima coloană a unui
tabel;
- se ordonează categoriile variabilei Y;
- se numără persoanele care au un anumit nivel de studii și un anumit salariu. De
exemplu, numărul de persoane care au studii liceale și obțin un salariu lunar de 12 sute
lei este egal cu 2.
Rezultatele centralizate pentru toate valorile celor 2 variabile se prezintă astfel :

Tabelul 3.1. Distribuția bivariată de frecvență


Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2

Interpretare: O persoană are studii liceale și un salariu lunar de 10 sute lei, 2 persoane cu
studii liceale au un salariu de 12 sute lei etc.

3.1.2. Tipuri de variabile

Variabilele X și Y pot fi diferite din punctul de vedere al naturii lor și putem întâlni
următoarele situații:
- o variabilă cantitativă (discretă sau continuă) și o variabilă calitativă.
- ambele variabile cantitative, discrete și/sau continue;
- ambele variabile calitative, nominale și/sau ordinale;

64
Vom prezenta în continuare modul de analiză statistică pentru o variabilă cantitativă și o
variabilă calitativă.

3.2. Distribuția după o variabilă cantitativă (X) și o variabilă calitativă (Y)

Distribuția după o variabilă cantitativă discretă, X : ( xi ), cu i=1,m, și o variabilă

calitativă (nominală sau ordinală), Y : ( y j ), cu j=1,p, prezintă repartiția efectivelor sau

frecvențelor absolute nij după variația simultană a valorilor xi și yj. În cazul variabilelor
cantitative continue (grupate pe intervale de variație ( xi−1 − xi ) ) se consideră ca valori ale

xi −1 + xi
variabilei X centrul intervalelor de variabile, respectiv valorile xi' = .
2
În cele ce urmează, vom prezenta doar cazul variabilelor cantitative discrete. Pentru o
distribuție bivariată, se pot afla frecvențe absolute și relative, marginale, parțiale și
condiționate.

3.2.1. Frecvențe absolute marginale, parțiale și condiționate


a. Frecvențe absolute marginale

Frecvențele absolute marginale pot fi calculate pentru fiecare dintre variabilele X și Y.


Frecvențele absolute marginale pentru variabila X, notate ni• , reprezintă numărul total de
unități pentru fiecare valoare xi a variabilei X. Se află adunând unitățile totale care
înregistrează valoarea xi, astfel: ni• =  nij .
j

Frecvențele absolute marginale pentru variabila Y, notate n• j , reprezintă numărul total

de unități pe valori yj ale variabilei Y. Se află adunând unitățile totale care înregistrează
valoarea yj, astfel: n• j =  nij .
i

Exemplul 3.2. Frecvențe absolute marginale pentru variabilele X și Y


Se consideră distribuția unui eșantion de persoane după salariul lunar (X, sute lei) și
nivelul de studii absolvite (Y), prezentată astfel:

65
Tabelul 3.2. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2

Să se afle frecvențele absolute marginale pentru variabila X și variabila Y.

Rezolvare
Frecvențele absolute marginale pentru variabila X ( ni• )
Frecvențele absolute marginale pentru variabila X: Salariu se află adunând numărul de
persoane pentru fiecare valoare a salariului, după cum urmează:
- Salariul lunar x1=10 sute lei este obținut de (1+0+0) persoane, deci n1• = 1 + 0 + 0 = 1
persoană;
- Salariul lunar x2=12 sute lei este obținut de (2+0+0) persoane, deci n2• = 2 + 0 + 0 = 2
persoane;
- ș.a.m.d.

Interpretare: Din numărul total de persoane din eșantion, o persoană are un salariu lunar de
10 sute lei, 2 persoane au 12 sute lei etc.

Frecvențele absolute marginale pentru variabila Y ( n• j )

Frecvențele absolute marginale pentru variabila Y: Nivel de studii se află adunând


numărul de persoane pentru fiecare nivel de studii absolvite, după cum urmează:
- Pentru nivelul de studii liceale, y1, avem (1+2+0+…+0) persoane, deci
n•1 = 1 + 2 + 0 + ... + 0 = 3 persoane;
- Pentru nivelul de studii universitare, y2, avem (0+0+2+2+…+0) persoane, deci
n•2 = 0 + 0 + 2 + 2 + 0 + 0 = 4 persoane ;
- Pentru nivelul de studii post-universitare, y3, avem 3 persoane, deci
n•3 = 0 + 0 + 0 + 0 + 1 + 2 = 3 persoane.

66
Interpretare: Din numărul total de persoane din eșantion, 3 persoane au studii liceale, 4
persoane au studii universitare și 3 persoane au studii post-universitare.

Observație: Frecvențele marginale sunt folosite pentru a construi distribuțiile marginale în X,


respectiv Y (prezentate în paragraful 3.2.3).

b. Frecvențe absolute parțiale

Frecvențele absolute parțiale sunt efectivele nij care înregistrează în mod simultan
valorile xi pentru variabila X și yj pentru variabila Y.

Exemplul 3.3. Frecvențe absolute parțiale


Se consideră distribuția unui eșantion de persoane după salariul lunar (X, sute lei)
nivelul de studii absolvite (Y) și prezentată astfel:

Tabelul 3.3. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2

Să se afle frecvența absolută parțială n32.

Rezolvare
Frecvența absolută parțială n32 este reprezentată de numărul de persoane care au un
salariu lunar egal cu x3=19 sute lei și au un nivel de studii universitare (y2). Această frecvență
este n32=2.

Interpretare: Din numărul total de persoane din eșantion, 2 persoane au un salariu de 19 sute
lei și au studiile universitare absolvite.

67
c. Frecvențe absolute condiționate

Frecvențele absolute condiționate pot fi aflate pentru fiecare valoare xi a variabilei X,


respectiv pentru fiecare valoare yj a variabilei Y.
Frecvențele absolute condiționate de o valoare fixă xi a variabilei X sunt frecvențele
absolute nij înregistrate pe valori yj (condiționate de un nivel fix al variabilei X: X=xi).
Frecvențele absolute condiționate de o valoare fixă yj a variabilei Y sunt frecvențele
absolute nij înregistrate pe valori xi (condiționate de un nivel fix al variabilei Y: Y= yj).

Exemplul 3.4. Frecvențe absolute condiționate


Pentru distribuția prezentată în tabelul 3.1, să se precizeze frecvențele absolute
condiționate de nivelul X=x2 și frecvențele absolute condiționate de nivelul Y=y3.

Rezolvare
Frecvențele absolute condiționate de nivelul X=x2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Pentru această valoare,
frecvențele absolute condiționate sunt: 2, 0, 0.

Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, 2 persoane
au studii liceale și nicio persoană nu are studii universitare sau post-universitare.

Frecvențele absolute condiționate de nivelul Y=y3


Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Pentru această
valoare, frecvențele absolute condiționate sunt: 0,0,0,0,1,2.

Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei, o persoană are 25 sute lei și 2 persoane au 27
sute lei.

Observație: Frecvențele condiționate sunt folosite pentru a forma distribuția condiționată în X,


respectiv Y (prezentate în paragraful 3.2.4).

68
3.2.2. Frecvențe relative marginale, parțiale și condiționate
a. Frecvențe relative marginale

Frecvențele relative marginale pentru variabila X, notate fi• , reprezintă ponderea


unităților (frecvențelor absolute marginale ale variabilei X) pe valori xi ale variabilei X. Se
ni•
calculează astfel: f i• = .
n
Frecvențele relative marginale pentru variabila Y, notate f • j , reprezintă ponderea

unităților (frecvențelor absolute marginale ale variabilei Y) pe valori yj ale variabilei Y. Se


n• j
calculează astfel: f • j = .
n

Exemplul 3.5. Frecvențe relative marginale


Se consideră distribuția unui eșantion de persoane după salariul lunar (X, sute lei) și
nivelul de studii absolvite (Y), prezentată astfel:

Tabelul 3.4. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2

Să se afle frecvențele relative marginale pentru variabila X și variabila Y.

Rezolvare
Frecvențele relative marginale pentru variabila X ( f i• )
Frecvențele relative marginale pentru variabila X: Salariu se află împărțind frecvența
absolută marginală (ni.) la numărul total de persoane din eșantion, după cum urmează:
- Salariul lunar x1=10 sute lei este obținut de 1 persoană din cele 10 persoane din
n1• 1
eșantion, deci f1• = = = 0,10 sau 10%;
n 10

69
- Salariul lunar x2=12 sute lei este obținut de 2 persoane dintr-un total de 10, deci
n2• 2
f1• = = = 0,20 sau 20%;
n 10
- ș.a.m.d.

Interpretare: Din numărul total de persoane din eșantion, 10% au un salariu lunar de 10 sute
lei, 20% au 12 sute lei etc.

Frecvențele absolute marginale pentru variabila Y ( f • j )

Frecvențele absolute marginale pentru variabila Y: Nivel de studii se află împărțind


frecvența absolută marginală (n.j) la numărul total de persoane din eșantion, după cum
urmează:
- Pentru nivelul de studii liceale, y1, avem 3 persoane dintr-un total de 10, deci
n•1 3
f •1 = = = 0,30 sau 30%;
n 10
- Pentru nivelul de studii universitare, y2, avem 4 persoane din 10, deci
n•2 4
f •2 = = = 0,40 sau 40%;
n 10
- Pentru nivelul de studii post-universitare, y2, avem 3 persoane din 10, deci
n•3 3
f •3 = = = 0,30 sau 30%.
n 10

Interpretare: Din numărul total de persoane din eșantion, 30% au studii liceale, 40% au studii
universitare și 30% au studii post-universitare.

b. Frecvențele relative parțiale (fij)

Frecvențele relative parțiale reprezintă ponderea efectivelor nij care înregistrează în mod
simultan valorile xi pentru variabila X și yj pentru variabila Y. Se calculează după relația:
nij
f ij = .
n

Exemplul 3.6. Frecvențe relative parțiale


Se consideră distribuția unui eșantion de persoane după salariul lunar (X, sute lei) și
nivelul de studii absolvite (Y), prezentată astfel:

70
Tabelul 3.5. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2

Să se afle frecvența relativă parțială f32.

Rezolvare
Frecvența relativă parțială f32 este reprezentată de ponderea persoanelor care au un
salariu lunar egal cu x3=19 sute lei și au un nivel de studii universitare (y2). Această frecvență
n32 2
este f 32 = = = 0,20 sau 20%.
n 10

Interpretare: Din numărul total de persoane din eșantion, 20% au un salariu de 19 sute lei și
au studiile universitare absolvite.

c. Frecvențe relative condiționate

Frecvențele relative condiționate pot fi aflate pentru fiecare valoare xi a variabilei X,


respectiv pentru fiecare valoare yj a variabilei Y.
Frecvențele relative condiționate de o valoare fixă xi a variabilei X sunt frecvențele
nij
relative: f j / i = , cu i valoare fixă.
ni•
Frecvențele relative condiționate de o valoare fixă yj a variabilei Y sunt frecvențele
nij
relative: f i / j = , cu j valoare fixă.
n• j

Exemplul 3.7. Frecvențe relative condiționate


Pentru distribuția prezentată în tabelul 3.1, să se precizeze frecvențele relative
condiționate de nivelul X=x2 și frecvențele relative condiționate de nivelul Y=y3.

71
Rezolvare
Frecvențele relative condiționate de nivelul X=x2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Pentru această valoare,
frecvențele absolute condiționate sunt: 2, 0, 0. Numărul total de persoane cu salariul de 12
sute lei ( n 2• ) este deci 2+0+0=2 persoane.
Ponderea persoanelor care au un salariu de 12 sute lei pe diferite nivele de studii
absolvite este:
n1 j 2
- Pentru nivelul de studii liceale: f j /1 = = = 1 sau 100%;
n1• 2

n2 j 0
- Pentru nivelul de studii universitare: f j / 2 = = = 0;
n2• 2

n3 j 0
- Pentru nivelul de studii post-universitare: f j / 3 = = = 0.
n3• 2

Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, toate
persoanele (100%) au studii liceale (nicio persoană nu are studii universitare sau post-
universitare).

Frecvențe relative condiționate de nivelul Y=y3


Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Pentru această
valoare, frecvențele absolute condiționate sunt: 0,0,0,0,1,2. Număarul total de persoane cu
studii post-universitare ( n •3 ) este deci 0+0+..+1+2=3 persoane.
Ponderea persoanelor care au studii post-universitare pe nivele de salariu se calculează
astfel:
ni 3 0
- Pentru salariul de 10 sute lei: f i / 3 = = = 0;
n•3 3

ni 3 0
- Pentru salariul de 12 sute lei: f i / 3 = = = 0;
n•3 3

M
ni 3 1
- Pentru salariul de 25 sute lei: f i / 3 = = = 0,33 ;
n•3 3

ni 3 2
- Pentru salariul de 27 sute lei: f i / 3 = = = 0,67 .
n•3 3

72
Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei, 33% au 25 sute lei și 67% au 27 sute lei.

3.2.3. Distribuții marginale

Folosind frecvențele absolute sau relative marginale, plecând de la o distribuție bivariată


se pot forma două distribuții marginale în X, respectiv în Y.

a. Distribuția marginală în X

Distribuția marginală în X este formată din valorile xi ale variabilei X și frecvențele


absolute sau relative marginale, ni• , respectiv fi• .
Forma generală a acestei distribuții este:

Tabelul 3.6. Distribuția marginală în X


Valori ale variabilei X (xi) Frecvențe absolute marginale ( ni• ) Frecvențe relative marginale ( f i• )
x1 n1• f1•
x2 n 2• f 2•

M M M
xi ni• f i•
M M M
xm nm• f m•
TOTAL n 1

Exemplul 3.8. Distribuția marginală în X


Pentru distribuția persoanelor după salariul lunar (X, sute lei) și nivelul de studii (Y),
prezentată în tabelul 3.1, să se formeze distribuția marginală în X.

Rezolvare
Pentru formarea distribuției marginale, se calculează frecvențele absolute și relative
marginale ni• , respectiv fi• .
Aceste valori sunt prezentate în ultimele coloane ale tabelelor de mai jos :

73
Tabelul 3.7. Distribuția frecvențelor absolute marginale în X
Salariu/ Nivel de studii Liceale Universitare Post-universitare TOTAL ( ni• )
10 1 0 0 1
12 2 0 0 2
19 0 2 0 2
22 0 2 0 2
25 0 0 1 1
27 0 0 2 2
TOTAL 10

Tabelul 3.8. Distribuția frecvențelor relative marginale în Y


Salariu/ Nivel de studii Liceale Universitare Post-universitare TOTAL ( f i• )
10 1 0 0 0,10
12 2 0 0 0,20
19 0 2 0 0,20
22 0 2 0 0,20
25 0 0 1 0,10
27 0 0 2 0,20
TOTAL 1

Distribuția marginală în X se prezintă astfel:

Tabelul 3.9. Distribuția marginală în X


Salariu Frecvențe absolute ( ni• ) Frecvențe relative ( f i• )
10 1 0,10
12 2 0,20
19 2 0,20
22 2 0,20
25 1 0,10
27 2 0,20
TOTAL 10 1

Interpretare: Din numărul total de persoane, o persoană, care reprezintă 10% din numărul
total de persoane din eșantion, are un salariu lunar de 10 sute lei; 2 persoane, care reprezintă
20% din total, au un salariu de 12 sute lei etc.

74
b. Distribuția marginală în Y

Distribuția marginală în Y este formată din valorile yj ale variabilei Y și frecvențele


absolute sau relative marginale, n• j , respectiv f • j .

Forma generală a acestei distribuții este:

Tabelul 3.10. Distribuția marginală în Y


Valori ale variabilei Y (yj) Frecvențe absolute marginale ( n• j ) Frecvențe relative marginale ( f• j )

y1 n•1 f •1
y2 n• 2 f •2

M M M
yi n• j f• j

M M M
yp n• p f• p

TOTAL n 1

Exemplul 3.9. Distribuția marginală în Y


Pentru distribuția persoanelor după salariul lunar (X, sute lei) și nivelul de studii (Y),
prezentată în tabelul 3.1, să se formeze distribuția marginală în Y.

Rezolvare
Pentru formarea distribuției marginale, se calculează frecvențele absolute și relative
marginale n• j , respectiv f • j . Aceste valori sunt prezentate în ultimele coloane ale tabelelor

de mai jos :
Tabelul 3.11. Distribuția frecvențelor absolute marginale în Y
Salariu/ Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
TOTAL ( n• j ) 3 4 3 10

75
Tabelul 3.12. Distribuția frecvențelor relative marginale în Y
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
TOTAL ( f• j ) 0,30 0,40 0,30 1

Distribuția marginală în Y se prezintă astfel :

Tabelul 3.13. Distribuția marginală în Y


Nivel de studii Frecvențe absolute ( ni• ) Frecvențe relative ( f i• )
Liceale 3 0,30
Universitare 4 0,40
Post-universitare 3 0,30
TOTAL 10 1

Interpretare: Din numărul total de persoane, 3 persoane, care reprezintă 30% din numărul
total de persoane din eșantion, au studii liceale; 4 persoane, care reprezintă 40% din total, au
studii universitare și 3 persoane, care reprezintă 30% au studii post-universitare.

Observație: Distribuția marginală în X prezintă structura efectivelor pe nivele de salarizare,


iar distribuția marginală în Y prezintă structura pe nivele de studii absolvite.

3.2.4. Distribuții condiționate

Folosind frecvențele absolute sau relative condiționate, plecând de la o distribuție


bivariată se pot forma (m+p) distribuții condiționate.
Distribuția condiționată a variabilei X este definită de valorile xi și frecvențele absolute
(nij) sau relative (fi/j) condiționate de un nivel fix al lui Y: Y=yj.
Distribuția condiționată a variabilei Y este definită de valorile yj și frecvențele absolute
(nij) sau relative (fj/i) condiționate de un nivel fix al lui X: X= xi.

76
Exemplul 3.10. Distribuții condiționate în X și Y
Pentru distribuția prezentată în tabelul 3.1, să se formeze distribuția variabilei X
condiționată de nivelul Y=y3 și distribuția variabilei Y condiționată de nivelul X=x2 .

Rezolvare
Distribuția condiționată X/ Y=y3
Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Distribuția pe
nivele de salarii pentru persoanele cu studii post-universitare, folosind frecvențe absolute și
relative condiționate, se prezintă astfel:

Tabelul 3.14. Distribuția persoanelor cu studii post-universitare pe nivele de salarii


Salariu Număr persoane Ponderea persoanelor
10 0 0
12 0 0
19 0 0
22 0 0
25 1 0,33
27 2 0,67
Total ( n• j ) 3 1

Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei; o persoană, care reprezintă 33% din numărul
total de persoane, are 25 sute lei și 2 persoan3, care reprezintă 67% din numărul total de
persoane are 67%, au 27 sute lei.

Distribuția condiționată Y/ X=x2


Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Distribuția pe nivele de studii
absolvite pentru persoanele care au un salariu de 12 sute lei, folosind frecvențe absolute și
relative condiționate, se prezintă astfel:
Tabelul 3.15. Distribuția pe nivele de studii a persoanelor care au un salariu de 12 sute lei
Nivel de studii Număr persoane Ponderea persoanelor
Liceale 2 1
Universitare 0 0
Post-universitare 0 0
Total 2 1

77
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, toate
persoanele (100%) au studii liceale (nicio persoană nu are studii universitare sau post-
universitare).

3.3. Analiza statistică descriptivă a distribuției bivariate

Analiza statistică descriptivă a unei distribuții bivariate după o variabilă cantitativă (X)
și o variabilă calitativă (Y) presupune, ca și în cazul analizei univariate, aprecierea tendinței
centrale (mediei variabilei X) și dispersiei valorilor variabilei X față de nivelul mediu. În
acest caz, însă, analiza descriptivă (calculul mediei și varianței variabilei X) se realizează pe
grupe (categorii) ale variabilei Y.

3.3.1. Media pe total eșantion ( x )

Aprecierea tendinței centrale a variabilei cantitative se realizează prin calculul mediei


variabilei X sau mediei pe total eșantion.
Media variabilei X poate fi calculată atât ca medie a valorilor xi, considerând distribuția
marginală a variabilei X, cât și ca medie a mediilor calculate pentru fiecare grupă (categorie) a
variabilei calitative Y.

a. Media pe total calculată pe baza distribuției marginale ( x )

Ca și în cazul unei distribuții univariate, considerând frecvențele absolute și relative


marginale, ni• și fi• , media se calculează după relațiile:

 xi ⋅ ni•
x= i
=  xi ⋅ f i• .
n i

78
Exemplul 3.11. Media pe total eșantion
Se consideră distribuția marginală prezentată în tabelul de mai jos:

Tabelul 3.16. Distribuția marginală în X


Salariu Frecvențe absolute ( ni• ) Frecvențe relative ( f i• )

10 1 0,10
12 2 0,20
19 2 0,20
22 2 0,20
25 1 0,10
27 2 0,20
Total 10 1

Să se calculeze salariul mediu pe total eșantion.

Rezolvare
Salariul mediu pe total eșantion se calculează astfel :
- folosind frecvențe absolute marginale :

 x ⋅ni i•
10 ⋅ 1 + 12 ⋅ 2 + ... + 27 ⋅ 2
x= i
= = 19 ,50 sute lei
n 10
- folosind frecvențe absolute marginale :
x =  xi ⋅ f i• = 10 ⋅ 0,10 + 12 ⋅ 0,20 + ... + 27 ⋅ 0,20 = 19,50 sute lei
i

Interpretare: Salariul mediu al persoanelor din eșantionul observat este de 19,5 sute lei.

b. Media pe total calculată pe baza mediilor condiționate (pe grupe) ( x j )

Pentru o variabilă cantitativă, X, se pot calcula medii pentru fiecare categorie (grupă) a
variabilei Y. Mediile pe categorii ale variabilei Y se calculează astfel:

 x ⋅n i ij
xj = i
, cu i=1, m și j=1, p.
n• j

Folosind mediile condiționate pe grupe, se poate calcula media pe total ca o medie a


mediilor condiționate, astfel:

79
x j ⋅ n• j
x= j
.
n
Exemplul 3.12. Medii condiționate (pe grupe)
Pentru distribuția din tabelul 3.1, să se calculeze salariile medii pentru persoanele cu
studii liceale, universitare și post-universitare.

Rezolvare
Distribuțiile condiționate pentru cele 3 nivele de studii se prezintă astfel:

Tabelul 3.17. Distribuțiile condiționate de valorile variabilei Y


Studii liceale Studii universitare Studii post-universitare
Salariu Nr. persoane Salariu Nr. persoane Salariu Nr. persoane
10 1 10 0 10 0
12 2 12 0 12 0
19 0 19 2 19 0
22 0 22 2 22 0
25 0 25 0 25 1
27 0 27 0 27 2
Total 3 Total 4 Total 3

Salariile medii pentru fiecare nivel de studii se calculează astfel :


- pentru nivelul de studii liceale:
10 ⋅ 1 + 12 ⋅ 2 + 19 ⋅ 0 + ... + 27 ⋅ 0
x1 = = 11,333 sute lei;
3
- pentru nivelul de studii universitare:
10 ⋅ 0 + 12 ⋅ 0 + 19 ⋅ 2 + 22 ⋅ 2 + ... + 27 ⋅ 0
x2 = = 20,50 sute lei;
4
- pentru nivelul de studii post-universitare:
10 ⋅ 0 + 12 ⋅ 0 + ... + 25 ⋅ 1 + 27 ⋅ 2
x3 = = 26,333 sute lei.
3

Interpretare: Salariul mediu al persoanelor cu studii liceale este de 11,333 sute lei, al
persoanelor cu studii universitare este de 20,5 sute lei iar al persoanelor cu studii post-
universitare este de 26,333 sute lei.

80
Exemplul 3.13. Calculul mediei pe total folosind mediile condiționate
Pentru distribuția din tabelul 3.17, să se calculeze salariul mediu pentru eșantionul
observat, știind că : x1 = 11,333 sute lei, x2 = 20,50 sute lei și x3 = 26,333 sute lei.

Rezolvare
Media pe total se calculează ca o medie ponderată astfel :
11,333 ⋅ 3 + 20,50 ⋅ 4 + 26,333 ⋅ 3
x= = 19,5 sute lei.
10
Interpretare: Salariul mediu al persoanelor din eșantionul observat este de 19,5 sute lei.

Observație: Media pe total (19,5 sute lei) este aceiași folosind distribuția marginală în X sau
mediile condiționate oe grupe ale variabilei Y.

3.3.2. Varianța pe total eșantion ( s 2 )

Aprecierea dispersiei la nivelul eșantionului se realizează prin calculul varianței. În


cazul observării unei variabile cantitative (X) pe grupe sau categorii ale unei variabile
calitative Y, pentru a explica variația valorilor xi față de media lor, variația totală se
descompune în următoarele componente:
- Variația intra-grupe sau variația în interiorul fiecărei grupe a variabilei calitative.
Măsurarea variației intra-grupe se realizează prin calculul varianței intra-grupe. Pentru
a aprecia varianța intra-grupe la nivelul întregului eșantion, se calculează media
acestor varianțe de grupă. Acest indicator măsoară influența factorilor aleatori asupra
variației totale.
- Variația inter-grupe sau variația mediei fiecărei grupe față de media totală. Măsurarea
variației inter-grupe se realizează prin calculul varianței inter-grupe. Această varianță
măsoară influența factorilor esențiali (de grupare) asupra variației totale.

Relația de descompunere a varianței totale poate fi scrisă astfel:


Varianța totală = Varianța intra-grupe + Varianța inter-grupe

81
a. Varianța intra-grupe

Varianța intra-grupe la nivelul întregului eșantion se calculează ca medie a varianțelor


calculate la nivelul fiecărei grupe a variabilei calitative Y. Varianța calculată pe fiecare grupă
se numește și varianță condiționată (pe grupe).

a.1. Varianța condiționată (pe grupe) ( s 2j )

Varianța condiționată (pe grupe) măsoară variația valorilor unei variabile X pe categorii
(grupe) ale unei variabile Y. Considerând variabila cantitativă X, varianțele condiționate,
pentru fiecare grupă j a variabilei Y, se calculează astfel :
 ( x i − x j ) ⋅ nij
2

s =
2
j
i
.
n• j

Aceste varianțe măsoară omogenitatea unei grupe și permit aprecierea reprezentativității


mediei pe fiecare grupă a variabilei Y.

Exemplul 3.14. Calculul varianțelor condiționate (pe grupe)


Pentru distribuția din tabelul 3.1, să se calculeze varianțele condiționate pentru cele 3
categorii de nivel de studii absolvite, știind că : x1 = 11,333 sute lei, x 2 = 20 ,50 sute lei și
x 3 = 26,333 sute lei.

Rezolvare
Distribuțiile condiționate pentru cele 3 nivele de studii se prezintă astfel :

Tabelul 3.18. Distribuțiile condiționate de valorile variabilei Y


Studii liceale Studii universitare Studii post-universitare
Salariu Nr. persoane Salariu Nr. persoane Salariu Nr. persoane
10 1 10 0 10 0
12 2 12 0 12 0
19 0 19 2 19 0
22 0 22 2 22 0
25 0 25 0 25 1
27 0 27 0 27 2
Total 3 Total 4 Total 3

82
Varianțele condiționate pe grupe se calculează astfel :
- pentru nivelul de studii liceale:
(10 − 11,333) 2 ⋅ 1 + (12 − 11,333) 2 ⋅ 2 + ... + (27 − 11,333) 2 ⋅ 0
s12 = = 0,8889 ;
3
- pentru nivelul de studii universitare:
(10 − 20,50) 2 ⋅ 0 + (12 − 20,50) 2 ⋅ 0 + (19 − 20,50) 2 ⋅ 2 + ... + (27 − 20,50) 2 ⋅ 0
s =2
2 = 2,25 ;
4
- pentru nivelul de studii post-universitare:
(10 − 26,333) 2 ⋅ 0 + ... + (25 − 26,333) 2 ⋅1 + (27 − 26,333) 2 ⋅ 2
s =
2
3 = 0,8889 .
3

Interpretare: Varianțele condiționate nu se interpretează. Pentru aprecierea variației trebuie


calculate abaterile standard.

Exemplul 3.15. Aprecierea omogenității grupelor


Se cunosc mediile și varianțele pentru 3 nivele de studii absolvite, prezentate astfel:

Studii liceale Studii universitare Studii post-universitare


x1 = 11,333 sute lei x 2 = 20 ,50 sute lei x 3 = 26,333 sute lei

s12 = 0,8889 s 22 = 2,25 s 32 = 0,8889


Se cere să se aprecieze omogenitatea fiecărei grupe.

Rezolvare
Pentru aprecierea omogenității fiecărei grupe, se calculează coeficientul de variație
astfel:
- pentru nivelul de studii liceale:
s1 0,8889
v1 = ⋅100 = ⋅100 = 8,32%
x1 11,333
- pentru nivelul de studii universitare:
s2 2,25
v2 = ⋅100 = ⋅100 = 7,31%
x2 20,50
- pentru nivelul de studii post-universitare:
s3 0,8889
v3 = ⋅100 = ⋅100 = 3,58%
x3 26,333

83
Interpretare: Valorile coeficienților de variație (mai mici decât 50%) evidențiază faptul că
toate cele 3 grupe de studii absolvite sunt omogene din punctul de vedere al salariului lunar,
iar mediile calculate sunt reprezentative pentru fiecare grupă.

2
a.2. Media varianțelor de grupă ( s )

Pentru a măsura variația intra-grupe la nivelul eșantionului observat, se calculează


media varianțelor de grupă. Considerând varianțele condiționate calculate pentru fiecare grupă
j a variabilei Y ( s 2j ), media varianțelor de grupă se calculează astfel :

 sj
2
⋅ n• j
s2 =
j
.
n
Media varianțelor de grupă arată influența factorilor aleatori asupra variației salariului.

Exemplul 3.16. Media varianțelor de grupă


Se cunosc mediile și varianțele pentru cele 3 nivele de studii absolvite, prezentate astfel:

Studii liceale Studii universitare Studii post-universitare


x1 = 11,333 sute lei x 2 = 20 ,50 sute lei x 3 = 26,333 sute lei

s12 = 0,8889 s 22 = 2,25 s 32 = 0,8889


n•1 = 3 n•2 = 4 n •3 = 3

Se cere să se măsoare influența factorilor aleatori asupra variației salariului.

Rezolvare
Pentru aprecierea influenței factorilor aleatori asupra variației salariului se calculează
media varianțelor de grupă astfel :
0,8889 ⋅ 3 + 2,25 ⋅ 4 + 0,8889 ⋅ 3
s2 = = 1,433
10

84
2
b. Varianța inter-grupe ( s x j )

Varianța inter-grupe se calculează ca varianța mediilor de grupă ( x j )față de media lor

( x ), astfel:
 (x j − x ) 2 ⋅ n• j
s x2j = j
.
n
Varianța mediilor de grupă față de media lor arată influența factorilor esențiali, de
grupare asupra variației salariului (variația inter-grupe).

Exemplul 3.17. Varianța inter-grupe


Se cunosc mediile și varianțele pentru cele 3 nivele de studii absolvite, prezentate astfel:

Studii liceale Studii universitare Studii post-universitare


x1 = 11,333 sute lei x 2 = 20 ,50 sute lei x 3 = 26,333 sute lei

s12 = 0,8889 s 22 = 2,25 s 32 = 0,8889


n•1 = 3 n•2 = 4 n•3 = 3

Se cunoaște că media pe total este 19,5 sute lei.


Se cere să se măsoare influența factorilor esențiali asupra variației salariului.

Rezolvare
Pentru aprecierea influenței factorilor esențiali asupra variației salariului se calculează
varianța mediilor de grupă față de media lor astfel:
(11,333 − 19 ,5) 2 ⋅ 3 + ( 20 ,50 − 19 ,5) 2 ⋅ 4 + ( 26 ,333 − 19 ,5) 2 ⋅ 3
s x2j = = 3,44 .
10

c. Varianța totală ( s 2 )

Varianța totală este suma varianței intra-grupe și a varianței inter-grupe.


s 2 = s 2 + s x2j .

Plecând de la această relație, se pot calcula 2 coeficienți, k1 și k2, după cum urmează:

85
s x2j
- Coeficientul k1 = ⋅ 100 măsoară influența factorilor esențiali asupra variației
s2
variabilei X;
s2
- Coeficientul k 2 = ⋅ 100 măsoară influența factorilor aleatori asupra variației
s2
variabilei X.
Suma acestor 2 coeficienți este 100, astfel încât se poate considera că atunci când k1>k2,
factorii esențiali au o influență mai mare asupra variației variabilei X față de factorii aleatori.

Exemplul 3.18. Măsurarea influenței factorilor esențiali și aleatori asupra variației


Pentru distribuția unui eșantion de persoane după salariul obținut și nivelul de studii, se
cunosc următoarele rezultate :
s 2 = 1,433 ; s x2j = 3,44 .

Se cere să se aprecieze care factori (esențiali sau aleatori) au o influență mai mare
asupra variației salariului.

Rezolvare
Pentru a măsura influența factorilor esențiali și aleatori asupra variației unei variabile, se
află varianța totală :
s 2 = s x2j + s 2 = 3,44 + 1,433 = 4,873 .

Coeficientul care măsoară influența factorilor esențiali asupra variației salariului este:
s x2j 3,44
k1 = 2
⋅ 100 = ⋅ 100 = 70,59 % ;
s 4,873
Coeficientul care măsoară influența factorilor aleatori asupra variației salariului este:
s2 1,433
k2 = 2
⋅ 100 = ⋅ 100 = 29,41% .
s 4,873
Interpretare: Coeficientul (k1=70,59%)>(k2=29,41%) ceea ce arată că factorii esențiali au o
influență mai mare asupra variației variabilei X față de factorii aleatori.

86
PARTEA A DOUA. STATISTICĂ INFERENŢIALĂ

US4. NOŢIUNI ŞI NOTAŢII FOLOSITE ÎN STATISTICA INFERENŢIALĂ

Cuprins

4.1. Populaţie şi eşantion


4.2. Parametri şi estimaţii
4.3. Noţiunea de probabilitate
4.4. Abaterea standard şi distribuţia normală
4.5. Distribuţia Student
4.6. Distribuţia de selecţie a mediei

Rezumat

În acest capitol sunt prezentate cele mai importante noțiuni folosite în inferența
statistică: populație statistică și eșantion, parametri și estimații, distribuții de selecție.
Fundamentele inferenței statistice sunt estimarea și testarea statistică. Caracterizarea unei
populații în mod indirect, prin extragerea unui eșantion din aceasta, presupune prelucrarea
datelor la nivelul eșantionului extras, respectiv calculul unor indicatori statistici (medie,
varianță, proporție), care se numesc estimații. Aceste mărimi se folosesc pentru a estima
parametrii unei populații (media populației, varianța populației, proporția unei categorii la
nivelul unei populații), care nu pot fi cunoscuți în mod direct.

Bibliografie

1. Andrei, T., Statistică şi econometrie, Ed. Economică, 2003


2. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002
3. James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and
Economics, Pearson, Education New Jersey, 2008
4. Saporta, G., Probabilités, analyse des données et statistique, Editura Technip, Paris, 1990
5. Weiss, N, A., Elementary Statistics, Pearson, 2012
6. Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.

87
US4. NOŢIUNI ŞI NOTAŢII FOLOSITE ÎN STATISTICA
INFERENŢIALĂ

Statistica inferenţială are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin
prelucrarea datelor la nivelul unui eşantion extras aleatoriu din aceasta. Inferenţa statistică
presupune estimarea parametrilor unei populaţii şi testarea ipotezelor statistice.

4.1. Populaţie şi eşantion

Observarea şi înregistrarea valorilor unei variabile pentru toate unităţile populaţiei


presupune o observare exhaustivă, totală. Acest procedeu se aplică, de exemplu, în cazul
recensământului unei populaţii, când sunt înregistrate mai multe caracteristici ale populaţiei
(vârsta, categoria socio-profesională, sexul persoanei etc.), la un moment de referinţă.
Volumul unei populaţii se notează cu N.
Observarea şi înregistrarea valorilor unei variabile pentru anumite unităţi statistice
extrase dintr-o populaţie presupune o observare parţială. În acest caz, se observă doar un
eşantion reprezentativ extras din populaţie. Inferenţa statistică are ca obiectiv cunoaşterea
unei populaţii în mod indirect, prin prelucrarea datelor la nivelul unui eşantion extras din
aceasta. Volumul eşantionului se notează cu n. Avantajele cercetării prin sondaj decurg, în
principal, din costurile reduse de obţinere a datelor statistice.

4.2. Parametri şi estimaţii

Parametrii reprezintă mărimi reale dar necunoscute prin care poate fi caracterizată o
populaţie. De exemplu, o populaţie poate fi caracterizată folosind un indicator al tendinţei
centrale, cum ar fi media populaţiei ( µ ) şi un indicator al dispersiei, cum ar fi abaterea medie
pătratică ( σ ).
Aceste mărimi sunt estimate prin prelucrarea datelor înregistrate la nivelul unui
eşantion, proces în urma căruia se obţin estimaţii ale parametrilor populaţiei. De exemplu,
prin înregistrarea valorilor unei variabile la nivelul unui eşantion, pot fi calculate media
eşantionului ( x ) şi abaterea medie pătratică ( s ).
Notaţiile folosite pentru definirea parametrilor şi estimaţiilor sunt prezentate în tabelul
de mai jos.

88
Estimaţii Parametri
(eşantion) (populaţie)
Media x µ
Varianţa s2 σ2
Abaterea standard s σ
Proporţia p π

4.3. Noţiunea de probabilitate

DEFINIȚIE Probabilitatea (p) ca un anumit eveniment să se întâmple este raportul dintre


numărul cazurilor favorabile ale unui experiment (n) și numărul total de cazuri
n
ale respectivului eveniment (N): p =
N

Prin experiment înțelegem o acțiune al cărei rezultat nu poate fi anticipat exact, iar prin
eveniment înțelegem unul dintre rezultatele posibile ale acestui experiment.
Probabilitatea este un număr real, cuprins între 0 și 1. Valoarea p=0 corespunde
imposibilităţii realizării evenimentului sau evenimentul imposibil, iar valoarea p=1
corespunde evenimentului cert sau sigur.

Observaţie:
Probabilitatea este definită ca un caz limită al frecvenţei, adică este frecvenţa relativă de
apariţie a unui eveniment (fi).

Exemplul 4.1. Calculul probabilităţii de apariţie a unui eveniment


Considerând aruncarea a două zaruri, pentru care există un total de 36 de evenimente
posibile, așa cum sunt prezentate în figura 4.1, se cere să se afle:
a) care este probabilitatea ca, după o aruncare a zarurilor, suma de pe fețele celor două
zaruri să fie egală cu 4?
b) care este probabiltatea ca, după o aruncare a zarurilor, suma de pe fețele celor două
zaruri să fie mai mică sau egală cu 8?

89
Figura 4.1. Evenimentele posibile în cazul aruncării
arunc simultane a douăă zaruri

Rezolvare
a) Există 4 cazuri când suma de pe fețele celor două zaruri este egală cu 4, și anume:

Având în vedere căă în total sunt 36 de cazuri posibile, probabilitatea ca suma de pe fețele
fe celor
două zaruri să fie egală cu 4 este egală
egal cu 4/36=0.11 sau 11%.

b) Putem considera valorile posibile ale fiecăruia dintre cele două zaruri (1, 2, 3, 4, 5,
6) ca valori ale unor variabile numerice discrete. Variabila care rezultă prin însumarea
numerelor de pe cele două zaruri este tot o variabilă discretă ale cărei valori posibile sunt de la
2 la 12. Probabilitatea ca suma de pe fețele celor două zaruri să fie mai mică sau egală cu 8
este astfel frecvența absolută cumulată crescător asociată acestei valori.
În tabelul de mai jos, prezentăm frecvențele relative de apariție, simple şi cumulate
crescător, ale valorilor acestei variabile.

90
Tabelul 4.1. Distribuţia evenimentelor după suma de pe fețele celor două zaruri
Suma celor două zaruri ni fi Fi↓
2 1 0.027778 0.027778
3 2 0.055556 0.083333
4 3 0.083333 0.166667
5 4 0.111111 0.277778
6 5 0.138889 0.416667
7 6 0.166667 0.583333
8 5 0.138889 0.722222
9 4 0.111111 0.833333
10 3 0.083333 0.916667
11 2 0.055556 0.972222
12 1 0.027778 1
Total 36 1 -

Probabilitatea ca, după o aruncare a zarurilor, suma de pe fețele celor două zaruri să fie
mai mică sau egală cu 8 este 0,7222 sau 72,22%. Această probabilitate s-a obţinut prin
cumularea tuturor probabilităţilor asociate cazurilor în care suma este 2, 3, 4, 5, 6, 7 sau 8
(0,027778+0,055556+0,083333+0,111111+0,138889+0,166667+0,138889=0,722222).

4.4. Abaterea standard şi distribuţia normală

Cunoscând nivelul mediu şi abaterea standard pentru o distribuţie, putem afla care este
proporţia unităţilor care înregistrează valori mai mari, de exemplu, decât ( x + s ).
Pentru aceasta, se calculează o valoare standardizată Zi, cunoscută şi sub denumirea de
xi − x
scor Zi, după relaţia: z i = .
s
Această mărime arată poziţia unei unităţi faţă de nivelul mediu ( xi − x ), folosind ca
„unitate de măsură” abaterea standard.
De exemplu, pentru o distribuţie caracterizată printr-o medie de x = 100 şi o abatere
140 − 100
standard de s = 20 , putem afla valoarea zi pentru xi=140, astfel: z i = = 2 . Aceasta
20
arată că unitatea care înregistrează valoarea xi=140 se găseşte la o distanţă faţă de nivelul
mediu egală cu de două ori abaterea standard.

91
Odată calculată valoarea z, putem afla proporţia unităţilor care înregistrează valori mai
mari decât 140, de exemplu. Aceste valori sunt calculate pentru o distribuţie normală şi sunt
tabelate într-un tabel cunoscut sub denumirea de tabelul Z (prezentat în Anexa 1).
Tabelul care prezintă aceste rezultate este de forma:

0 0.01 K 0.05 K
0
0.1
0.2
M
1 0,341
1.1 0,375
M

Pe prima coloană sunt valorile lui z, prima cifră şi prima zecimală, iar valorile din
următoarele coloane reprezintă a doua zecimală a valorii z. Valorile din interiorul tabelul arată
proporţia unităţilor care înregistrează valori cuprinse între nivelul mediu şi scorul z
corespunzător.

Exemplul 4.2. Citirea probabilităţii asociate unei valori zi


Pentru zi=1,15, se citeşte în tabelul Z valoarea 0,375. Această valoare arată că
aproximativ 37,5% din unităţile distribuţiei înregistrează valori cuprinse între nivelul mediu şi
valoarea zi=1,15.
În tabelul Z nu sunt valori negative pentru zi, însă distribuţia normală este o distribuţie
simetrică, deci aria suprafeţei cuprinse între nivelul mediu şi valoarea pozitivă sau negativă a
lui Z este aceeaşi.

92
Exemplul 4.3. Calculul probabilităţilor pentru o variabilă normal distribuită
a. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle proporţia
unităţilor care înregistrează valori cuprinse în intervalele ( x ± s ), ( x ± 2 ⋅ s ) şi ( x ± 3 ⋅ s ).

Rezolvare
Pentru a afla proporţia unităţilor care înregistrează valori cuprinse în intervalul
( x − s; x + s ) , se calculează scorul Z, astfel:
x1 − x x − s − x
z1 = = = −1
s s
x2 − x x + s − x
z2 = = = +1 .
s s

Din tabelul Z se citeşte valoarea care corespunde valorii zi=1, şi anume 0,341.

0 0.01 K 0.05 K
0
0.1
0.2
M
1 0,341
1.1 0,375
M

Această valoare, 0,341, reprezintă aria suprafeţei cuprinse între nivelul mediu şi zi=1.
Proporţia unităţilor care înregistrează valori cuprinse în intervalul ( x − s; x + s ) este:
2 ⋅ 0 ,341 = 0 ,682 sau 68,2%.

93
În mod similar, se obţin valorile zi=±2, pentru limitele intervalului ( x ± 2 ⋅ s ).

Din tabelul Z, se citeşte valoarea care corespunde valorii zi=2, de 0,477.

0 K 0.05 K
0
0.1
0.2
M
2 0,477
M

Proporţia unităţilor care înregistrează valori cuprinse în intervalul ( x − 2 ⋅ s; x + 2 ⋅ s )


este: 2 ⋅ 0 ,477 = 0 ,954 sau 95,4%.

94
Pentru intervalul ( x ± 3 ⋅ s ), se obţin valorile zi=±3:

Pentru zi=±3, se citeşte valoarea corespunzătoare 0,499.

0 K 0.05 K
0
0.1
0.2
M
3 0,499

Proporţia unităţilor care înregistrează valori cuprinse în intervalul ( x − 3 ⋅ s; x + 3 ⋅ s )


este: 2 ⋅ 0 ,499 = 0 ,998 sau 99,8%.

Interpretare: Într-o distribuţie normală, în intervalul ( x ± s ) sunt cuprinse 68,2% din unităţi,
în intervalul ( x ± 2 ⋅ s ) sunt cuprinse 95,4% din unităţi şi în intervalul ( x ± 3 ⋅ s ) sunt cuprinse
99,8% din unităţi.

b. Distribuţia unor studenţi după nota obţinută la un test urmează o lege normală şi se
caracterizează prin următoarele rezultate: x = 7 şi s=2. Se cere să se afle proporţia studenţilor
care au luat note mai mici decât 6.

95
Rezolvare
Valoarea Zi care corespunde unei valori xi=6 se calculează astfel:
xi − x 6 − 7
zi = = = −0 ,5
s 2
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=0,5, egală cu 0,191.

0 0.01 K 0.05 K
0
0.1
0.2
M
0,5 0,191
M

Proporţia studenţilor care au luat note mai mici decât 6 este p=0,5-0,191=0,309 sau
30,9%.

Observaţie: Aria suprafeţei reprezentate în figura de mai sus este egală cu unu (după cum am
precizat anterior, suma proporţiilor este egală cu 1 sau 100%). Distribuţia normală este o
distribuţie simetrică, deci proporţia unităţilor care au valori mai mari decât nivelul mediu este
de 0,5.

c. Distribuţia unor persoane după vârstă urmează o lege normală şi se caracterizează


prin următoarele rezultate: x = 30 ani şi s=4 ani. Se cere să se afle proporţia persoanelor care
au o vârstă cuprinsă între 27 ani şi 35 ani.

Rezolvare
Valorile lui Z corespunzătoare lui x1=27 şi x2=35 sunt:
96
x1 − x 27 − 30
z1 = = = −0 ,75
s 4
x 2 − x 35 − 30
z2 = = = +1,25 .
s 4
Din tabelul Z se citesc valorile corespunzătoare lui z1=-0,75 şi z2=+1,25, astfel:

0 K 0.05 K
0
0.1
0.2
M
0,7 0,273
M M
1,2 0,394
M M

Proporţia persoanelor care au o vârstă cuprinsă între 27 ani şi 35 ani este:


f=0,273+0,394=0,667 sau 66,7%.

d. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle limitele


intervalului care include 95% din unităţile statistice observate.

Rezolvare
Această problemă poate fi prezentată grafic astfel:

97
Demersul urmat pentru rezolvarea acestei probleme este invers celui prezentat anterior:
se cunoaşte proporţia (95%) şi trebuie să aflăm valoarea lui z care corespunde acestei
proporţii.
Pentru a afla valoarea lui z, se calculează aria suprafeţei cuprinsă între nivelul mediu şi
0 ,95
z, care este egală cu = 0 ,475 .
2

Pentru această valoare egală cu 0,475, se citeşte valoarea lui z corespunzătoare, de 1,96.

0 K 0.06 K
0
0.1
0.2
M
1,9 0,475
M M

Prin urmare, într-o distribuţie normală 95% din unităţi au valori cuprinse în intervalul
[x − 1,96 ⋅ s; x + 1,96 ⋅ s ]. Riscul asumat pentru ca o unitate să nu fie în acest interval este de
5%.
98
Observaţie: În estimarea parametrilor unei populaţii, problematică prezentată în partea a doua,
obiectivul urmărit este de a afla limitele unui interval care acoperă media unei populaţii, în
95% din cazuri, de exemplu. În acest caz, riscul asumat ca media unei populații să nu fie în
acest interval este de 5% (sau 100%-95%). Acest risc este simbolizat cu α.

4.5. Distribuţia Student

Atunci când nu se cunoaște varianța populației (σ2), caz frecvent întâlnit în practică,
aceasta poate fi „înlocuită” prin varianța calculată la nivelul eșantionului (s2).
x−µ
Variabila Z „devine” astfel: . Această mărime este cunoscută sub denumirea
s/ n
de variabila t.
Întrucât pentru fiecare eșantion se pot înregistra valori diferite ale lui s, vom avea mai
multe distribuții t (cu varianțe diferite). Cum valorile variabilei t depind de volumul
eșantionului, cu cât eșantionul este de volum mai mare, cu atât varianța eșantionului va estima
mai bine varianța populației.
Precizia acestei estimări este luată în calcul în modelul matematic al distribuției t
(cunoscută sub denumirea de t Student) prin numărul gradelor de libertate, egal cu (n-1), care
crește odată cu creșterea volumului eșantionului (n).
Ca și în cazul variabilei Z, variabila t are media egală cu zero. Varianța sa însă nu mai
este egală cu 1, este întotdeauna mai mare decât 1, dar se apropie de 1 atunci când numărul
gradelor de libertate este mare (eșantionul este de volum mare). Se poate astfel considera că
atunci când n → ∞ distribuția Student tinde spre o distribuție normală standard Z.
Ca și în cazul variabilei Z, valorile variabilei t sunt calculate și tabelate în tabelul
Student (prezentat în Anexa 2). Acest tabel este de forma :

99
Grade de libertate 0.10 0.05 0.025 K
1 3.078 6.314 12.706 K
2 1.886 2.920 4.303 K
M M M M K
30 1.310 1.697 2.042 K
>30 1.282 1.645 1.960 K

În prima coloană sunt prezentate gradele de libertate (n-1), iar pe prima linie sunt date
diferite valori ale riscului asumat (α). Valorile t care sunt în interiorul tabelului sunt valorile t
Student pentru care probabilitatea P(t >tα)=α (aria suprafeței din dreapta valorii t este α).
Pentru aceeaşi probabilitate, valorile variabilei t diferă în funcţie de gradele de libertate
considerate.
De exemplu, pe prima coloană (0.10) se găsesc valorile t pentru care aria suprafeței
delimitate la dreapta de aceste valori este de 0.10 sau 10%.
Exemplul 4.4. Citirea valorii t din tabelul Student
a. Considerând 9 grade de libertate, să se afle valoarea t astfel încât P(t >t0.05)=0.05.

Rezolvare
În tabelul Student, în dreptul gradelor de libertate egale cu 9 se citește pentru coloana
0.05 valoarea t=1,833.
0.10 0.05 K
1
2
3
M
9 1,833
M

Interpretare: Pentru o distribuție t Student cu 9 grade de libertate, valoarea t Student


este t0.05=1,833. Probabilitatea ca t să aibă valori mai mari de 1,833 este de 0.05 sau 5% :
P(t >1,833)=0.05.

b. Considerând 9 grade de libertate, să se afle P(t >2,52).

100
Rezolvare
În tabelul Student, în dreptul gradelor de libertate egale cu 9 se observă că valoarea
t=2,52 se găsește între valorile 2,262 și 2,821, care corespund probabilităților 0,025 și 0,01.

0.10 0.05 0.025 0.01 K


1
2
3
M
9 2,262 2,821
M

Probabilitatea ca t să fie mai mare decât 2,52 este deci cuprinsă între 0,01 și 0,025:
0,01 < P(t > 2,52) < 0,025.

Interpretare: Pentru o distribuție t Student cu 9 grade de libertate, probabilitatea ca t să fie


mare mare decât 2,52 este cuprinsă între 1% și 2,5%.

Observaţie: Numeroase soft-uri statistice permit calculul exact al acestei probabilități.

c. Să se afle valorile t astfel încât P(t >t0.05)=0.05, considerând următoarele grade de


libertate : 9, 25, 30, 50. Să se compare aceste valori.

Rezolvare
În tabelul Student, pentru coloana 0.05 se citesc valorile prezentate mai jos, în dreptul
gradelor de libertate egale cu 9, 25, 30, 50:

101
Grade de libertate 0.10 0.05 K
1
2
M
9 1,833
M
25 1,708
M
30 1,697
>30 1,645

Interpretare: Se observă că valorile t sunt din ce în ce mai mici (1,833 >1,708>1,697>1,645)


pe măsură ce numărul gradelor de libertate crește (volumul eșantionului crește).

De asemenea, se observă că distribuția t tinde spre o distribuție normală Z pentru


eșantioane de volum mare (mai mare decât 30). Valoarea t pentru eșantioane mari este aceeași
cu valoarea Z. Pentru exemplul dat, valoarea Z astfel încât P(Z <z)=0,95 este 1,64.

4.6. Distribuţia de selecţie a mediei

O distribuţie de selecţie este distribuţia unui estimator. Un estimator este o funcţie de


variabile aleatoare de selecţie şi se notează, de regulă, cu semnul „^” deasupra parametrului
respectiv. De exemplu, estimatorul mediei se notează µ̂ , al varianţei σˆ 2 , iar al proporţiei πˆ .
Pentru a forma distribuţia mediei de selecţie, să considerăm cele K eşantioane de volum
n care se pot extrage dintr-o populaţie de volum N. Considerând o populaţie de volum N, se
pot forma K = C Nn eşantioane de volum n, extrase aleator nerepetat (o unitate extrasă şi
înregistrată nu se mai reintroduce în populaţie). Pentru fiecare din cele K eşantioane, se pot
calcula mediile eşantioanelor şi se pot determina frecvenţele de apariţie a fiecărei medii.

Exemplu 4.5. Construirea distribuţiei de selecţie a mediei


Să considerăm o populaţie formată din 4 supermarket-uri pentru care se înregistrează
preţul (lei) la cafea şi se obţin următoarele valori: 14, 15, 17, 18. Să se construiască distribuţia
mediei de selecţie, extrăgând toate eşantioanele de volum n=2.

102
Rezolvare
Caracterizarea acestei populaţii se poate realiza prin calculul unui indicator al tendinţei
centrale, media, de exemplu, şi a unui indicator al dispersiei, cum este abaterea standard:
 Xi 14 + 15 + 17 + 18
Media populaţiei este: µ = i
= = 16 lei.
N 4

Abaterea standard este σ = σ 2 . Varianţa se calculează astfel:

 ( X i − µ )2 (14 − 16) 2 + (15 − 16) 2 + (17 − 16) 2 + (18 − 16) 2


σ2 = i
= = 2,5
N 4

Înlocuind în relaţia de mai sus, se obţine: σ = σ 2 = 2,5 = 1,58 lei.

4!
Dacă n=2, K = C Nn = C42 = = 6 eşantioane.
2!⋅(4 − 2)!
Valorile variabilei pentru cele 2 unităţi din fiecare din cele 6 eşantioane sunt:

Eş. 1 Eş.2 Eş.3 Eş.4 Eş.5 Eş.6


14 14 14 15 15 17
15 17 18 17 18 18

Pentru fiecare din cele 6 eşantioane, se calculează mediile eşantioanelor, astfel:

14 + 15 15 + 17
Eşantionul 1: x1 = = 14,5 Eşantionul 4: x6 = = 16
2 2
14 + 17 15 + 18
Eşantionul 2: x2 = = 15,5 Eşantionul 5: x7 = = 16,5
2 2
14 + 18 17 + 18
Eşantionul 3: x3 = = 16 Eşantionul 6: x8 = = 17,5
2 2

Distribuţia mediei de selecţie, µ̂ , se formează prin ordonarea mediilor eşantioanelor şi


determinarea probabilităţii (frecvenţei) de apariţie a fiecărei variante:

103
Tabelul 4.2. Distribuţia variabilei media de selecţie µ̂

xi Frecvenţa de pi
apariţie
14,5 I 1/6=0,167
15,5 I 1/6=0,167
16 II 2/6=0,332
16,5 I 1/6=0,167
17,5 I 1/6=0,167
TOTAL - 1

Distribuţia mediei de selecţie este o distribuţie de probabilitate a mediilor tuturor


eşantioanelor de volum n care se pot extrage aleatoriu dintr-o populaţie de volum N.
Caracteristicile variabilei media de selecţie sunt:
- media mediei de selecţie este: M (µˆ ) = µ ;
- varianţa mediei de selecţie este:
σ2
V ( µˆ ) = σ µ2ˆ = , în cazul unui sondaj aleator repetat;
n
σ2 N −n
V ( µˆ ) = σ µ2ˆ = ⋅ , în cazul unui sondaj aleator nerepetat.
n N

În cazul nostru,
- media mediei de selecţie este calculată ca o medie aritmetică folosind frecvenţe
relative:
M (µˆ ) =  xi ⋅ pi =14,5 ⋅ 0.167 + 15,5 ⋅ 0.167 + ... + 17,5 ⋅ 0.167 = 16 .
i

Media mediei de selecţie este, deci, egală cu media populaţiei ( µ ).


- varianţa mediei de selecţie este:
V ( µˆ ) = σ µ2ˆ =  xi2 ⋅ pi − ( xi ⋅ pi ) 2 = 256,83 − 16 2 = 0,83 .
i i

Reamintim că varianţa poate fi calculată ca diferenţă între media pătratelor valorilor


unei variabile şi pătratul mediei variabilei.
- abaterea standard a mediei de selecţie este:

σ µˆ = σ µ2ˆ = x
i
i
2
⋅ pi − ( xi ⋅ pi ) 2 = 0,83 = 0,911 .
i

104
Tabelul 4.3. Elemente de calcul ale mediei şi varianţei variabilei µ̂

xi pi xi ⋅ p i xi2 xi2 ⋅ pi
14,5 0,167 2,421 210,250 35,111
15,5 0,167 2,588 240,250 40,121
16 0,332 5,312 256,000 84,992
16,5 0,167 2,755 272,250 45,465
17,5 0,167 2,922 306,250 51,143
TOTAL 1,0 16 - 256,832

Reprezentarea grafică a distribuţiei mediei de selecţie este realizată în figura de mai


jos:

Figura 4.2. Reprezentarea grafică a distribuţiei mediei de selecţie, µ̂

După cum se observă, distribuţia mediei de selecţie urmează o lege normală, iar mediile
eşantioanelor „se grupează” în jurul mediei lor, adică a mediei populaţiei.

Variabila media de selecţie se caracterizează prin legea normală - teorema limită


centrală, bazată pe legea numerelor mari:
- dacă variabila aleatoare X urmează o lege normală, atunci µ̂ urmează o lege
normală oricare ar fi n;
- dacă variabila aleatoare X nu urmează o lege normală, atunci µ̂ urmează o lege
normală doar pentru valori mari ale lui n, de regulă mai mari decât 30.

σ2
Folosind notaţiile prezentate, putem scrie: µˆ ~ N ( µ , σ µ̂ ) sau µˆ ~ N ( µ ,
2
).
n
105
US5. ESTIMAREA PARAMETRILOR UNEI POPULAŢII

Cuprins

5.1. Estimarea mediei unei populaţii (μ)


5.2. Estimarea proporţiei unei populaţii (π)

Rezumat

Capitolul 5 prezintă modalitatea de estimare a parametrilor unei populații, respectiv a


unei medii și a unei proporții, atunci când populația nu poate fi observată în mod direct.
Estimarea parametrilor unei populații se poate realiza punctual sau prin interval de încredere
(IC). Estimarea prin interval de încredere se realizează diferit în funcție de cunoașterea sau
necunoașterea varianței populației, folosind diferite grade de risc asumat.

Bibliografie

1. Andrei, T., Statistică şi econometrie, Ed. Economică, 2003


2. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002
3. James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and
Economics, Pearson, Education New Jersey, 2008
4. Weiss, N, A., Elementary Statistics, Pearson, 2012
5. Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.

106
US5. ESTIMAREA PARAMETRILOR UNEI POPULAŢII

Estimarea reprezintă procedeul de determinare a unui parametru al unei populaţii (µ,


σ2, π) prin prelucrarea datelor înregistrate la nivelul unui eşantion.
Estimarea se poate realiza:
1. punctual: presupune aflarea unei valori posibile a estimatorului parametrului căutat.
2. prin interval de încredere (IC): presupune aflarea limitelor de încredere ale unui
interval care acoperă valoarea unui parametru.

5.1. Estimarea mediei unei populaţii ( µ )

Estimarea mediei unei populaţii se poate realiza punctual şi prin interval de încredere
(I.C.).

5.1.1. Estimarea punctuală a mediei unei populaţii

DEFINIȚIE Estimarea punctuală a mediei unei populaţii presupune aflarea unei valori
posibile a estimatorului parametrului µ̂ .

În paragraful anterior, am arătat că media eşantionului, x , este o valoare a


estimatorului µ̂ . Media eşantionului este, deci, o estimaţie punctuală a mediei populaţiei.

5.1.2. Estimarea prin interval de încredere a mediei unei populaţii

Construirea IC se bazează pe variabila normală standard Z, prezentată în partea întâi:


µˆ ~ N ( µ , σ µ2ˆ )  Z ~ N ( 0 , 1 ) .

Luând în considerare media (μ) şi varianţa ( σ 2 ) unei populaţii, variabila Z este dată de
X −µ
relaţia Z = . Pentru variabila µ̂ , valorile variabilei Z se calculează după relaţia:
σ
xi − µ xi − µ x−µ
zi = = . Astfel, se poate determina: P( − z ≤ ≤ + z ) = 1 − α , unde:
σ µˆ σ/ n σ/ n
α este un nivel al probabilităţii cuprins între zero şi unu. Acest nivel arată riscul
asumat în estimare. De regulă, în economie se foloseşte un risc de 0,05 sau 5%.

107
Intervalul de încredere pentru media populaţiei, când se cunoaşte varianţa populaţiei,
este:
 σ 
 x ± zα / 2 ⋅  , unde:
 n
x este media calculată la nivelul eşantionului;
zα / 2 este o valoare a statisticii Z care se citeşte din Tabelul Z pentru un risc α .
σ este abaterea standard la nivelul populaţiei;
n este volumul eşantionului.

Atunci când nu se cunoaşte varianţa populaţiei, în estimarea mediei prin interval de


încredere se foloseşte statistica t Student. Limitele intervalului de încredere pentru media
populaţiei sunt definite de:
 s' 
 x ± tα / 2,n−1 ⋅  , unde:
 n
x este media calculată la nivelul eşantionului;
tα / 2,n −1 este valoarea statisticii t Student care se citeşte din Tabelul Student pentru un risc α şi

n-1 grade de libertate;


s' este abaterea standard corectată determinată la nivelul eşantionului, după relaţia:

 ( xi − x ) 2
s' = i
;
n −1
n este volumul eşantionului.

Observații:

Precizia estimării creşte (mărimea intervalului de încredere este mai mică), atunci când:
- volumul eşantionului (n) creşte (“legea rădăcinii pătrate”: mărirea de 4 ori a
volumului eşantionului, dublează precizia estimării);
- probabilitatea cu care se garantează rezultatele este mai mică;
- varianţa eşantionului este mică (valorile aberante afectează mărimea intervalului de
încredere).

108
Exemplul 5.1. Estimarea mediei prin interval de încredere
a. La nivelul unui eşantion format din 28 de angajaţi ai unei firme, extras aleator
simplu, s-au obţinut următoarele rezultate privind vechimea în muncă (luni):
x = 62 luni, s ' = 4 luni . Să se estimeze prin interval de încredere vechimea medie la nivelul
tuturor angajaţilor firmei din care a fost extras eşantionul, considerând un risc de 0,05.

Rezolvare
Întrucât nu se cunoaşte varianâa populaţiei, în estimarea prin IC a mediei populaţiei se
 s 
foloseşte statistica t Student. IC este definit de:  x ± tα / 2,n−1 ⋅ .
 n
Din Tabelul repartiţiei Student se citeşte valoarea t0,025;28-1=2,093.

t K 0.025 K
M

27 K 2.052 K

Înlocuind cu valorile date, se obţine:


 4 
62 ± 2,052 ⋅  = [62 ± 1,551] sau [60,449; 63,551] luni .
 28 

Interpretare: Se poate garanta cu o probabilitate de 0,95 sau 95% că vechimea medie a


întregii populaţii de angajaţi ( µ )este acoperită de intervalul: [60,449; 63,151] luni.

b. La nivelul unui eşantion format din 9 angajaţi, extras aleator simplu, s-au obţinut
următoarele rezultate privind vechimea în muncă (luni): x = 62 luni, s ' = 4 luni . Să se
estimeze prin interval de încredere vechimea medie a întregii populaţii din care a fost extras
eşantionul, considerând un risc de 0,05.

Rezolvare
 s' 
IC este definit de:  x ± tα / 2 ⋅ .
 n
Din Tabelul Student se citeşte valoarea t0,025;9-1=2,306.
109
t K 0.025 K
M

8 K 2,306 K

Înlocuind cu valorile date, se obţine:


 4 
62 ± 2,306 ⋅  = [62 ± 3,074] sau [58,926; 65,074] luni.
 9

Interpretare: Se poate garanta cu o probabilitate de 0,95 că vechimea medie a întregii


populaţii de angajaţi ( µ ) este acoperită de intervalul: [58,926; 65,074] luni.

Observaţie: Mărimea intervalului de încredere este, în acest caz, mai mare faţă de exemplul
anterior. Precizia estimării s-a micşorat datorită volumului mai redus al eşantionului.

5.2. Estimarea proporţiei unei populaţii (π)

Estimarea proporţiei unei populaţii se poate realiza punctual şi prin interval de


încredere.

5.2.1. Estimarea punctuală a proporţiei la nivelul unei populaţii

Estimarea punctuală a proporţiei la nivelul unei populaţii presupune aflarea unei valori
posibile a estimatorului parametrului πˆ . Proporţia unei anumite categorii calculată la nivelul
eşantionului (p) este o estimaţie punctuală a proporţiei acestei categorii la nivelul populaţiei.

Exemplul 5.2. Estimarea punctuală a unei proporţii


În urma realizării unui sondaj in randul studenţilor unei serii s-a extras un eşantion de
80 de studenţi, pentru care s-a observat că 68 dintre aceştia au fost declaraţi admişi la un
examen. Să se estimeze punctual, la nivelul întregii serii, proporţia studenţilor care au fost
declaraţi admişi la examen.

110
Rezolvare
Proporţia studenţilor care au fost declaraţi admişi la examen, calculată la nivelul
ni 68
eşantionului, este: p = = = 0,85 sau 85%.
n 80

Interpretare: Proporţia studenţilor admişi la examen la nivelul întregii serii poate fi estimată
punctual prin proporţia calculată la nivelul eşantionului, deci π=0,85 sau π=85%.

5.2.2. Estimarea prin interval de încredere a proporţiei unei populaţii

π (1 − π )
Variabila proporţia de selecţie ( πˆ ) se caracterizează prin: πˆ ~ N (π , ).
n
Construirea intervalului de încredere pentru proporţia calculată la nivelul unei
populaţii se realizează în mod similar mediei unei populaţii.
Intervalul de încredere pentru proporţia la nivelul unei populaţii este:
 p ⋅ (1 − p) 
 p ± tα / 2,n−1 ⋅  , atunci când nu se cunoaşte σ πˆ .
 n 

Exemplul 5.3. Estimarea proporţiei prin interval de încredere


În urma realizării unui sondaj în rândul studenţilor unei serii, s-a extras un eşantion de
80 de studenţi, pentru care s-a observat că 68 dintre aceştia au fost declaraţi admişi la un
examen. Să se estimeze prin interval de încredere proporţia studenţilor care sunt admişi la
nivelul întregii serii, considerând un risc de 0,05.

Rezolvare
Proporţia studenţilor care sunt admişi la examen, la nivelul eşantionului, este:
ni 68
p= = = 0,85 sau 85%.
n 80
Limitele intervalului de încredere se calculează astfel:
 p ⋅ (1 − p) 
 p ± tα / 2,n−1 ⋅  , unde:
 n 
p = 0,85 ;
tα / 2 ,n −1 este valoarea statisticii t Student care se citeşte din Tabelul Student pentru un risc

α = 0 ,05 şi n-1 grade de libertate. Din Tabelul Student se citeşte: t0,025;80-1=1,96.

111
t K 0.025 K
M

M K K

∞ K 1,96 K

Înlocuind în relaţia de mai sus, se obţine:


 0,85 ⋅ (1 − 0,85) 
0,85 ± 1,96 ⋅  = [0,85 ± 0,078] sau [0,772; 0,928] .
 80 

Interpretare: Se poate garanta cu o probabilitate de 0,95 sau 95% că proporţia studenţilor


admişi la examen, la nivelul întregii serii, este cuprinsă între 77,2% şi 92,8%.

112
US6. TESTAREA IPOTEZELOR STATISTICE

Cuprins

6.1. Testarea ipotezelor cu privire la valoarea unui parametru


6.2. Testarea ipotezelor cu privire la două valori ale unui parametru
6.3. Estimare versus testare

Rezumat

În acest capitol este prezentat demersul testării statistice. Testarea statistică are ca
obiectiv testarea diferenței dintre un parametru al unei populații (medie, proporție), care este
estimat pe baza datelor înregistrate la nivelul unui eșantion, și un alt parametru al unei
populații, o valoare cunoscută, de referință. În procesul de testare statistică se formulează
două ipoteze statistice: ipoteza nulă și ipoteza alternativă. În condițiile unui risc asumat, se
adoptă decizia de a respinge sau a accepta una dintre cele două ipoteze.

Bibliografie
1. Andrei, T., Statistică şi econometrie, Ed. Economică, 2003
2. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002
3. James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and
Economics, Pearson, Education New Jersey, 2008
4. Weiss, N, A., Elementary Statistics, Pearson, 2012
5. Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.

113
US6. TESTAREA IPOTEZELOR STATISTICE

Testarea ipotezelor statistice este un procedeu prin care se testează semnificaţia


egalităţii dintre valoarea unui parametru şi o valoare de referinţă sau dintre două valori ale
aceluiaşi parametru (două medii ale populaţiei sau două proporţii de la nivelul unor populaţii).

6.1. Testarea ipotezelor cu privire la valoarea unui parametru

Testarea ipotezelor cu privire la valoarea unui parametru are ca obiectiv testarea


egalităţii dintre media unei populaţii sau proporţia la nivelul unei populaţii faţă de valori de
referinţă, cunoscute.

6.1.1 Demersul testării

• Verificarea ipotezelor care se formulează cu privire la populaţie. Inferenţa statistică


presupune ca distribuţia populaţiei din care a fost extras eşantionul să urmeze o lege
normală sau volumul eşantionului să fie suficient de ridicat (n>30).
• Formularea ipotezelor statistice
O ipoteză este o presupunere cu privire la valoarea unui parametru: media unei
populaţii, varianţa unei populaţii sau proporţia unei anumite categorii dintr-o populaţie.
Ipotezele care se formulează în statistică sunt:
- ipoteza nulă este ipoteza prin care se presupune că nu există diferenţe faţă de o
valoare teoretică sau o valoare de referinţă considerată. Ipoteza nulă are un rol important în
determinarea distribuţiei de selecţie care va fi folosită în procesul testării. Se notează cu H0.
- ipoteza alternativă este contrară ipotezei nule, deci este ipoteza prin care se
presupune că există diferenţe faţă de o valoare teoretică sau o valoare de referinţă considerată.
Se notează cu H1.
• Alegerea pragului de semnificaţie a testului
În testarea ipotezelor statistice, pragul de semnificaţie a testului, notat cu α ,
reprezintă probabilitatea (de regulă, egală cu 0.05) bazată pe ipoteza că H0 este adevărată.
• Alegerea şi calcularea statisticii test
Testul statistic se alege în funcţie de legea urmată de distribuţia de selecţie a statisticii
considerate. De exemplu, în paragraful anterior am arătat că distribuţia de selecţie a mediei de
selecţie urmează o lege normală. În testarea semnificaţiei mediei unei populaţii, se foloseşte
testul Z sau testul t Student.
114
• Definirea regulii de decizie
Pentru definirea regulii de decizie, valoarea calculată a statisticii test, pe baza datelor
observate la nivelul unui eşantion, se compară cu valoarea teoretică, numită şi valoare critică,
care se alege din tabelele teoretice. Decizia corectă poate fi adoptată şi prin compararea
probabilităţii asociate statisticii test calculate (Prob.) cu riscul α . În mod sintetic, regula de
decizie, în cazul folosirii repartiţiei Z, poate fi prezentată astfel:

Se respinge ipoteza H0 Nu se respinge ipoteza H0


Folosind probabilitatea dacă Pr ob. < α dacă Pr ob. ≥ α
asociată statisticii test
Folosind valoarea calculată a dacă z calculat < − zα / 2 sau dacă z calculat ≥ − zα / 2 sau
statisticii test
z calculat > + zα / 2 z calculat ≤ + zα / 2

Reprezentarea grafică a regiunilor de respingere şi de acceptare a ipotezei H0 este


realizată în figura de mai jos:

1-α

α/2 α/2
-zα/2 zα/2 Z

H 1 H 0 H 1

Figura 6.1. Regiunile de respingere şi de acceptare a ipotezei H0

6.1.2. Testarea semnificaţiei mediei unei populaţii

a. Ipoteze statistice

În testarea semnificaţiei mediei unei populaţii se formulează două ipoteze statistice,


ipoteza nulă şi ipoteza alternativă.

115
Ipoteza nulă este ipoteza prin care se presupune că nu există diferenţe între media unei
populaţii, µ , estimată prin media calculată la nivelul eşantion, şi o valoare de referinţă

considerată, µ 0 .

Exemplul 6.1. Formularea ipotezei H0


Într-un studiu statistic cu privire la nivelul ratei şomajului în anumite ţări ale Uniunii
Europene, în procesul testării statistice se poate urmări dacă există diferenţe semnificative
între nivelul mediu al ratei şomajului pentru ansamblul ţărilor din UE ( µ ) şi nivelul mediu al

ratei şomajului din SUA ( µ 0 ). Ipoteza nulă care se formulează este: H 0 : µ = µ 0 .

Ipoteza alternativă este contrară ipotezei nule, deci este ipoteza prin care se presupune
că există diferenţe între valorile comparate.

Exemplul 6.2. Formularea ipotezei H1


Pentru exemplul 6.1, ipoteza alternativă se formulează astfel: H 1 : µ ≠ µ 0 (test

bilateral), H 1 : µ > µ 0 (test unilateral la dreapta) sau H 1 : µ < µ 0 (test unilateral la stânga).

b. Alegerea pragului de semnificaţie a testului

În testarea ipotezelor statistice, pragul de semnificaţie a testului, notat cu α , este, de


regulă, egal cu 0.05.
De exemplu, dacă pragul de semnificaţie a unui test este de 0,05, atunci ipoteza
H 0 : µ = µ 0 va fi respinsă dacă media eşantionului extras din populaţie este atât de

îndepărtată, la stânga sau la dreapta, de valoarea fixă µ 0 (se încadrează printre cele 5% cele
mai puţin probabile medii ale eşantioanelor posibil de extras din populaţie).
Pragul de semnificaţie a testului, α , arată probabilitatea de a respinge ipoteza H0
atunci când aceasta este adevărată. Eroarea comisă în respingerea ipotezei H0, atunci când
aceasta este adevărată, poartă denumirea de eroare de tip I.
Eroarea de tip II se produce în momentul acceptării ipotezei H0, atunci când aceasta
este falsă.

116
c. Alegerea şi calculul statisticii test

Atunci când se cunoaşte varianţa populaţiei ( σ 2 ) , în testarea semnificaţiei mediei unei


distribuţii se foloseşte statistica Z. Pe baza datelor observate la nivelul unui eşantion de volum
n, se calculează statistica test Z astfel:
x − µ0 x − µ0
z calculat = = .
σ µˆ σ/ n
Atunci când nu se cunoaşte varianţa populaţiei, în testarea semnificaţiei mediei unei
distribuţii se foloseşte statistica t Student. Pe baza datelor observate la nivelul unui eşantion
de volum n, se calculează statistica test t Student astfel:

x − µ0 x − µ0  ( xi − x ) 2
t calculat = = , unde s' = i
.
s µˆ s' / n n −1

d. Definirea regulii de decizie

Considerând un test bilateral, regula de decizie poate fi definită astfel:

Se respinge ipoteza H0 Nu se respinge ipoteza H0


Folosind probabilitatea dacă Pr ob. < α dacă Pr ob. ≥ α
asociată statisticii test
Folosind valoarea calculată a dacă z calculat < − zα / 2 sau dacă z calculat ≥ − zα / 2 sau
statisticii test
z calculat > + zα / 2 z calculat ≤ + zα / 2

Reprezentarea regiunii de acceptare şi de respingere a ipotezei H0 este realizată în


figura de mai jos:

1-α

α/2 α/2
-zα/2 zα/2 Z

H 1 H 0 H 1

Figura 6.2. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test bilateral
Regula de decizie pentru un test unilateral poate fi definită astfel:
117
Se respinge ipoteza H0 Se acceptă ipoteza H0
Folosind probabilitatea dacă Pr ob. < α dacă Pr ob. ≥ α
asociată statisticii test
Test unilateral la dreapta dacă z calculat > + zα dacă z calculat ≤ + zα
H 1 : µ > µ0
Test unilateral la stânga dacă z calculat < − zα dacă z calculat ≥ − zα
H 1 : µ < µ0

Reprezentarea regiunilor de respingere şi de acceptare a ipotezei H0 pentru un test


unilateral este realizată în figura de mai jos:

Figura 6.3. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test unilateral la
dreapta

Figura 6.4. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test unilateral la
stânga

118
Exemplul 6.3. Citirea valorilor critice şi definirea regiunilor critice
În cazul unui test bilateral, considerând un prag de semnificaţie α = 0 ,05 , valoarea
critică a statisticii test Z este z=1,96. Regiunea de respingere a ipotezei Ho este definită de:
z calculat < −1,96 , respectiv z calculat > +1,96.

În cazul unui test unilateral la dreapta, pentru care ipoteza H 1 : µ > µ 0 , considerând

un prag de semnificaţie α = 0 ,05 , valoarea critică a statisticii test Z este z=1,64. Regiunea de
respingere a ipotezei Ho este, astfel, definită de: z calculat > 1,64 .

În cazul unui test unilateral la stânga, pentru care ipoteza H 1 : µ < µ 0 , considerând

un prag de semnificaţie α = 0 ,05 , valoarea critică a statisticii test Z este z = −1,64 . Regiunea

de respingere a ipotezei Ho este definită de: z calculat < −1,64 .

Exemplul 6.4. Testarea diferenţei dintre o medie şi o valoare fixă, cazul unui test bilateral
La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul lunar
obţinut şi se obţine x = 14 sute lei. Ştiind că σ = 4 sute lei , se cere să se testeze dacă există
diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras
eşantionul şi salariul mediu pe economie, de 13 sute lei. Se consideră un risc α = 0 ,05.

Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13 sute lei (nu există diferenţe semnificative între salariul mediu al întregii populaţii
din care a fost extras eşantionul şi salariul mediu pe economie)
H 1 : µ ≠ 13 sute lei (există diferenţe semnificative între salariul mediu al întregii populaţii
din care a fost extras eşantionul şi salariul mediu pe economie)

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test
Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se foloseşte
x − µ0
statistica test Z: z = .
σ/ n

119
Calculul statisticii test
14 − 13
Pe baza datelor obţinute la nivelul eşantionului, se obţine: z cakulat = = 2 ,5 .
4 / 100

Regula de decizie
Folosind probabilitatea asociată statisticii test calculate:
• dacă Pr ob. < α , atunci se respinge ipoteza H0;
• dacă Pr ob. ≥ α , atunci se acceptă ipoteza H0.

Folosind statistica test:


• dacă z calculat < − zα sau z calculat > + zα , atunci se respinge ipoteza H0;

• dacă z calculat ≥ − zα sau z calculat ≤ + zα , atunci se acceptă ipoteza H0.

Valoarea teoretică a statisticii test


Se citeşte din tabelul Z pentru un risc α = 0 ,05 . Această valoare este: zα / 2 = 1,96.

Probabilitatea asociată statisticii test calculate


Valoarea probabilităţii asociate statisticii test calculate, z cakulat = 2 ,5 , se citeşte din tabelul Z,

astfel: P( Z > 2 ,5 ) = 0 ,5 − 0 ,494 = 0 ,006 . Această valoare este furnizată de programele


specializate de statistică şi poartă denumirea de Prob. sau p-value (programul E-VIEWS) sau
Sig. (Significance Level) (programul SPSS).

Figura 6.5. Regiunea de respingere şi de acceptare a ipotezei H0

120
Interpretare: z calculat = 2 ,5 > z0 ,025 = 1,96 sau (Pr ob. = 2 ⋅ 0 ,006 = 0 ,012 ) < α = 0 ,05 , se

respinge ipoteza Ho. Se poate garanta cu o probabilitate de 0,95 că există diferenţe


semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul
observat ( µ ) şi salariul mediu pe economie ( µ 0 ) .

Exemplul 6.5. Testarea diferenţei dintre o medie şi o valoare fixă, cazul unui test unilateral
La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul lunar
obţinut şi se obţine x = 14 sute lei. Ştiind că σ = 4 sute lei , se cere să se testeze dacă salariul
mediu al întregii populaţii din care a fost extras eşantionul este mai mare decât salariul mediu
pe economie, de 13 sute lei. Se consideră un risc α = 0 ,05.

Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13 sute lei

H 1 : µ > 13 sute lei

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test
Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se foloseşte
x − µ0
statistica test Z: z = .
σ/ n

Calculul statisticii test


14 − 13
Pe baza datelor obţinute la nivelul eşantionului, se obţine: z cakulat = = 2 ,5 .
4 / 100

Regula de decizie
Folosind probabilitatea asociată statisticii test calculate:
• dacă Pr ob. < α , atunci se respinge ipoteza H0;
• dacă Pr ob. ≥ α , atunci se acceptă ipoteza H0.

121
Folosind statistica test:
• dacă z calculat > + zα , atunci se respinge ipoteza H0;

• dacă z calculat ≤ + zα , atunci se acceptă ipoteza H0.

Valoarea teoretică a statisticii test


Se citeşte din tabelul Z pentru un risc α = 0 ,05 . Această valoare este: zα / 2 = 1,64.

Probabilitatea asociată statisticii test calculate


Valoarea probabilităţii asociate statisticii test calculate, z cakulat = 2 ,5 , se citeşte din tabelul Z,

astfel: Pr ob.( Z > 2 ,5 ) = 0 ,5 − 0 ,494 = 0 ,006 .

Figura 6.6. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test unilateral
la dreapta

Interpretare: z calculat = 2,5 > z 0, 025 = 1,64 sau Pr ob. = 0 ,006 < α = 0 ,05 , se respinge ipoteza

Ho. Se poate garanta cu o probabilitate de 0,95 că salariul mediu al întregii populaţii din care
a fost extras eşantionul observat ( µ ) este mai mare decât salariul mediu pe economie ( µ 0 ) .

Exemplul 6.6. Testarea diferenţei dintre o medie şi o valoare fixă, cazul în care nu se
cunoaşte varianţa populaţiei
Pentru un eşantion format din 25 de persoane, se înregistrează salariul lunar obţinut şi se
obţin următoarele rezultate: x = 15 sute lei, s' = 2 sute lei. Se cere să se testeze dacă există
diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras
eşantionul şi salariul mediu de economie, de 13 sute lei. Se consideră un risc α = 0 ,05.

122
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13

H 1 : µ ≠ 13

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test
Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t Student,
x − µ0
t= .
s' / n

Calculul statisticii test


15 − 13
Pe baza datelor obţinute la nivelul eşantionului, se obţine: t cakulat = = 5.
2 / 25

Regula de decizie
• dacă t calculat < −tα / 2 sau t calculat > +tα / 2 , atunci se respinge ipoteza H0;

• dacă t calculat ≥ −tα / 2 sau t calculat ≤ +tα / 2 , atunci se acceptă ipoteza H0.

Valoarea teoretică a statisticii test


Se citeşte din tabelul t Student pentru un risc α = 0 ,05 şi n-1 grade de libertate. Această
valoare este: tα / 2 ;n−1 = t 0 ,025;24 = 2 ,064 .

t K 0.025 K
M

24 K 2,064 K

123
Interpretare: Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:

0,95

0,025 0,025
tcalc =5
t
-2,064 2,064

H1 H0 H1

Figura 6.7. Regiunea de respingere şi de acceptare a ipotezei H0

t calculat = 5 > t 0 ,025;24 = 2 ,064 , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de

0,95 că există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost
extras eşantionul observat ( µ ) şi salariul mediu pe economie ( µ 0 ) .

6.1.3 Testarea semnificaţiei proporţiei unei populaţii

Demersul testării semnificaţiei unei proporţii este similar demersului prezentat în


cazul mediei unei populaţii.

Ipoteze statistice
Ipotezele care se formulează în testarea semnificaţiei unei proporţii sunt:
H0 :π = π0

H 1 : π ≠ π 0 (test bilateral)

Alegerea pragului de semnificaţie a testului


α = 0 ,05 .

Alegerea şi calculul statisticii test


Atunci când nu se cunoaşte varianţa populaţiei, în testarea semnificaţiei proporţiei unei
distribuţii se foloseşte statistica t Student. Pe baza datelor observate la nivelul unui eşantion
de volum n, se calculează statistica test t astfel:

124
p −π0 p −π0
t calculat = = sau, în cazul folosirii procentelor,
sπˆ p(1 − p) / n

p −π0 p − π0
t calculat = = .
sπˆ p (100 − p ) / n

Definirea regulii de decizie


Adoptarea decizie corecte presupune compararea valorii calculate a statisticii test cu valoarea
teoretică. De exemplu, considerând un test bilateral, atunci când nu se cunoaşte varianţa
populaţiei, regula de decizie poate fi definită astfel:

Se respinge ipoteza H0 Se acceptă ipoteza H0


Folosind probabilitatea dacă Pr ob. > α dacă Pr ob. ≥ α
asociată statisticii test
Folosind valoarea calculată a dacă t calculat < −tα / 2 sau dacă t calculat ≥ −tα / 2 sau
statisticii test
t calculat > +tα / 2 t calculat ≤ +tα / 2

Exemplul 6.7. Testarea diferenţei dintre o proporţie şi o valoare fixă


La nivelul unui eşantion de volum n=25 de persoane, se observă că ponderea
persoanelor care votează pentru candidatul A este de 49%. Se cere să se testeze dacă există
diferenţe semnificative între proporţia persoanelor care votează pentru candidatul A la nivelul
întregii populaţii şi proporţia persoanelor care au votat pentru acest candidat la alegerile
anterioare, de 51%. Se consideră un risc α = 0 ,05.

Rezolvare
Formularea ipotezelor statistice
H 0 : π = 51%

H 1 : π ≠ 51%

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test

125
Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t Student,
p −π0
t= .
p ⋅ (100 − p ) / n

Calculul statisticii test


Pe baza datelor obţinute la nivelul eşantionului, se obţine:
49 − 51
t calculat = = −0 ,2 .
49 ⋅ ( 100 − 49 ) / 25

Regula de decizie
• dacă t calculat < −tα / 2 sau t calculat > +tα / 2 , atunci se respinge ipoteza H0;

• dacă t calculat ≥ −tα / 2 sau t calculat ≤ +tα / 2 , atunci se acceptă ipoteza H0.

Valoarea teoretică a statisticii test


Se citeşte din tabelul t Student pentru un risc α = 0 ,05 şi n-1 grade de libertate. Această
valoare este: tα / 2 ;n−1 = t 0 ,025;24 = 2 ,064 .

Interpretare: t calculat = 0 ,2 < t 0 ,025;24 = 2 ,064 , se acceptă ipoteza Ho. Se poate garanta cu o

probabilitate de 0,95 că nu există diferenţe semnificative între proporţia persoanelor care


votează pentru candidatul A la nivelul întregii populaţii, π, şi proporţia persoanelor care au
votat pentru acest candidat la alegerile anterioare, π0.

6.2. Testarea ipotezelor cu privire la două valori ale unui parametru

Testarea ipotezelor cu privire la două valori ale aceluiaşi parametru poate viza două
medii ale unor populaţii, µ1 şi µ 2 , sau două proporţii, π 1 şi π 2 .

6.2.1 Testarea diferenţei dintre două medii

În cazul eşantioanelor independente, statistica test folosită în testarea ipotezelor


statistice este statistica Z sau t.

Ipoteze statistice

126
H 0 : µ1 − µ 2 = 0

H 1 : µ1 − µ 2 ≠ 0

Alegerea pragului de semnificaţie a testului α

Alegerea şi calculul statisticii test


Atunci când σ 12 = σ 22 şi nu se cunosc varianţele populaţiilor, statistica test se calculează
astfel:
x1 − x 2
t calculat = .
s12 s 22
+
n1 n2

Atunci când σ 12 ≠ σ 22 şi nu se cunosc varianţele populaţiilor, statistica test se calculează


astfel:
x1 − x 2
t calculat = , unde:
1 1
s p⋅ +
n1 n2

s12 ( n1 − 1 ) + s 22 ( n2 − 1 )
sp = .
n1 + n2 − 2

Definirea regulii de decizie


Regula de decizie se defineşte în mod similar testării semnificaţiei unui parametru al unei
populaţii. Valoarea teoretică a statisticii test se alege însă pentru (n1+n2-2) grade de libertate.

Exemplul 6.8. Testarea diferenţelor dintre două medii


Pentru două eşantioane extrase aleator simplu de volum n1=n2=625 persoane s-a
înregistrat vârsta şi s-au obţinut următoarele rezultate: x1 = 35 ani, x2 = 32 ani ;
s1 = 2 ani, s2 = 4 ani . Să se testeze ipoteza potrivit căreia între vârstele medii ale celor două
populaţii din care au fost extrase eşantioanele observate există diferenţe semnificative. Se
consideră un risc de 0,05.

127
Rezolvare
Ipoteze statistice:
H0: µ1 = µ 2 (nu există diferenţe semnificative între vârstele medii ale celor două populaţii din
care au fost extrase eşantioanele)
H1: µ1 ≠ µ 2 (există diferenţe semnificative între vârstele medii ale celor două populaţii din
care au fost extrase eşantioanele)

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test
Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se foloseşte
statistica t, calculată după relaţia:
x1 − x 2
t=
s12 s 22
+
n1 n 2

Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;

• dacă t calc ≤ tα / 2 , se acceptă ipoteza H0.

Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în figura de mai


jos:

1-α

α/2 α/2
-t α/2 tα/2 t

H 1 H 0 H 1

Figura 6.8. Regiunea de respingere şi de acceptare a ipotezei H0

Calculul statisticii test


Statistica test este:

128
35 − 32
t= = 16 ,7
2 +4
2 2

625

Valoarea teoretică a statisticii test


Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc α=0,05 şi n1+n2-2
grade de libertate: t α /2=1,96.

Interpretare: ( t calc = 16 ,7 ) > (t0 ,025 = 1,96 ), se respinge ipoteza H0. Se poate garanta cu o

probabilitate de 0,95 că există diferenţe semnificative între vârstele medii ale populaţiilor din
care au fost extrase eşantioanele observate.

Exemplul 6.9. Testarea diferenţelor dintre două medii


Pentru două eşantioane, extrase aleator simplu, formate din 7 persoane de sex
masculin, iar al doilea din 9 persoane de sex feminin, se înregistrează salariul lunar obţinut şi
se obţin următoarele rezultate: x M = 24 sute lei, x F = 25 sute lei ; s M = 3 , s F = 2 . Să se
testeze ipoteza potrivit căreia între salariul mediu al persoanelor de sex masculin şi salariul
mediu al persoanelor de sex feminin există diferenţe semnificative, la nivelul populaţiei din
care au fost extrase eşantioanele observate. Se consideră un risc de 0,05.

Rezolvare
Ipoteze statistice
H0: µ M = µ F

H1: µ M ≠ µ F

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test
Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se foloseşte
statistica t, calculată după relaţia:
xM − xF
t=
sM2 sF2
+
n1 n2

129
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;

• dacă t calc ≤ tα / 2 , se acceptă ipoteza H0.

Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în figura


de mai jos:

1-α

α/2 α/2
-t α/2 tα/2 t

H 1 H 0 H 1

Figura 6.9. Regiunea de respingere şi de acceptare a ipotezei H0

Calculul statisticii test


Statistica test este:
24 − 25
t= = 0 ,76
32 22
+
7 9

Valoarea teoretică a statisticii test


Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc α=0,05 şi n1+n2-2
grade de libertate: t α /2; 7+9-2=2,145.

Interpretare: ( t calc = 0 ,76 ) < (t0 ,025 = 2 ,145 ), se acceptă ipoteza H0. Se poate garanta cu o

probabilitate de 0,95 că nu există diferenţe semnificative între salariul mediu al persoanelor de


sex masculin şi salariul mediu al persoanelor de sex feminin, la nivelul populaţiilor din care
au fost extrase eşantioanele observate.

6.2.2 Testarea diferenţei dintre două proporţii

Ipoteze statistice
H 0 : π1 − π 2 = 0

H1 : π 1 − π 2 ≠ 0
130
Alegerea pragului de semnificaţie a testului α

Alegerea şi calculul statisticii test


Statistica test se calculează astfel:
p1 − p2
tcalculat = .
p1 ⋅ (1 − p1 ) p2 ⋅ (1 − p2 )
+
n1 n2

Regula de decizie
• dacă t calc > tα / 2 ; n1 + n2 − 2 , se respinge ipoteza H0;

• dacă t calc ≤ tα / 2 ;n + n , se acceptă ipoteza H0.


1 2 −2

Exemplul 6.10. Testarea diferenţelor dintre două proporţii


Pentru două eşantioane extrase aleator simplu de volum n1=n2=625 persoane s-a
înregistrat proporţia persoanelor care au votat pentru candidatul A în anul 2016 şi în anul
2012 şi s-au obţinut următoarele rezultate: p1 = 51%, ; p 2 = 49% . Să se testeze ipoteza
potrivit căreia între proporţia persoanelor care au votat pentru candidatul A în cele două
momente, la nivelul populaţiilor, există diferenţe semnificative. Se consideră un risc de 0,05.

Rezolvare
Ipoteze statistice:
H0: π 1 = π 2 (nu există diferenţe semnificative între proporţia persoanelor care au votat pentru
candidatul A în anul 2016 şi anul 2012)
H1: π 1 ≠ π 2 (există diferenţe semnificative între proporţia persoanelor care au votat pentru
candidatul A în anul 2016 şi anul 2012)

Alegerea pragului de semnificaţie a testului


α = 0 ,05.

Statistica test
Statistica t se calculează după relaţia:

131
p1 − p2
tcalculat =
p1 ⋅ (100 − p1 ) p2 ⋅ (100 − p2 )
+
n1 n2

Regula de decizie
• dacă t calc > tα / 2 ; n1 + n2 − 2 , se respinge ipoteza H0;

• dacă t calc ≤ tα / 2 ;n + n , se acceptă ipoteza H0.


1 2 −2

Calculul statisticii test


Pe baza datelor înregistrate la nivelul eşantioanelor, se calculează statistica test astfel:
51 − 49
tcalculat = = 0,71 .
51 ⋅ (100 − 51) + 49 ⋅ (100 − 49)
625

Valoarea teoretică a statisticii test


Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc α=0,05 şi n1+n2-2
grade de libertate: t α /2=1,96.

Interpretare: ( t calc = 0 ,71) < (t 0 ,025 = 1,96 ), se acceptă ipoteza H0. Se poate garanta cu o

probabilitate de 0,95 că nu există diferenţe semnificative între proporţia persoanelor care au


votat pentru candidatul A în anul 2016 şi în anul 2012, la nivelul populaţiilor din care au fost
extrase eşantioanele observate.

6.3. Estimare versus testare

Estimarea prin interval de încredere presupune construirea unui interval pentru valoarea
unui parametru, plecând de la rezultatele obţinute prin prelucrarea datelor la nivelul unui
eşantion extras din populaţie.
Testarea ipotezelor statistice presupune un demers invers: se formulează o ipoteză
asupra valorii unui parametru şi se verifică dacă această ipoteză este sau nu „contrazisă” de
observaţiile de la nivelul unui eşantion extras din populaţie.
De exemplu, să presupunem că în urma prelucrării datelor la nivelul unui eşantion, se
obţin limitele intervalului de încredere pentru media unei populaţii definite de [14; 18] . Dacă

132
în procesul testării statistice, formulăm ipotezele H 0 : µ = 10 ; H 1 : µ ≠ 10 , atunci putem
observa că se respinge ipoteza H0, deoarece media populaţiei, µ , nu poate fi egală cu 10.

133
Anexe

134
Anexa 1
Distribuţia Laplace:
z t2
1 −
Φ( z ) = e 2 dt
2π 0

0 z

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036

0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075

0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114

0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152

0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188

0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222

0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255

0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285

0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313

0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339

1 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362

1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383

1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401

1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418

1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432

1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444

1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454

1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463

1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471

1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477

2 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482

2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486

2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489

2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492

2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494

2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495

2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496

2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497

2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498

2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499

3 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499

135
Distribuţia Student: p=P(t>tα) Anexa 2
Grade de libertate 0.1 0.05 0.025 0.01 0.005 0.001 0.0005

1 3.078 6.314 12.706 31.821 63.656 318.289 636.578

2 1.886 2.920 4.303 6.965 9.925 22.328 31.600

3 1.638 2.353 3.182 4.541 5.841 10.214 12.924

4 1.533 2.132 2.776 3.747 4.604 7.173 8.610

5 1.476 2.015 2.571 3.365 4.032 5.894 6.869

6 1.440 1.943 2.447 3.143 3.707 5.208 5.959

7 1.415 1.895 2.365 2.998 3.499 4.785 5.408

8 1.397 1.860 2.306 2.896 3.355 4.501 5.041

9 1.383 1.833 2.262 2.821 3.250 4.297 4.781

10 1.372 1.812 2.228 2.764 3.169 4.144 4.587

11 1.363 1.796 2.201 2.718 3.106 4.025 4.437

12 1.356 1.782 2.179 2.681 3.055 3.930 4.318

13 1.350 1.771 2.160 2.650 3.012 3.852 4.221

14 1.345 1.761 2.145 2.624 2.977 3.787 4.140

15 1.341 1.753 2.131 2.602 2.947 3.733 4.073

16 1.337 1.746 2.120 2.583 2.921 3.686 4.015

17 1.333 1.740 2.110 2.567 2.898 3.646 3.965

18 1.330 1.734 2.101 2.552 2.878 3.610 3.922

19 1.328 1.729 2.093 2.539 2.861 3.579 3.883

20 1.325 1.725 2.086 2.528 2.845 3.552 3.850

21 1.323 1.721 2.080 2.518 2.831 3.527 3.819

22 1.321 1.717 2.074 2.508 2.819 3.505 3.792

23 1.319 1.714 2.069 2.500 2.807 3.485 3.768

24 1.318 1.711 2.064 2.492 2.797 3.467 3.745

25 1.316 1.708 2.060 2.485 2.787 3.450 3.725

26 1.315 1.706 2.056 2.479 2.779 3.435 3.707

27 1.314 1.703 2.052 2.473 2.771 3.421 3.689

28 1.313 1.701 2.048 2.467 2.763 3.408 3.674

29 1.311 1.699 2.045 2.462 2.756 3.396 3.660

30 1.310 1.697 2.042 2.457 2.750 3.385 3.646

>30 1.282 1.645 1.960 2.326 2.576 3.091 3.291

136
Bibliografie

1. Andrei, T., Statistică şi econometrie, Editura Economica, Bucureşti, 2003.


2. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
3. Bărbat, Al. , Teoria statisticii sociale, Editura Didactică şi Pedagogică, Bucureşti, 1972.
4. Baron, T.; Biji, E.; Tövissi, L., ş.a., Statistică teoretică şi economică, Editura Didactică şi
Pedagogică, Bucureşti, 1991.
5. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979.
2. Biji, M.; Stoichiţă, I. , Metoda selectivă a cercetării statistice, Editura Ştiinţifică, Bucureşti, 1957.
3. Capanu, I; Wagner, P.; Mitruţ, C., Sistemul conturilor naţionale şi agregate macroeconomice,
Editura All, Bucureşti, 1994.
4. Chelcea, S., Chestionarul în investigaţia sociologică, Editura Ştiinţifică şi Enciclopedică, Bucureşti,
1975.
3. Galton, Fr., Natural Inheritance, Macmillan, London, 1889
4. Georgescu Roegen, N. , Metoda statistică - elemente de statistică matematică, I.S.C.S., Bucureşti,
1933.
5. Glenberg, A.M., Andrzejewski, M.E., Learning from data. An Introduction to Statistical Reasoning,
Taylor and Francis Group, New York, 2008.
6. Isaic-Maniu, Al.; Grădinaru, A.; Voineagu, V.; Mitruţ, C. - Statistică teoretică şi economică, Editura
Tehnică, Chişinău, 1994.
7. Jaba, E., Grama, A., Analiza statistică cu SPSS sub Windows, Ed. Polirom, Iaşi, 2004
8. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
9. Jaba, E., Pintilescu, C., Iosub F., Statistică descriptivă. Teste grilă şi probleme, Editura Sedcom
Libris, Iaşi, 2001.
10. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2005.
11. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988
12. Mallinvaud, E. - Méthodes statistique de l'économetrie, Dunod, Paris, 1981
13. Marinescu, I. , Analiza factorială, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1984.
14. McClave, J.T.; Benson, P.G. , Statistics for Business and Economics, Dellen Publishing Company,
San Francisco, 1985.
15. Mills, Fr.G., Statistical Methods, 3rd ed., Henry Holt, New York, 1955.
16. Milton Smith, G. - Ghid simplificat de statistică pentru psihologie şi pedagogie, E.D.P., Bucureşti
1971.
17. Minium, E.W., Clarke, R., C., Coladarci, T., Elements of Statistical Reasoning, John Wiley and
Sons, 1999.
18. Pecican, E.S. - Econometrie, Editura All, Bucureşti, 1994
19. Pintilescu, C., Analiza datelor, Editura Junimea, Iaşi, 2002.

137
20. Pintilescu, C., Analiză statistică multivariată, Editura Universităţii “Alexandru Ioan Cuza” Iaşi,
2007.
21. Saporta, G., Probabilités, analyse des données et statistique, Editura Technip, Paris, 1990
22. Tövissi, L.; Isaic-Maniu, Al., Statistica, A.S.E., Bucureşti, 1984.
23. Trebici, V.(coord.) - Mica enciclopedie de statistică, Editura Ştiinţifică şi Enciclopedică, Bucureşti,
1985.
24. Ţarcă, M. , Statistică, vol.I şi II, Universitatea "Al.I.Cuza" Iaşi, 1979.
25. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
26. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.

138

S-ar putea să vă placă și