Documente Academic
Documente Profesional
Documente Cultură
CARMEN PINTILESCU
MIRCEA ASANDULUI DANIELA VIORICĂ
BAZELE STATISTICII
2020
1
CUPRINS
2
PARTEA 1: STATISTICA DESCRIPTIVĂ
Cuprins
Rezumat
Acest capitol prezintă cele mai importante concepte folosite în analiza statistică:
populație, eșantion, variabile statistice, unități statistice. Pentru variabilele statistice sunt
prezentate criteriile de clasificare și tipurile acestora. Metodele de analiză statistică a datelor
diferă în funcție de natura variabilelor (cantitative sau calitative) și de tipul acestora (discrete
sau continue; nominale sau ordinale).
Bibliografie
3
US1. NOŢIUNI INTRODUCTIVE
Termenul de “statistică” a evoluat din momentul în care a apărut pentru prima oară în
lucrarea lui Gottfried Achenwall, publicată în 1746, până în zilele noastre. În acea perioadă,
prin termenul de statistică se înţelegea un ansamblu de informaţii despre lucrurile remarcabile
cu privire la colectivitatea numită stat, expuse într-o anumită ordine. În prezent, prin statistică
se înţelege un ansamblu de metode folosite pentru culegerea, prezentarea şi analiza datelor
înregistrate pentru o colectivitate statistică.
Principalele concepte fundamentale din statistică sunt populaţia statistică, eşantionul,
unitatea statistică şi variabila statistică.
1.2. Eşantion
4
1.3 Unitate statistică
Aceste unităţi sunt purtătoare de informaţii care vor fi observate si înregistrate cu scopul
de a caracteriza populaţia din care provin.
DEFINIȚIE Variabilele numerice sunt acele variabile pentru care valorile sunt
exprimate numeric.
5
Exemplul 1.4. Variabile numerice
Variabile numerice sunt: vârsta persoanelor, câştigul salarial, înălţimea etc.
După modul de manifestare a variaţiei valorilor, variabilele numerice pot fi discrete sau
continue.
Variabilele discrete sunt acele variabile care nu pot lua decât valori finite din domeniul
de valori al variabilei.
Variabile continue sunt acele variabile care pot lua o infinitate de valori din domeniul
de valori al variabilei.
DEFINIȚIE Variabilele nenumerice sunt acele variabile pentru care valorile sunt
exprimate prin cuvinte.
6
Exemplul 1.8. Variabile nominale
Pentru variabila X, mediul de rezidenţă, se pot acorda codurile 1 pentru varianta Urban
şi 2 pentru varianta Rural, fără să se poată stabili o relaţie de ordine între aceste două valori.
Variabilele ordinale sunt acele variabile pentru care există o relaţie de ordine între
unităţile din categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale
variabilei X are, în acest caz, un sens.
7
US2. ANALIZA UNEI SERII STATISTICE UNIVARIATE
Cuprins
Rezumat
Bibliografie
8
Analiza statistică descriptivă a unei variabile cantitative sau calitative poate fi realizată
grafic și numeric, prin calculul indicatorilor statisticii descriptive. Graficele care pot fi folosite
pentru un set de date și indicatorii statistici care pot fi calculați depind de natura variabilelor
(cantitative sau calitative).
O prezentare sintetică a valorilor unei variabile statistice discrete poate fi realizată prin
structurarea datelor într-o serie (distribuție) statistică, prin calculul indicatorilor statisticii
descriptive și prin reprezentarea grafică a seriei.
9
2. Pentru fiecare valoare xi, se determină frecvența de apariție (se numără
num de câte ori
apare aceastăă valoare în setul de date). Rezultatul acestor numărări
numărări se trec în a doua
coloană a tabelului.
xi ni
xm nm
TOTAL
Frecvența de apariție
ție a unei valori a variabilei X se mai numește
ște frecvență
frecven absolută de
apariție (ni). Suma acestor frecvențe
frecven absolute este volumul eșantionului (n).
(n)
3 4 2 3 3 2 4
2 3 3 3 4 6 4
5 4 4 3 3 4 5
4 4 4 2 3 3 3
Rezolvare
Pentru formarea distribuției
distribu de frecvență, se parcurg următoarele
toarele etape:
1. Se ordoneazăă crescător
ător valorile variabilei X : 2, 3, 4, 5, 6.
10
2. Aceste valori se trec în prima coloană a unui tabel (Tabelul 2.2).
3. Pentru fiecare valoare a numărului de membri dintr-o familie, se numără familiile care
înregistrează acest număr de membri. De exemplu, numărul de familii care au 2
membri (x1=2) este 4 (n1=4). Aceste rezultate se trec în a doua coloană a Tabelului
2.2.
Frecvența relativă poate fi exprimată în procente și, în acest caz, aceasta se calculează
astfel :
ni n
fi = ⋅ 100 = i ⋅ 100
ni
i
n
xi fi
xm fm
TOTAL
Suma frecvențelor relative este 1 sau 100, atunci când datele se exprimă
exprim în procente.
Rezolvare
1. Distribuția
ia de frecvență
frecvenț a numărului de familii în funcție
ie de numărul
num de membri pe
familie este cea prezentată în Tabelul 2.2.
2. Se calculeazăă frecvențele
frecven relative prin împărțirea fiecărei
ărei frecvențe
frecven absolute (din
coloana a doua a Tabelului 2.4)
2.4 la suma lor. Rezultatele obținute
ținute se prezintă
prezint astfel :
Observații:
- Pentru compararea mai multor distribuții de frecvență, se recomandă folosirea
frecvențelor relative. Frecvențele relative variază între 0 și 1 (sau 100) și oferă o
măsură similară de comparație (fac datele comparabile).
- Distribuția de frecvență a unei variabile folosind frecvențe relative este similară
distribuției de frecvență folosind frecvențe absolute. Distribuția frecvențelor relative
reflectă însă mai bine structura unui eșantion pe valori ale unei variabile. În exemplul
dat, distribuția eşantionului de familii din oraşul Iaşi folosind frecvențe absolute și
relative poate fi prezentată astfel :
Tabelul 2.5. Distribuția familiilor după numărul de membri, folosind frecvențe absolute și relative
Număr membri (xi) Număr familii (ni) Ponderea familiilor (fi)
2 4 14,3
3 11 39,3
4 10 35,7
5 2 7,1
6 1 3,6
TOTAL n=28 100
Rezultatele din tabelul de mai sus arată că 4 familii, care reprezintă 14,3% din numărul
total de familii, înregistrează 2 membri. Cele 11 familii, care reprezintă 39,3% dintre familii,
au câte 3 membri ș.a.m.d.
Folosind frecvențele absolute, ni, se pot afla unitățile statistice (efectivele) care
înregistrează valori mai mici sau egale decât un anumit nivel xi al variabilei (care au valori cel
mult egale cu valoarea xi) sau care înregistrează valori mai mari sau egale decât un nivel xi al
variabilei (care au valori cel puțin egale cu valoarea xi). Aceste frecvențe sunt frecvențele
absolute cumulate crescător (Ni↓) sau descrescător (Ni↑).
13
a.3.1 Frecvențele absolute cumulate crescător (Ni↓)
Rezolvare
- prima frecvență N1↓ este reprezentată de numărul de familii care au 2 membri,
respectiv de frecvența absolută n1. Deci, N1↓=4.
- a doua frecvență cumulată presupune însumarea la cele 4 familii care au 2 membri pe
cele care au 3 membri, adică 11 familii. Obținem astfel : N2↓=4+11=15 familii.
- a treia frecvență cumulată presupune însumarea la cele 15 familii care au 2 și 3
membri pe cele care au 4 membri, respectiv : N3↓=15+10=25 familii sau
N3↓=4+11+10=25 familii.
Acest demers continuă până se cumulează toate efectivele din eșantion.
14
Rezultatele obținute pot fi centralizate într-un tabel de forma :
Interpretare: Din numărul total de familii observate, 4 familii au 2 membri, 15 familii au cel
mult 3 membri, 25 de familii au cel mult 4 membri etc.
Observație: Frecvențele absolute cumulate crescător arată efectivele care înregistrează valori
mai mici sau egale decât un anumit nivel xi al variabilei. De exemplu, 15 familii au cel mult 3
membri (inclusiv 3 membri), 25 de familii au cel mult 4 membri (inclusiv 4 membri) etc.
15
Tabelul 2.8. Distribuția familiilor după numărul de membri
Număr membri Număr familii
(xi) (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Rezolvare
În cazul frecvențelor cumulate descrescător, însumarea frecvențelor se face «de jos în
sus», adică de la ultima frecvență până la prima frecvență.
Frecvențele absolute cumulate descrescător se calculează astfel :
- ultima frecvență N5↑ este reprezentată de numărul de familii care au 6 membri. Deci,
N5↑=6.
- următoarea frecvență, N4↑, presupune însumarea la cele 6 familii, care au 1 membru,
pe cele 2 familii care au 5 membri. Obținem astfel : N4↑=1+2=3 familii.
- a treia frecvență cumulată presupune însumarea la cele 3 familii care au 5 și 6 membri
pe cele care au 4 membri, respectiv : N3↓=1+2+10=13 familii.
Acest demers continuă până se cumulează toate efectivele din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :
16
Interpretare: Din numărul
rul total de familii observate, o familie are cel puțin
ărul pu 6 membri, 3
familii au cel puțin
in 5 membri, 13 de familii au cel puțin
pu 4 membri etc.
Observații:
- Frecvențele
ele absolute cumulate descrescător
descresc arată efectivele care înregistrează
înregistreaz valori
mai mari sau egale decât un anumit nivel xi al variabilei. De exemplu, 3 familii au cel
puțin
in 5 membri (inclusiv 5 membri), 13 familii au cel puțin
puțin 4 membri (inclusiv 4
membri) etc.
- Frecvențele
ele absolute cumulate descrescător
descresc pot fi calculate și scăzând
sc din numărul
total de familii pe cele care au 2 membri, apoi pe cele care au 3 membri ș.a.m.d. De
exemplu, din cele 28 de familii care au 2 membri, 24 de familii (adică
(adic 28 – 4 = 24) au
cel puțin
in 3 membri, 13 familii (adică
(adic 24-11=13) au cel puțin
țin 4 membri etc.
Folosind frecvențele
țele absolute cumulate crescător
cresc și descrescător
ător se poate forma
distribuția frecvențelor
elor cumulate.
DEFINIȚIE Distribuția frecvențelor cumulate este formată din valorile xi ale variabilei X
și frecvențele absolute cumulate crescător și descrescător asociate acestora.
xm nm Nm↓=Nm-1↓+nm=n Nm↑=nm
TOTAL
17
a.4. Distribuția frecvențelor relative cumulate
În mod similar, folosind frecvențele relative (fi), se poate afla ponderea unităților
statistice (ponderea efectivelor) care înregistrează valori mai mici sau egale decât un anumit
nivel xi al variabilei, respectiv valori mai mari sau egale decât un nivel xi al variabilei X.
Aceste frecvențe sunt frecvențele relative cumulate crescător (Fi↓) sau descrescător (Fi↑).
18
Rezolvare
Frecvențele relative cumulate crescător se află astfel:
- prima frecvență F1↓ este reprezentată de ponderea familiilor care au 2 membri,
respectiv de frecvența relativă f1. Deci, F1↓=14,3%.
- a doua frecvență relativă cumulată presupune însumarea ponderii familiilor care au 2
membri (14,3%) cu cele care au 3 membri (39,3%). Obținem astfel :
F2↓=14,3%+39,3%=53,6%.
Acest demers continuă până se cumulează toate frecvențele relative din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :
Interpretare: Din numărul total de familii observate, 14,3% au 2 membri, 53,6% au cel mult
3 membri, 89,3% au cel mult 4 membri etc.
19
Tabelul 2.13. Distribuția familiilor după numărul de membri
Număr membri (xi) Ponderea familiilor (fi) Fi↑ Mod de calul
2 14,3 100 85,7+14,3 sau 3,6+7,1+35,7+39,3+14,3
3 39,3 85,7 46,4+39,3 sau 3,6+7,1+35,7+39,3
4 35,7 46,4 10,7+35,7 sau 3,6+7,1+35,7
5 7,1 10,7 3,6+7,1
6 3,6 3,6 3,6
TOTAL 100 -
Interpretare: Din numărul total de familii observate, 3,6% au cel puțin 6 membri, 10,7% au
cel puțin 5 membri, 46,4% au cel puțin 4 membri etc.
DEFINIȚIE Distribuția frecvențelor relative cumulate este formată din valorile xi ale
variabilei X și frecvențele relative cumulate crescător (Fi↓) și descrescător
(Fi↑) asociate acestora.
20
Tabelul 2.14. Distribuția frecvențelor
frecven relative cumulate crescător și descrescător
ător ale unei variabile
cantitative discrete
Valori ale Frecvența Frecven relativă
Frecvența Frecvența relativă Frecven relativă
Frecvența
variabilei absolută (fi) cumulată crescător cumulat descrescător
cumulată
(xi) (ni) (Fi↓) (Fi↑)
x1 n1 f1 F1↓ F1↑= F2↑+f1=1
x2 n2 f2 F2↓= F1↓+f2 F2↑=F3↑+f2
f
i =1
i = 1 sau 100
Observații:
- În mod similar distribuțiilor de frecvențe, pentru a înțelege repartizarea efectivelor pe
valori ale unei variabile, se recomandă folosirea frecvențelor relative. Pentru exemplul
anterior, prezentarea frecvențelor absolute și relative cumulate este realizat
realiza ă astfel :
Tabelul 2.15.
2.15 Distribuția familiilor după numărul
rul de membri
Număr membri (xi) Număr
ăr familii (ni) Ponderea familiilor (fi) Ni↓ Ni↑ Fi↓ Fi↑
2 4 14,3 4 28 14,3 100
3 11 39,3 15 24 53,6 85,7
4 10 35,7 25 13 89,3 46,4
5 2 7,1 27 3 96,4 10,7
6 1 3,6 28 1 100,0 3,6
TOTAL n=28 100 - - - -
Rezultatele din tabelul de mai sus arată că 15 familii (N2↓), care reprezintă 53,6% din
numărul total de familii (F2↓), au cel mult 3 membri. În același timp, 13 familii (N3↑), care
reprezintă 46,4% din numărul total de familii (F3↑), au cel puțin 4 membri.
21
b. Indicatori ai statististicii descriptive
Analiza unei variabile cantitative discrete poate fi realizată prin calculul unor indicatori
statistici sintetici, care pot fi grupați în indicatori ai tendinței centrale (mărimi medii),
indicatori ai dispersiei și indicatori ai formei (asimetriei și boltirii).
Mediile sunt acele valori în jurul cărora se repartizează efectivele unui eșantion. Cele
mai importante mărimi medii sunt media ( x ), modul (Mo) și mediana (Me).
b.1.1. Media
Cel mai cunoscut indicator al tendinței centrale este reprezentat de media aritmetică a
unei variabile ( x ).
10 12 15 20 15
23 28 18 19 10
Să se calculeze media.
Rezolvare
xi 10 + 12 + 15 + ... + 10
Media variabilei este x = i
= = 17 sute lei.
n 10
Interpretare: Salariul mediu lunar înregistrat de angajații firmei este de 17 sute lei.
22
În cazul unor date prezentate într-o distribuție de frecvență, media se calculează ca o
medie ponderată, după relația :
xi ⋅ ni xi ⋅ ni
x= i
= i
ni n
i
Exemplul 2.7. Media ponderată a unei variabile cantitative discrete folosind frecvenţe
absolute
Distribuția unor familii din municipiul Iaşi după numărul de membri se prezintă astfel :
Rezolvare
Pentru aflarea mediei, trebuie parcurse următoarele etape :
- se calculează produsele xi ⋅ ni . Aceste produse sunt prezentate în tabelul de mai jos :
23
- se calculează suma acestor produse: xi ⋅ ni =8+33+40+10+6=97;
i
Exemplul 2.8. Media ponderată a unei variabile cantitative discrete folosind frecvenţe
relative
Managerul unei firme înregistrează vechimea în muncă pentru angajații săi și obține
următoarele rezultate :
Rezolvare
Pentru aflarea mediei folosind frecvenţele relative, trebuie parcurse următoarele etape :
ni
- se calculează produsele xi ⋅ f i , cu f i = . Aceste produse sunt prezentate în
ni
i
24
Tabelul 2.19. Calculul produselor xi ⋅ f i
Interpretare: Vechimea medie în muncă pentru angajații firmei este de e 3,46 ~ 3 ani.
Observație: Media este sensibilă la prezența valorilor extreme (outliers). Valorile extreme
sunt valori diferite (foarte mari sau foarte mici) față de ansamblul tuturor celorlalte valori. Dat
fiind modul de calcul al mediei, aceste valori pot influența în mod semnificativ media.
25
b.1.2. Modul
A doua mărime medie prin care poate fi apreciată tendința centrală este modul (Mo).
DEFINIȚIE Modul este acea valoare a variabilei cel mai frecvent observată într-o
distribuție.
Rezolvare
Pentru aflarea modului, se parcurg următoarele etape:
- se află frecvența de apariție a fiecărei valori: valoarea xi=3 apare de 2 ori în șirul de
date, deci frecvența de apariție este ni=2. Pentru toate celelalte valori, frecvența de
apariție este egală cu unu.
- valoarea care corespunde frecvenței celei mai mari, adică xi=3, este modul. Deci,
Mo=3 zile.
Interpretare: Cei mai mulți salariați din eșantionul observat au lipsit 3 zile de la locul de
muncă.
26
Rezolvare
Se observă că valorile 3 și 4 apar fiecare de 2 ori în șirul de date, aceasta fiind frecvența
de apariție cea mai mare. Seria dată are deci 2 valori modale: x1=3 și x2=4.
Interpretare: Cele mai multe persoane din eșantionul observat alocă pentru studiu 3 și 4 ore
în fiecare zi.
Să se afle modul.
Rezolvare
Frecvența cea mai mare pentru distribuția dată este ni=11. În dreptul acestei valori, se
citește valoarea xi corespunzătoare, respectiv xi=3, iar această valoare este modul. Deci,
Mo=3 membri.
Interpretare: Cele mai multe familii din eșantionul observat au câte 3 membri.
27
Tabelul 2.21. Distribuția angajaților unei firme după vechimea în muncă
Vechime în muncă (ani) Ponderea angajaților (%)
1 15
2 10
3 29
4 16
5 20
6 10
TOTAL 100
Să se afle modul.
Rezolvare
Frecvența cea mai mare pentru distribuția dată este fi=29%. În dreptul acestei valori se
citește valoarea modului : Mo=3 ani.
b.1.3. Mediana
Cea de-a treia mărime medie prin care poate fi apreciată tendința centrală este mediana
(Me).
DEFINIȚIE Mediana este valoarea unei variabile care împarte efectivele unui eșantion
în 2 părți: 50% din efective au valori mai mici sau egale decât mediana, iar
50% au valori mai mari sau egale decât mediana. Mediana corespunde
n +1
locului unității medianei dintr-un set de date, și anume: U Me = .
2
Pentru aflarea medianei, șirul de date se ordonează în sens crescător. După aceasta, în
funcție de tipul seriei mediana se află astfel:
- dacă seria are un număr impar de termeni, mediana este termenul central al seriei;
- dacă seria are un număr par de termeni, mediana este media aritmetică a celor 2
termeni centrali ai seriei;
28
- dacă seria este prezentată sub forma unei distribuții de frecvențe, atunci mediana este
valoarea xi care se citește în dreptul primei valori N i ↓≥ U Me .
Rezolvare
Pentru aflarea medianei, se parcurg următoarele etape:
- se ordonează seria în sens crescător: 1, 2, 3, 4, 5.
- mediana este termenul central al acestei serii ordonate crescător, și anume: Me=3.
5 +1
- mediana corespunde astfel locului unității mediane, U Me = = 3 , adică este a treia
2
valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5.
Interpretare: 50% dintre salariații din eșantionul observat au lipsit cel mult 3 zile de la locul
de muncă, iar 50% au lipsit cel puțin 3 zile.
Rezolvare
Pentru aflarea medianei, se parcurg următoarele etape:
- se ordonează seria în sens crescător: 4, 5, 5, 6, 7, 8.
- mediana este media celor 2 termeni centrali al acestei serii ordonate crescător, și
5+6
anume: Me = = 5,5 euro/oră.
2
6 +1
- mediana corespunde astfel locului unității mediane, U Me = = 3,5 , adică este între
2
a treia și a patra valoare a șirului de date ordonat crescător: 4, 5, 5, 6, 7, 8.
Interpretare: 50% dintre salariații din eșantionul observat au un salariu de cel mult 5,5
euro/oră, iar 50% au cel puțin 5,5 euro/oră.
29
Exemplul 2.16. Mediana pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :
Rezolvare
Pentru aflarea medianei, trebuie parcurse următoarele etape:
28 + 1
- se calculează unitatea mediană: U Me = = 14,5 ;
2
- se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
Interpretare: 50% dintre familiile din eșantionul observat au cel mult 3 membri, iar 50% au
cel puțin 3 membri.
30
Observație: Mediana este o mărime medie care nu este influențată de valorile extreme (este o
mărime medie „stabilă” față de influența unor valori extreme).
Pentru această serie de date, media este x = 1023 mii lei, iar mediana este Me=30 mii
lei. Se observă astfel că mediana nu este influențată de valoarea extremă, x5=5000. În această
situație, se recomandă folosirea medianei ca indicator al tendinței centrale, în locul mediei.
Cele 3 mărimi medii, media, modul și mediana, au de cele mai multe ori valori diferite
pentru aceeași distribuție. Analiza lor comparativă permite cunoașterea eșantionului observat
și aprecierea omogenităţii sale.
De exemplu, analiza PIB real al țărilor din Uniunea Europeană înregistrat în anul 2013
(euro/locuitor) duce la obținerea următoarelor rezultate: x = 21292 euro/loc., Me=15750
euro/loc. Diferențele mari între nivelurile mediei și medianei evidențiază disparități
importante între țările UE din punctul de vedere al PIB/loc.
În general, cu cât diferențele dintre medie, mod și mediană sunt mai mari, cu atât
diferențele dintre unitățile statistice sunt mai mari, din punctul de vedere al variabilelor
înregistrate.
b.1.5. Quantile
Quantilele sunt valori ale variabilei care împart efectivele unui eșantion în mai multe
părți egale. Cele mai importante quantile sunt quartilele și decilele.
1. Quartilele
Quartilele sunt valori ale variabilei care împart efectivele din eșantion în 4 părți egale. O
distribuție are 3 quartile:
31
- Quartila una (Q1) este valoarea pentru care 25% dintre unităţi înregistrează valori mai
mici decât Q1 și 75% înregistrează valori mai mari decât Q1. Quartila unu corespunde
n +1
locului unității quartilice unu calculate astfel: U Q1 = .
4
- Quartila doi (Q2) este mediana și arată valoarea pentru care 50% din efective
înregistrează valori mai mici decât mediana și 50% înregistrează valori mai mari decât
mediana.
- Quartila trei (Q3) este valoarea pentru care 75% dintre unităţi înregistrează valori mai
mici decât Q3 și 25% înregistrează valori mai mari decât Q3. Quartila trei corespunde
3(n + 1)
locului unității quartilice trei calculate astfel: U Q3 = .
4
Rezolvare
Quartila unu
Pentru aflarea quartilei unu, se parcurg următoarele etape:
- se ordonează seria în sens crescător: 1, 2, 3, 4, 5.
5 +1
- quartila unu corespunde locului unității quartilice unu, U Q1 = = 1,5 , adică este
4
între prima și a treia valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5. Quartila
1+ 2
unu este deci media primilor 2 termeni ai seriei : Q1 = = 1,5 .
2
Interpretare: 25% dintre salariații din eșantionul observat au lipsit cel mult 1,5~2 zile de la
locul de muncă, iar 75% au lipsit cel puțin 1,5~2 zile.
Quartila doi
2(n + 1) n + 1
Quartila doi este mediana, întrucât U Q2 = = = U Me . Quartila doi este deci
4 2
Q2=3.
Interpretare: 50% dintre salariații din eșantionul observat au lipsit cel mult 3 zile de la locul
de muncă, iar 50% au lipsit cel puțin 3 zile.
32
Quartila trei
3 ⋅ (5 + 1)
Quartila trei corespunde locului unității quartilice trei, U Q3 = = 4,5 , adică este
4
între a patra și a cincea valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5. Quartila trei
4+5
este deci media ultimilor 2 termeni ai seriei : Q3 = = 4,5 .
2
Interpretare: 75% dintre salariații din eșantionul observat au lipsit cel mult 4,5~5 zile de la
locul de muncă, iar 25% au lipsit cel puțin 4,5~5 zile.
Rezolvare
Quartila unu
Pentru aflarea quartilei unu, trebuie parcurse următoarele etape:
28 + 1
- se calculează unitatea quartilică unu: U Q1 = = 7,25 ;
4
- se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
33
Tabelul 2.25. Distribuția familiilor dintr-un bloc după numărul de membri
Număr membri (xi) Număr familii (ni) Ni↓
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 -
Interpretare: 25% dintre familiile din eșantionul observat au cel mult 3 membri, iar 75% au
cel puțin 3 membri. În acest caz, quartila unu coincide cu mediana.
Quartila trei
Pentru aflarea quartilei trei, se calculează unitatea quartilică trei:
3(28 + 1)
U Q3 = = 21,75 . Se observă că prima valoare N i ↓≥ U Q3 este
4
( N i ↓= 25) ≥ (U Q3 = 21,75) . În dreptul acestei valori se citește quartila trei: Q3=4.
Interpretare: 75% dintre familiile din eșantionul observat au cel mult 4 membri, iar 25% au
cel puțin 4 membri.
2. Decilele
Decilele sunt valori ale variabilei care împart efectivele din eșantion în 10 părți egale. O
distribuție are 9 decile. Cele mai importante decile sunt decila unu și decila nouă.
- Decila unu (D1) este valoarea pentru care 10% dintre efective înregistrează valori mai
mici decât D1 și 90% înregistrează valori mai mari decât D1. Decila unu corespunde
n +1
locului unității decilice unu, calculate astfel: U D1 = .
10
- Decila nouă (D9) este valoarea pentru care 90% dintre efective înregistrează valori mai
mici decât D9 și 10% înregistrează valori mai mari decât D9. Decila nouă corespunde
9(n + 1)
locului unității decilice nouă, calculate astfel: U D9 = .
10
34
Exemplul 2.20. Decilele pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :
Rezolvare
Decila unu
Pentru aflarea decilei unu, trebuie parcurse următoarele etape:
28 + 1
- se calculează unitatea decilică unu: U D1 = = 2,9 ;
10
- se află prima valoare N i ↓≥ U D1 este ( Ni ↓= 4) ≥ (U D1 = 2,9) . În dreptul acestei valori
se citește decila unu: D1=2.
Interpretare: 10% dintre familiile din eșantionul observat au cel mult 2 membri, iar 90% au
cel puțin 2 membri.
Decila nouă
9(28 + 1)
Pentru aflarea decilei nouă, se calculează unitatea decilică nouă: U D9 = = 26,1 .
10
Se observă că prima valoare N i ↓≥ U Q3 este ( N i ↓= 27) ≥ (U D9 = 26,1) . În dreptul acestei
valori se citește decila nouă: D9=5.
Interpretare: 90% dintre familiile din eșantionul observat au cel mult 5 membri, iar 10% au
cel puțin 5 membri.
35
b.2. Indicatori ai dispersiei (variației)
Dispersia măsoară variația valorilor unei variabile în jurul tendinței centrale. Aprecierea
dispersiei este importantă într-o analiză statistică întrucât mai multe distribuții pot avea
aceleași mărimi medii, dar pot să difere din punctul de vedere al variației valorilor variabilei.
De exemplu, să considerăm următoarele serii de date:
Seria 1: 4, 4, 4, 4, 4
Seria 2: 2, 3, 4, 4, 7
Seria 3: 1, 2, 4, 4, 9
Toate aceste serii de date au media, mediana și modul egale cu 4, însă cele 3 serii de
date diferă din punctul de vedere al variației celor 5 valori: seria 3 se caracterizează printr-o
variație mai mare a celor 5 valori față de tendința centrală, măsurată prin medie, mod sau
mediană.
( xi − x ) 2
- Se calculează media acestor diferenţe (variații): s = 2 i
.
n
Observație: În cazul unei distribuții de frecvență, pătratele diferențelor valorilor unei variabile
față de nivelul mediu trebuie înmulțite cu frecvența de apariție (absolută sau relativă) a
fiecărei valori xi.
Relațiile de calcul ale varianței sunt:
( xi − x ) 2 ⋅ ni
- folosind frecvențe absolute: s = 2 i
n
ni
- folosind frecvențe relative: s 2 = ( xi − x ) 2 ⋅ f i , cu f i = .
i n
Se poate demonstra că varianța poate fi calculată și ca diferență între media pătratelor
valorilor xi și pătratul mediei. Relațiile de calcul în acest caz sunt:
xi2 ⋅ ni xi ⋅ ni
2
Exemplu 2.21. Măsurarea variației valorilor unei variabile față de nivelul mediu
Să considerăm seria 3 de date prezentată mai sus, compusă din valorile: 1, 2, 4, 4, 9.
1+ 2 + 4 + 4 + 9
Media acestor valori este: x = = 4.
5
37
Pentru a afla variația fiecărei valori a acestei serii de date față de media lor, se
calculează diferențele : xi − x . Pentru prima valoare, obținem astfel : ( x1 − x ) = (1 − 4) = −3 .
Aceste diferențe sunt prezentate în coloana a doua a tabelului de mai jos :
1 -3
2 -2
4 0
4 0
9 5
Pentru a măsura variația tuturor valorilor față de medie, putem calcula suma acestor
variații : ( x − x ).
i
i Această sumă este însă întotdeauna egală cu zero. Pentru a obține o
38
Tabelul 2.28. Calculul pătratelor diferenţelor valorilor seriei faţă de nivelul mediu
Valori ale variabilei (xi) Diferențe față de medie ( xi − x ) Pătrate ale diferențelor ( xi − x )
2
1 -3 9
2 -2 4
4 0 0
4 0 0
9 5 25
TOTAL 0 38
În exemplul dat, suma pătratelor diferențelor valorilor xi față de media lor este egală cu
38: ( xi − x ) = 38.
2
Pentru a calcula media acestor pătrate, se împarte această sumă la numărul de observații
( xi − x ) 2 38
și se obține indicatorul dispersiei, varianța: s = 2 i
= = 7,6 .
n 5
Această valoare arată variația pătratelor valorilor unei variabile față de media lor. Pentru
a exprima aceste variații în aceeași unitate de măsură cu a variabilei, se calculează rădăcina
( xi − x ) 2 38
acestei valori, respectiv s = i
= = 2,76 . Acest indicator este abaterea
n 5
(deviația) standard.
39
Pentru această distribuție, media a fost calculată și este egală cu 3,464.
Pentru calculul varianței, se parcurg următoarele etape:
- Se calculează diferențele valorilor xi față de nivelul mediu: xi − x . Aceste diferențe
( xi − x ) 2 ⋅ ni 147,652
- Se calculează varianța: s = 2 i
= = 5,27 .
n 28
Exemplu 2.23. Calculul varianței pentru o distribuție de frecvență, folosind frecvențe relative
40
Tabelul 2.31. Calculul varianţei folosind frecvenţele relative
Număr Ponderea Diferențe Pătrate ale diferențelor Ponderarea pătratelor
membri (xi) familiilor (fi) ( xi − x ) ( xi − x )2 diferenţelor cu
frecvențele relative
( xi − x ) 2 ⋅ fi
2 0.143 -1.464 2.143 0.306
3 0.393 -0.464 0.215 0.085
4 0.357 -3.464 11.999 4.284
5 0.071 1.536 2.359 0.168
6 0.036 -3.464 11.999 0.432
TOTAL 1 - - 5,274
Observație: Întrucât pentru aflarea varianței s-au ridicat la pătrat diferențele
−
̅ , pentru a
acorda o importanță mai mare abaterilor de la medie, varianța nu se interpretează și nu are
unitate de măsură.
2. Abaterea standard
Abaterea standard arată variația medie a valorilor unei variabile față de nivelul mediu
(arată cât de mult se „îndepărtează” valorile unei variabile de la media lor).
Interpretare: Abaterea standard arată că valorile șirului de date prezentat variază, în medie,
de la media lor cu 2,76 (în sens pozitiv și negativ).
41
Seria 1: 2, 3, 4, 4, 7
Seria 2: 1, 2, 4, 4, 9
Seria 1 Seria 2
x1 = 4 x2 = 4
s1 = 1,67 s2 = 2,76
Pentru a aprecia reprezentativitatea mediei pentru fiecare din aceste serii de date, se
compară abaterea standard față de media seriei respective. În acest sens, se poate calcula un
coeficient de variație care măsoară în procente cât de mare este dispersia valorilor xi față de
media lor.
s2 2,76
Seria 2: v2 = ⋅100 = ⋅100 = 69%
x2 4
Interpretare: Valori ridicate ale coeficientului de variație (mai mari de 50%) arată că o
distribuție se caracterizează printr-o dispersie mare a valorilor xi față de media lor. Aceasta
este deci o distribuție eterogenă, iar media nu este reprezentativă pentru seria valorilor date.
42
În exemplul dat, seria 2 se caracterizează printr-o dispersie mare a celor 5 valori față de
media lor (v2>50%), ceea ce arată că media calculată ( x = 4) nu este reprezentativă pentru
această serie.
Observație: Aprecierea variației valorilor unei variabile este importantă în analiza seriilor de
date financiare. Variabilitatea randamentelor unui activ financiar este cunoscută în finanțe sub
denumirea de volatilitate, iar studiul volatilității este important în analizele de risc financiar.
Cu cât volatilitatea unui activ financiar este mai mare, cu atât riscul investitorului este mai
mare. Măsurarea volatilității se poate realiza prin calculul abaterii standard a randamentelor
activelor financiare.
Măsurarea dispersiei valorilor xi ale unei variabile față de mediana lor se realizează prin
calculul amplitudinii intervalului interquartilic.
Amplitudinea intervalului interquartilic (IQ) măsoară dispersia celor 50% dintre valorile
centrale ale unei distribuții.
Interpretare: Amplitudinea intervalului interquartilic arată că, pentru 50% dintre familii,
diferenţa maximă de membri ai familiei între oricare două familii este de un membru.
Forma unei distribuții poate fi apreciată prin măsurarea asimetriei și boltirii distribuției.
43
b.3.1. Indicatori ai asimetriei
( xi − x ) 3
- µ3 = i
și reprezintă momentul centrat de ordinul 3 ;
n
- s3 este abaterea standard la puterea a treia.
Boltirea unei distribuții poate fi măsurată prin coeficientul de boltire Fisher (kurtosis).
Acest coeficient se calculează astfel:
µ4
k= −3
s4
unde:
( xi − x )4
- µ4 = i
și reprezintă momentul centrat de ordinul 4.
n
44
În funcție de gradul de boltire al unei distribuții, putem distinge:
- distribuții simetrice (mezocurtice), pentru care k=0;
- distribuții leptocurtice, pentru care k>0;
- distribuții platicurtice (aplatizate), pentru care k<0.
Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvenţelor. Alura
curbei frecvenţelor în cazul unei distribuţii normale (mezocurtice) sau care prezintă un
accentuat fenomen de boltire este reprezentată în figura de mai jos:
Observație: Aprecierea boltirii unui distribuții este importantă în analiza seriilor de date
financiare. O distribuție leptocurtică (fat tails) este o distribuție care arată că valorile extreme
(mari sau mici) sunt mai „frecvente” față de o distribuție „normală”.
c. Reprezentare grafică
După cum am precizat, o reprezentare sintetică a unei variabile se poate realiza prin
gruparea valorilor unei variabile într-o distribuție de frecvență, prin calculul indicatorilor
statisticii descriptive sau prin reprezentarea grafică.
Reprezentarea grafică a unei distribuții după o variabilă cantitativă discretă se poate
realiza folosind poligonul frecvențelor, curba frecvențelor, histograma și diagrama box-plot.
45
c.1. Poligonul frecvenţelor
Rezolvare
Pentru construirea poligonului și curbei frecvențelor, pe axa absciselor reprezentăm
numărul de membri pe familii (variabila X), iar pe axa ordonatelor reprezentăm numărul
familiilor (ni). Reprezentarea grafică a distribuției date este realizată în figura de mai jos.
47
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7
c.3. Histograma
Rezolvare
Pentru construirea histogramei, pe axa absciselor reprezentăm numărul de membri pe
familii, iar pe axa ordonatelor reprezentăm numărul familiilor (ni), respectiv ponderea
acestora (fi). Graficele obținute sunt de forma:
Se observă că forma distribuției este aceeași folosind frecvențe absolute sau relative. Se
recomandă reprezentarea histogramei folosind frecvențele relative atunci când se compară
mai multe distribuții de frecvență.
Forma generală a unei diagrame “box-plot” este reprezentată în figura de mai jos:
49
Figura 2.7. Diagrama box-plot
Nota 1 Nota
Figura 2.8. Reprezentarea grafică a simetriei unei distribuții folosind diagrama box-plot
50
Observație: Diagrama “box-plot” permite identificarea punctelor extreme (outliers). Pentru
[ ]
aceasta, se definesc intervalele: Q1 − 1,5 ⋅ I Q ; Q3 + 1,5 ⋅ I Q . Valorile situate în afara acestui
c.4.2. Folosirea diagramei “box-plot” pentru analiza comparativă a mai multor distribuții
Figura 2.9. Distribuția regiunilor României în funcție de câștigul salarial nominal mediu net lunar
O prezentare sintetică a valorilor unei variabile statistice continue poate fi realizată prin
structurarea datelor într-o serie (distribuție) statistică pe intervale de variație, prin calculul
indicatorilor statisticii descriptive și prin reprezentarea grafică a seriei.
49, 52, 68, 38, 42, 44, 45, 48, 58, 61, 20, 49, 53, 54,
48, 22, 30, 32, 53, 41, 42, 55, 57, 45, 47, 57, 64, 32
Rezolvare
Etapele pentru construirea distribuţiei de frecvenţe în cazul grupării valorilor variabilei
pe intervale egale de variaţie sunt:
52
1. Se stabileşte numărul de intervale de variaţie dorit pentru gruparea valorilor
variabilei. În cazul nostru, vom grupa valorile în k=5 intervale de variaţie de tipul (xi-1,xi+1), cu
xi-1 limita inferioară a intervalului şi xi+1 limita superioară a intervalului.
2. Se calculează mărimea intervalelor de variație (l) în care se grupează datele.
xmax − xmin 68 − 20
l= = = 9,6 ≈ 10.
k 5
Vom grupa valorile variabilei în 5 egale de variaţie, cu o lungime de 10 unităţi.
3. Construirea distribuției de frecvență presupune numărarea observațiilor care apar în
fiecare interval de variație. Intervalele de variaţie pot fi închise, deschise sau semi-închise.
Am optat, pentru acest exemplu, pentru varianta semi-închisă a intervalului de forma [xi-
1,xi+1).
Tabelul 2.33. Distribuția firmelor după numărul de angajaţi, cu valorile grupate pe cinci intervale
egale de variaţie
Număr angajaţi Număr firme
[xi-1,xi+1) (ni)
20-30 2
30-40 4
40-50 11
50-60 8
60-70 3
TOTAL 28
Observații
- Numărul intervalelor de variație (k) trebuie să fie ales astfel încât să realizeze o
grupare sintetică a datelor, dar să evidențieze și caracteristicile datelor. În funcție de
numărul observațiilor și de obiectivul grupării, numărul intervalelor de variație poate
varia între 5 și 20 de intervale;
- O unitate statistică trebuie să aparțină unui singur interval de variație.
53
b. Indicatori ai statisticii descriptive
Rezolvare
Pentru distribuţia firmelor după numărul de angajaţi, cu valorile grupate pe cinci
intervale de variaţie, am prezentat, în Tabelul 2.34, elementele de calcul necesare pentru
aflarea mediei şi abaterii standard.
Tabelul 2.34. Calculul mediei şi a abaterii standard în cazul unei serii cu valori grupate pe intervale
egale de variaţie
Număr Număr Mijlocul Produsele Diferențele Pătratele Ponderarea
angajaţi firme intervalului xi' ⋅ ni ( xi' − x ) diferențelor pătratelor
[xi-1,xi+1) (ni) de variaţie ( xi' − x ) 2 diferenţelor cu
(x )
'
i
frecvențele
absolute
( xi' − x ) 2 ⋅ ni
20-30 2 25 50 -22,14 490,1796 980,3592
30-40 4 35 140 -12,14 147,3796 589,5184
40-50 11 45 495 -2,14 4,5796 50,3756
50-60 8 55 440 7,86 61,7796 494,2368
60-70 3 65 195 1,.86 318,9796 956,9388
TOTAL n=28 - 1320 - - 3071,429
xi' ni 1320
x= i
= = 47.14 ≈ 47 angajaţi.
ni 28
i
54
Interpretare: În medie, o firmă are 47 de angajaţi.
(xi' − x ) ni
2
3071.429
s= i
= = 10.47 ≈ 10 angajaţi.
ni 28
i
c. Reprezentare grafică
55
Rezolvare
Distribuția frecvențelor absolute presupune numărarea persoanelor pentru fiecare gen în
parte (masculin și feminin), respectiv aflarea frecvențelor de apariție a fiecărei categorii. În
tabelul de date, în prima coloană se trec cele 2 categorii (masculin și feminin), iar în a doua
coloană se trec aceste frecvențe. Tabelul de date obținut se prezintă astfel :
Interpretare: Din cele 10 persoane înregistrate, 4 persoane sunt de genul masculin, iar 6 sunt
persoane de genul feminin.
Feminin 60 f2 =
6
⋅ 100
10
TOTAL 100
Interpretare: Din cele 10 persoane înregistrate, 40% sunt persoane sunt de genul masculin, iar
60% sunt persoane de genul feminin.
56
Universitar, Universitar, Post-universitar, Liceal, Post-universitar, Post-
universitar, Post-universitar, Universitar, Universitar, Universitar, Liceal, Liceal,
Liceal, Liceal, Universitar, Universitar, Universitar, Liceal, Doctorat, Doctorat.
Rezolvare
Distribuția frecvențelor absolute presupune numărarea persoanelor pentru fiecare nivel
de studii absolvite (studii liceale, studii universitare, studii post-universitare și doctorat) și
gruparea acestor rezultate într-un tabel de forma :
Tabelul 2.38. Distribuția persoanelor după nivelul de studii absolvite, folosind frecvenţe relative
Nivel studii (xi) Pondere persoane (fi)
Studii liceale 30 f1 =
6
⋅ 100
20
Studii universitare 40 f2 =
14
⋅ 100
20
Studii post-universitare 20 f3 =
18
⋅ 100
20
Doctorat 10 f4 =
10
⋅ 100
20
TOTAL 100
57
Interpretare: Din cele 20 persoane înregistrate, 30% au absolvit studii liceale, 40% au
absolvit studii universitare, 20% au studii post-universitare și 10% au doctorat.
b. Reprezentare grafică
Rezolvare
Reprezentarea grafică a distribuției frecvențelor absolute și relative se poate realiza
folosind diagramele Pie Chart sau Bar Chart.
58
Figura 2.11. Distribuția persoanelor după nivelul de studii absolvite
Pentru o variabilă calitativă nominală se poate afla modul, iar pentru o variabilă
calitativă ordinală se pot afla modul, mediana și quartilele.
Rezolvare
Distribuția persoanelor după gen se prezintă astfel:
Aflarea modului presupune identificarea categoriei care corespunde frecvenței celei mai
mari. Frecvența absolută cea mai mare este 6, iar frecvența relativă cea mai mare este 60%.
Categoria asociată acesteia este genul « feminin ». Modul este reprezentat de această categorie
(feminin).
59
Interpretare: În eșantionul observat, cele mai multe persoane (6 persoane sau 60%) sunt de
genul feminin.
Rezolvare
Mediana
Pentru aflarea medianei, se parcurg etapele prezentate pentru o variabilă cantitativă
discretă, și anume:
20 + 1
- se calculează unitatea mediană: U Me = = 10,5 ;
2
- se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
Interpretare: 50% din numărul total de persoane au cel mult studiile universitare absolvite.
Quartila 3
Pentru aflarea quartilei 3, se parcurg etapele prezentate pentru o variabilă cantitativă
discretă, și anume:
3(20 + 1)
- se calculează unitatea mediană: U Me = = 15,75 ;
4
60
- se află prima valoare N i ↓≥ U Me , și anume : ( N i ↓= 17) ≥ (U Me = 15,75) . În dreptul
acestei valori se citește mediana : Me este reprezentată de categoria Studii post-
universitare.
Interpretare: 75% din numărul total de persoane au cel mult studiile post-universitare
absolvite.
61
US 3. ANALIZA UNEI SERII STATISTICE BIVARIATE
Cuprins
Rezumat
În acest capitol sunt prezentate metodele de analiză statistică bivariată a datelor. Analiza
bivariată a datelor presupune analiza unor unități statistice după variația simultană a două
variabile. Pentru realizarea acestei analize, este necesară gruparea acestora într-un tabel cu
dubă intrare și calculul frecvențelor absolute și relative marginale, parțiale și condiționate.
Analiza statistică descriptivă a unui tabel cu dublă intrare (a unei distribuții bivariate) se poate
realiza prin calculul mediilor și varianțelor de grupă, a mediei și varianței pe total eșantion (în
cazul în care o variabilă dintre cele două este cantitativă).
Bibliografie
62
US 3. ANALIZA UNEI SERII STATISTICE BIVARIATE
Analiza bivariată presupune analiza statistică a distribuției unor efective după variația
valorilor a două variabile în mod simultan.
Tabelul de date care prezintă aceste valori poartă denumirea de tabel cu dublă intrare.
Distribuția obținută este o distribuție bivariată definită de :
- variabila X : ( xi ), cu i=1,m;
- variabila Y : ( y j ), cu j=1,p;
63
Să se formeze distribuția de frecvență.
Rezolvare
Pentru aceasta, se consideră variabilele:
X : Salariul, cu xi, i=1,6 (valorile 10, 12, 19,22,25,27);
Y : Nivelul de studii, cu yj, j=1,3 (valorile Liceale, Universitare, Post-universitare)
Formarea distribuției bivariate presupune parcurgerea următoarelor etape:
- se ordonează în sens crescător valorile variabilei X și se trec în prima coloană a unui
tabel;
- se ordonează categoriile variabilei Y;
- se numără persoanele care au un anumit nivel de studii și un anumit salariu. De
exemplu, numărul de persoane care au studii liceale și obțin un salariu lunar de 12 sute
lei este egal cu 2.
Rezultatele centralizate pentru toate valorile celor 2 variabile se prezintă astfel :
Interpretare: O persoană are studii liceale și un salariu lunar de 10 sute lei, 2 persoane cu
studii liceale au un salariu de 12 sute lei etc.
Variabilele X și Y pot fi diferite din punctul de vedere al naturii lor și putem întâlni
următoarele situații:
- o variabilă cantitativă (discretă sau continuă) și o variabilă calitativă.
- ambele variabile cantitative, discrete și/sau continue;
- ambele variabile calitative, nominale și/sau ordinale;
64
Vom prezenta în continuare modul de analiză statistică pentru o variabilă cantitativă și o
variabilă calitativă.
frecvențelor absolute nij după variația simultană a valorilor xi și yj. În cazul variabilelor
cantitative continue (grupate pe intervale de variație ( xi−1 − xi ) ) se consideră ca valori ale
xi −1 + xi
variabilei X centrul intervalelor de variabile, respectiv valorile xi' = .
2
În cele ce urmează, vom prezenta doar cazul variabilelor cantitative discrete. Pentru o
distribuție bivariată, se pot afla frecvențe absolute și relative, marginale, parțiale și
condiționate.
de unități pe valori yj ale variabilei Y. Se află adunând unitățile totale care înregistrează
valoarea yj, astfel: n• j = nij .
i
65
Tabelul 3.2. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Rezolvare
Frecvențele absolute marginale pentru variabila X ( ni• )
Frecvențele absolute marginale pentru variabila X: Salariu se află adunând numărul de
persoane pentru fiecare valoare a salariului, după cum urmează:
- Salariul lunar x1=10 sute lei este obținut de (1+0+0) persoane, deci n1• = 1 + 0 + 0 = 1
persoană;
- Salariul lunar x2=12 sute lei este obținut de (2+0+0) persoane, deci n2• = 2 + 0 + 0 = 2
persoane;
- ș.a.m.d.
Interpretare: Din numărul total de persoane din eșantion, o persoană are un salariu lunar de
10 sute lei, 2 persoane au 12 sute lei etc.
66
Interpretare: Din numărul total de persoane din eșantion, 3 persoane au studii liceale, 4
persoane au studii universitare și 3 persoane au studii post-universitare.
Frecvențele absolute parțiale sunt efectivele nij care înregistrează în mod simultan
valorile xi pentru variabila X și yj pentru variabila Y.
Tabelul 3.3. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Rezolvare
Frecvența absolută parțială n32 este reprezentată de numărul de persoane care au un
salariu lunar egal cu x3=19 sute lei și au un nivel de studii universitare (y2). Această frecvență
este n32=2.
Interpretare: Din numărul total de persoane din eșantion, 2 persoane au un salariu de 19 sute
lei și au studiile universitare absolvite.
67
c. Frecvențe absolute condiționate
Rezolvare
Frecvențele absolute condiționate de nivelul X=x2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Pentru această valoare,
frecvențele absolute condiționate sunt: 2, 0, 0.
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, 2 persoane
au studii liceale și nicio persoană nu are studii universitare sau post-universitare.
Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei, o persoană are 25 sute lei și 2 persoane au 27
sute lei.
68
3.2.2. Frecvențe relative marginale, parțiale și condiționate
a. Frecvențe relative marginale
Tabelul 3.4. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Rezolvare
Frecvențele relative marginale pentru variabila X ( f i• )
Frecvențele relative marginale pentru variabila X: Salariu se află împărțind frecvența
absolută marginală (ni.) la numărul total de persoane din eșantion, după cum urmează:
- Salariul lunar x1=10 sute lei este obținut de 1 persoană din cele 10 persoane din
n1• 1
eșantion, deci f1• = = = 0,10 sau 10%;
n 10
69
- Salariul lunar x2=12 sute lei este obținut de 2 persoane dintr-un total de 10, deci
n2• 2
f1• = = = 0,20 sau 20%;
n 10
- ș.a.m.d.
Interpretare: Din numărul total de persoane din eșantion, 10% au un salariu lunar de 10 sute
lei, 20% au 12 sute lei etc.
Interpretare: Din numărul total de persoane din eșantion, 30% au studii liceale, 40% au studii
universitare și 30% au studii post-universitare.
Frecvențele relative parțiale reprezintă ponderea efectivelor nij care înregistrează în mod
simultan valorile xi pentru variabila X și yj pentru variabila Y. Se calculează după relația:
nij
f ij = .
n
70
Tabelul 3.5. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Rezolvare
Frecvența relativă parțială f32 este reprezentată de ponderea persoanelor care au un
salariu lunar egal cu x3=19 sute lei și au un nivel de studii universitare (y2). Această frecvență
n32 2
este f 32 = = = 0,20 sau 20%.
n 10
Interpretare: Din numărul total de persoane din eșantion, 20% au un salariu de 19 sute lei și
au studiile universitare absolvite.
71
Rezolvare
Frecvențele relative condiționate de nivelul X=x2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Pentru această valoare,
frecvențele absolute condiționate sunt: 2, 0, 0. Numărul total de persoane cu salariul de 12
sute lei ( n 2• ) este deci 2+0+0=2 persoane.
Ponderea persoanelor care au un salariu de 12 sute lei pe diferite nivele de studii
absolvite este:
n1 j 2
- Pentru nivelul de studii liceale: f j /1 = = = 1 sau 100%;
n1• 2
n2 j 0
- Pentru nivelul de studii universitare: f j / 2 = = = 0;
n2• 2
n3 j 0
- Pentru nivelul de studii post-universitare: f j / 3 = = = 0.
n3• 2
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, toate
persoanele (100%) au studii liceale (nicio persoană nu are studii universitare sau post-
universitare).
ni 3 0
- Pentru salariul de 12 sute lei: f i / 3 = = = 0;
n•3 3
M
ni 3 1
- Pentru salariul de 25 sute lei: f i / 3 = = = 0,33 ;
n•3 3
ni 3 2
- Pentru salariul de 27 sute lei: f i / 3 = = = 0,67 .
n•3 3
72
Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei, 33% au 25 sute lei și 67% au 27 sute lei.
a. Distribuția marginală în X
M M M
xi ni• f i•
M M M
xm nm• f m•
TOTAL n 1
Rezolvare
Pentru formarea distribuției marginale, se calculează frecvențele absolute și relative
marginale ni• , respectiv fi• .
Aceste valori sunt prezentate în ultimele coloane ale tabelelor de mai jos :
73
Tabelul 3.7. Distribuția frecvențelor absolute marginale în X
Salariu/ Nivel de studii Liceale Universitare Post-universitare TOTAL ( ni• )
10 1 0 0 1
12 2 0 0 2
19 0 2 0 2
22 0 2 0 2
25 0 0 1 1
27 0 0 2 2
TOTAL 10
Interpretare: Din numărul total de persoane, o persoană, care reprezintă 10% din numărul
total de persoane din eșantion, are un salariu lunar de 10 sute lei; 2 persoane, care reprezintă
20% din total, au un salariu de 12 sute lei etc.
74
b. Distribuția marginală în Y
y1 n•1 f •1
y2 n• 2 f •2
M M M
yi n• j f• j
M M M
yp n• p f• p
TOTAL n 1
Rezolvare
Pentru formarea distribuției marginale, se calculează frecvențele absolute și relative
marginale n• j , respectiv f • j . Aceste valori sunt prezentate în ultimele coloane ale tabelelor
de mai jos :
Tabelul 3.11. Distribuția frecvențelor absolute marginale în Y
Salariu/ Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
TOTAL ( n• j ) 3 4 3 10
75
Tabelul 3.12. Distribuția frecvențelor relative marginale în Y
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
TOTAL ( f• j ) 0,30 0,40 0,30 1
Interpretare: Din numărul total de persoane, 3 persoane, care reprezintă 30% din numărul
total de persoane din eșantion, au studii liceale; 4 persoane, care reprezintă 40% din total, au
studii universitare și 3 persoane, care reprezintă 30% au studii post-universitare.
76
Exemplul 3.10. Distribuții condiționate în X și Y
Pentru distribuția prezentată în tabelul 3.1, să se formeze distribuția variabilei X
condiționată de nivelul Y=y3 și distribuția variabilei Y condiționată de nivelul X=x2 .
Rezolvare
Distribuția condiționată X/ Y=y3
Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Distribuția pe
nivele de salarii pentru persoanele cu studii post-universitare, folosind frecvențe absolute și
relative condiționate, se prezintă astfel:
Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei; o persoană, care reprezintă 33% din numărul
total de persoane, are 25 sute lei și 2 persoan3, care reprezintă 67% din numărul total de
persoane are 67%, au 27 sute lei.
77
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, toate
persoanele (100%) au studii liceale (nicio persoană nu are studii universitare sau post-
universitare).
Analiza statistică descriptivă a unei distribuții bivariate după o variabilă cantitativă (X)
și o variabilă calitativă (Y) presupune, ca și în cazul analizei univariate, aprecierea tendinței
centrale (mediei variabilei X) și dispersiei valorilor variabilei X față de nivelul mediu. În
acest caz, însă, analiza descriptivă (calculul mediei și varianței variabilei X) se realizează pe
grupe (categorii) ale variabilei Y.
xi ⋅ ni•
x= i
= xi ⋅ f i• .
n i
78
Exemplul 3.11. Media pe total eșantion
Se consideră distribuția marginală prezentată în tabelul de mai jos:
10 1 0,10
12 2 0,20
19 2 0,20
22 2 0,20
25 1 0,10
27 2 0,20
Total 10 1
Rezolvare
Salariul mediu pe total eșantion se calculează astfel :
- folosind frecvențe absolute marginale :
x ⋅ni i•
10 ⋅ 1 + 12 ⋅ 2 + ... + 27 ⋅ 2
x= i
= = 19 ,50 sute lei
n 10
- folosind frecvențe absolute marginale :
x = xi ⋅ f i• = 10 ⋅ 0,10 + 12 ⋅ 0,20 + ... + 27 ⋅ 0,20 = 19,50 sute lei
i
Interpretare: Salariul mediu al persoanelor din eșantionul observat este de 19,5 sute lei.
Pentru o variabilă cantitativă, X, se pot calcula medii pentru fiecare categorie (grupă) a
variabilei Y. Mediile pe categorii ale variabilei Y se calculează astfel:
x ⋅n i ij
xj = i
, cu i=1, m și j=1, p.
n• j
79
x j ⋅ n• j
x= j
.
n
Exemplul 3.12. Medii condiționate (pe grupe)
Pentru distribuția din tabelul 3.1, să se calculeze salariile medii pentru persoanele cu
studii liceale, universitare și post-universitare.
Rezolvare
Distribuțiile condiționate pentru cele 3 nivele de studii se prezintă astfel:
Interpretare: Salariul mediu al persoanelor cu studii liceale este de 11,333 sute lei, al
persoanelor cu studii universitare este de 20,5 sute lei iar al persoanelor cu studii post-
universitare este de 26,333 sute lei.
80
Exemplul 3.13. Calculul mediei pe total folosind mediile condiționate
Pentru distribuția din tabelul 3.17, să se calculeze salariul mediu pentru eșantionul
observat, știind că : x1 = 11,333 sute lei, x2 = 20,50 sute lei și x3 = 26,333 sute lei.
Rezolvare
Media pe total se calculează ca o medie ponderată astfel :
11,333 ⋅ 3 + 20,50 ⋅ 4 + 26,333 ⋅ 3
x= = 19,5 sute lei.
10
Interpretare: Salariul mediu al persoanelor din eșantionul observat este de 19,5 sute lei.
Observație: Media pe total (19,5 sute lei) este aceiași folosind distribuția marginală în X sau
mediile condiționate oe grupe ale variabilei Y.
81
a. Varianța intra-grupe
Varianța condiționată (pe grupe) măsoară variația valorilor unei variabile X pe categorii
(grupe) ale unei variabile Y. Considerând variabila cantitativă X, varianțele condiționate,
pentru fiecare grupă j a variabilei Y, se calculează astfel :
( x i − x j ) ⋅ nij
2
s =
2
j
i
.
n• j
Rezolvare
Distribuțiile condiționate pentru cele 3 nivele de studii se prezintă astfel :
82
Varianțele condiționate pe grupe se calculează astfel :
- pentru nivelul de studii liceale:
(10 − 11,333) 2 ⋅ 1 + (12 − 11,333) 2 ⋅ 2 + ... + (27 − 11,333) 2 ⋅ 0
s12 = = 0,8889 ;
3
- pentru nivelul de studii universitare:
(10 − 20,50) 2 ⋅ 0 + (12 − 20,50) 2 ⋅ 0 + (19 − 20,50) 2 ⋅ 2 + ... + (27 − 20,50) 2 ⋅ 0
s =2
2 = 2,25 ;
4
- pentru nivelul de studii post-universitare:
(10 − 26,333) 2 ⋅ 0 + ... + (25 − 26,333) 2 ⋅1 + (27 − 26,333) 2 ⋅ 2
s =
2
3 = 0,8889 .
3
Rezolvare
Pentru aprecierea omogenității fiecărei grupe, se calculează coeficientul de variație
astfel:
- pentru nivelul de studii liceale:
s1 0,8889
v1 = ⋅100 = ⋅100 = 8,32%
x1 11,333
- pentru nivelul de studii universitare:
s2 2,25
v2 = ⋅100 = ⋅100 = 7,31%
x2 20,50
- pentru nivelul de studii post-universitare:
s3 0,8889
v3 = ⋅100 = ⋅100 = 3,58%
x3 26,333
83
Interpretare: Valorile coeficienților de variație (mai mici decât 50%) evidențiază faptul că
toate cele 3 grupe de studii absolvite sunt omogene din punctul de vedere al salariului lunar,
iar mediile calculate sunt reprezentative pentru fiecare grupă.
2
a.2. Media varianțelor de grupă ( s )
sj
2
⋅ n• j
s2 =
j
.
n
Media varianțelor de grupă arată influența factorilor aleatori asupra variației salariului.
Rezolvare
Pentru aprecierea influenței factorilor aleatori asupra variației salariului se calculează
media varianțelor de grupă astfel :
0,8889 ⋅ 3 + 2,25 ⋅ 4 + 0,8889 ⋅ 3
s2 = = 1,433
10
84
2
b. Varianța inter-grupe ( s x j )
( x ), astfel:
(x j − x ) 2 ⋅ n• j
s x2j = j
.
n
Varianța mediilor de grupă față de media lor arată influența factorilor esențiali, de
grupare asupra variației salariului (variația inter-grupe).
Rezolvare
Pentru aprecierea influenței factorilor esențiali asupra variației salariului se calculează
varianța mediilor de grupă față de media lor astfel:
(11,333 − 19 ,5) 2 ⋅ 3 + ( 20 ,50 − 19 ,5) 2 ⋅ 4 + ( 26 ,333 − 19 ,5) 2 ⋅ 3
s x2j = = 3,44 .
10
c. Varianța totală ( s 2 )
Plecând de la această relație, se pot calcula 2 coeficienți, k1 și k2, după cum urmează:
85
s x2j
- Coeficientul k1 = ⋅ 100 măsoară influența factorilor esențiali asupra variației
s2
variabilei X;
s2
- Coeficientul k 2 = ⋅ 100 măsoară influența factorilor aleatori asupra variației
s2
variabilei X.
Suma acestor 2 coeficienți este 100, astfel încât se poate considera că atunci când k1>k2,
factorii esențiali au o influență mai mare asupra variației variabilei X față de factorii aleatori.
Se cere să se aprecieze care factori (esențiali sau aleatori) au o influență mai mare
asupra variației salariului.
Rezolvare
Pentru a măsura influența factorilor esențiali și aleatori asupra variației unei variabile, se
află varianța totală :
s 2 = s x2j + s 2 = 3,44 + 1,433 = 4,873 .
Coeficientul care măsoară influența factorilor esențiali asupra variației salariului este:
s x2j 3,44
k1 = 2
⋅ 100 = ⋅ 100 = 70,59 % ;
s 4,873
Coeficientul care măsoară influența factorilor aleatori asupra variației salariului este:
s2 1,433
k2 = 2
⋅ 100 = ⋅ 100 = 29,41% .
s 4,873
Interpretare: Coeficientul (k1=70,59%)>(k2=29,41%) ceea ce arată că factorii esențiali au o
influență mai mare asupra variației variabilei X față de factorii aleatori.
86
PARTEA A DOUA. STATISTICĂ INFERENŢIALĂ
Cuprins
Rezumat
În acest capitol sunt prezentate cele mai importante noțiuni folosite în inferența
statistică: populație statistică și eșantion, parametri și estimații, distribuții de selecție.
Fundamentele inferenței statistice sunt estimarea și testarea statistică. Caracterizarea unei
populații în mod indirect, prin extragerea unui eșantion din aceasta, presupune prelucrarea
datelor la nivelul eșantionului extras, respectiv calculul unor indicatori statistici (medie,
varianță, proporție), care se numesc estimații. Aceste mărimi se folosesc pentru a estima
parametrii unei populații (media populației, varianța populației, proporția unei categorii la
nivelul unei populații), care nu pot fi cunoscuți în mod direct.
Bibliografie
87
US4. NOŢIUNI ŞI NOTAŢII FOLOSITE ÎN STATISTICA
INFERENŢIALĂ
Statistica inferenţială are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin
prelucrarea datelor la nivelul unui eşantion extras aleatoriu din aceasta. Inferenţa statistică
presupune estimarea parametrilor unei populaţii şi testarea ipotezelor statistice.
Parametrii reprezintă mărimi reale dar necunoscute prin care poate fi caracterizată o
populaţie. De exemplu, o populaţie poate fi caracterizată folosind un indicator al tendinţei
centrale, cum ar fi media populaţiei ( µ ) şi un indicator al dispersiei, cum ar fi abaterea medie
pătratică ( σ ).
Aceste mărimi sunt estimate prin prelucrarea datelor înregistrate la nivelul unui
eşantion, proces în urma căruia se obţin estimaţii ale parametrilor populaţiei. De exemplu,
prin înregistrarea valorilor unei variabile la nivelul unui eşantion, pot fi calculate media
eşantionului ( x ) şi abaterea medie pătratică ( s ).
Notaţiile folosite pentru definirea parametrilor şi estimaţiilor sunt prezentate în tabelul
de mai jos.
88
Estimaţii Parametri
(eşantion) (populaţie)
Media x µ
Varianţa s2 σ2
Abaterea standard s σ
Proporţia p π
Prin experiment înțelegem o acțiune al cărei rezultat nu poate fi anticipat exact, iar prin
eveniment înțelegem unul dintre rezultatele posibile ale acestui experiment.
Probabilitatea este un număr real, cuprins între 0 și 1. Valoarea p=0 corespunde
imposibilităţii realizării evenimentului sau evenimentul imposibil, iar valoarea p=1
corespunde evenimentului cert sau sigur.
Observaţie:
Probabilitatea este definită ca un caz limită al frecvenţei, adică este frecvenţa relativă de
apariţie a unui eveniment (fi).
89
Figura 4.1. Evenimentele posibile în cazul aruncării
arunc simultane a douăă zaruri
Rezolvare
a) Există 4 cazuri când suma de pe fețele celor două zaruri este egală cu 4, și anume:
Având în vedere căă în total sunt 36 de cazuri posibile, probabilitatea ca suma de pe fețele
fe celor
două zaruri să fie egală cu 4 este egală
egal cu 4/36=0.11 sau 11%.
b) Putem considera valorile posibile ale fiecăruia dintre cele două zaruri (1, 2, 3, 4, 5,
6) ca valori ale unor variabile numerice discrete. Variabila care rezultă prin însumarea
numerelor de pe cele două zaruri este tot o variabilă discretă ale cărei valori posibile sunt de la
2 la 12. Probabilitatea ca suma de pe fețele celor două zaruri să fie mai mică sau egală cu 8
este astfel frecvența absolută cumulată crescător asociată acestei valori.
În tabelul de mai jos, prezentăm frecvențele relative de apariție, simple şi cumulate
crescător, ale valorilor acestei variabile.
90
Tabelul 4.1. Distribuţia evenimentelor după suma de pe fețele celor două zaruri
Suma celor două zaruri ni fi Fi↓
2 1 0.027778 0.027778
3 2 0.055556 0.083333
4 3 0.083333 0.166667
5 4 0.111111 0.277778
6 5 0.138889 0.416667
7 6 0.166667 0.583333
8 5 0.138889 0.722222
9 4 0.111111 0.833333
10 3 0.083333 0.916667
11 2 0.055556 0.972222
12 1 0.027778 1
Total 36 1 -
Probabilitatea ca, după o aruncare a zarurilor, suma de pe fețele celor două zaruri să fie
mai mică sau egală cu 8 este 0,7222 sau 72,22%. Această probabilitate s-a obţinut prin
cumularea tuturor probabilităţilor asociate cazurilor în care suma este 2, 3, 4, 5, 6, 7 sau 8
(0,027778+0,055556+0,083333+0,111111+0,138889+0,166667+0,138889=0,722222).
Cunoscând nivelul mediu şi abaterea standard pentru o distribuţie, putem afla care este
proporţia unităţilor care înregistrează valori mai mari, de exemplu, decât ( x + s ).
Pentru aceasta, se calculează o valoare standardizată Zi, cunoscută şi sub denumirea de
xi − x
scor Zi, după relaţia: z i = .
s
Această mărime arată poziţia unei unităţi faţă de nivelul mediu ( xi − x ), folosind ca
„unitate de măsură” abaterea standard.
De exemplu, pentru o distribuţie caracterizată printr-o medie de x = 100 şi o abatere
140 − 100
standard de s = 20 , putem afla valoarea zi pentru xi=140, astfel: z i = = 2 . Aceasta
20
arată că unitatea care înregistrează valoarea xi=140 se găseşte la o distanţă faţă de nivelul
mediu egală cu de două ori abaterea standard.
91
Odată calculată valoarea z, putem afla proporţia unităţilor care înregistrează valori mai
mari decât 140, de exemplu. Aceste valori sunt calculate pentru o distribuţie normală şi sunt
tabelate într-un tabel cunoscut sub denumirea de tabelul Z (prezentat în Anexa 1).
Tabelul care prezintă aceste rezultate este de forma:
0 0.01 K 0.05 K
0
0.1
0.2
M
1 0,341
1.1 0,375
M
Pe prima coloană sunt valorile lui z, prima cifră şi prima zecimală, iar valorile din
următoarele coloane reprezintă a doua zecimală a valorii z. Valorile din interiorul tabelul arată
proporţia unităţilor care înregistrează valori cuprinse între nivelul mediu şi scorul z
corespunzător.
92
Exemplul 4.3. Calculul probabilităţilor pentru o variabilă normal distribuită
a. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle proporţia
unităţilor care înregistrează valori cuprinse în intervalele ( x ± s ), ( x ± 2 ⋅ s ) şi ( x ± 3 ⋅ s ).
Rezolvare
Pentru a afla proporţia unităţilor care înregistrează valori cuprinse în intervalul
( x − s; x + s ) , se calculează scorul Z, astfel:
x1 − x x − s − x
z1 = = = −1
s s
x2 − x x + s − x
z2 = = = +1 .
s s
Din tabelul Z se citeşte valoarea care corespunde valorii zi=1, şi anume 0,341.
0 0.01 K 0.05 K
0
0.1
0.2
M
1 0,341
1.1 0,375
M
Această valoare, 0,341, reprezintă aria suprafeţei cuprinse între nivelul mediu şi zi=1.
Proporţia unităţilor care înregistrează valori cuprinse în intervalul ( x − s; x + s ) este:
2 ⋅ 0 ,341 = 0 ,682 sau 68,2%.
93
În mod similar, se obţin valorile zi=±2, pentru limitele intervalului ( x ± 2 ⋅ s ).
0 K 0.05 K
0
0.1
0.2
M
2 0,477
M
94
Pentru intervalul ( x ± 3 ⋅ s ), se obţin valorile zi=±3:
0 K 0.05 K
0
0.1
0.2
M
3 0,499
Interpretare: Într-o distribuţie normală, în intervalul ( x ± s ) sunt cuprinse 68,2% din unităţi,
în intervalul ( x ± 2 ⋅ s ) sunt cuprinse 95,4% din unităţi şi în intervalul ( x ± 3 ⋅ s ) sunt cuprinse
99,8% din unităţi.
b. Distribuţia unor studenţi după nota obţinută la un test urmează o lege normală şi se
caracterizează prin următoarele rezultate: x = 7 şi s=2. Se cere să se afle proporţia studenţilor
care au luat note mai mici decât 6.
95
Rezolvare
Valoarea Zi care corespunde unei valori xi=6 se calculează astfel:
xi − x 6 − 7
zi = = = −0 ,5
s 2
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=0,5, egală cu 0,191.
0 0.01 K 0.05 K
0
0.1
0.2
M
0,5 0,191
M
Proporţia studenţilor care au luat note mai mici decât 6 este p=0,5-0,191=0,309 sau
30,9%.
Observaţie: Aria suprafeţei reprezentate în figura de mai sus este egală cu unu (după cum am
precizat anterior, suma proporţiilor este egală cu 1 sau 100%). Distribuţia normală este o
distribuţie simetrică, deci proporţia unităţilor care au valori mai mari decât nivelul mediu este
de 0,5.
Rezolvare
Valorile lui Z corespunzătoare lui x1=27 şi x2=35 sunt:
96
x1 − x 27 − 30
z1 = = = −0 ,75
s 4
x 2 − x 35 − 30
z2 = = = +1,25 .
s 4
Din tabelul Z se citesc valorile corespunzătoare lui z1=-0,75 şi z2=+1,25, astfel:
0 K 0.05 K
0
0.1
0.2
M
0,7 0,273
M M
1,2 0,394
M M
Rezolvare
Această problemă poate fi prezentată grafic astfel:
97
Demersul urmat pentru rezolvarea acestei probleme este invers celui prezentat anterior:
se cunoaşte proporţia (95%) şi trebuie să aflăm valoarea lui z care corespunde acestei
proporţii.
Pentru a afla valoarea lui z, se calculează aria suprafeţei cuprinsă între nivelul mediu şi
0 ,95
z, care este egală cu = 0 ,475 .
2
Pentru această valoare egală cu 0,475, se citeşte valoarea lui z corespunzătoare, de 1,96.
0 K 0.06 K
0
0.1
0.2
M
1,9 0,475
M M
Prin urmare, într-o distribuţie normală 95% din unităţi au valori cuprinse în intervalul
[x − 1,96 ⋅ s; x + 1,96 ⋅ s ]. Riscul asumat pentru ca o unitate să nu fie în acest interval este de
5%.
98
Observaţie: În estimarea parametrilor unei populaţii, problematică prezentată în partea a doua,
obiectivul urmărit este de a afla limitele unui interval care acoperă media unei populaţii, în
95% din cazuri, de exemplu. În acest caz, riscul asumat ca media unei populații să nu fie în
acest interval este de 5% (sau 100%-95%). Acest risc este simbolizat cu α.
Atunci când nu se cunoaște varianța populației (σ2), caz frecvent întâlnit în practică,
aceasta poate fi „înlocuită” prin varianța calculată la nivelul eșantionului (s2).
x−µ
Variabila Z „devine” astfel: . Această mărime este cunoscută sub denumirea
s/ n
de variabila t.
Întrucât pentru fiecare eșantion se pot înregistra valori diferite ale lui s, vom avea mai
multe distribuții t (cu varianțe diferite). Cum valorile variabilei t depind de volumul
eșantionului, cu cât eșantionul este de volum mai mare, cu atât varianța eșantionului va estima
mai bine varianța populației.
Precizia acestei estimări este luată în calcul în modelul matematic al distribuției t
(cunoscută sub denumirea de t Student) prin numărul gradelor de libertate, egal cu (n-1), care
crește odată cu creșterea volumului eșantionului (n).
Ca și în cazul variabilei Z, variabila t are media egală cu zero. Varianța sa însă nu mai
este egală cu 1, este întotdeauna mai mare decât 1, dar se apropie de 1 atunci când numărul
gradelor de libertate este mare (eșantionul este de volum mare). Se poate astfel considera că
atunci când n → ∞ distribuția Student tinde spre o distribuție normală standard Z.
Ca și în cazul variabilei Z, valorile variabilei t sunt calculate și tabelate în tabelul
Student (prezentat în Anexa 2). Acest tabel este de forma :
99
Grade de libertate 0.10 0.05 0.025 K
1 3.078 6.314 12.706 K
2 1.886 2.920 4.303 K
M M M M K
30 1.310 1.697 2.042 K
>30 1.282 1.645 1.960 K
În prima coloană sunt prezentate gradele de libertate (n-1), iar pe prima linie sunt date
diferite valori ale riscului asumat (α). Valorile t care sunt în interiorul tabelului sunt valorile t
Student pentru care probabilitatea P(t >tα)=α (aria suprafeței din dreapta valorii t este α).
Pentru aceeaşi probabilitate, valorile variabilei t diferă în funcţie de gradele de libertate
considerate.
De exemplu, pe prima coloană (0.10) se găsesc valorile t pentru care aria suprafeței
delimitate la dreapta de aceste valori este de 0.10 sau 10%.
Exemplul 4.4. Citirea valorii t din tabelul Student
a. Considerând 9 grade de libertate, să se afle valoarea t astfel încât P(t >t0.05)=0.05.
Rezolvare
În tabelul Student, în dreptul gradelor de libertate egale cu 9 se citește pentru coloana
0.05 valoarea t=1,833.
0.10 0.05 K
1
2
3
M
9 1,833
M
100
Rezolvare
În tabelul Student, în dreptul gradelor de libertate egale cu 9 se observă că valoarea
t=2,52 se găsește între valorile 2,262 și 2,821, care corespund probabilităților 0,025 și 0,01.
Probabilitatea ca t să fie mai mare decât 2,52 este deci cuprinsă între 0,01 și 0,025:
0,01 < P(t > 2,52) < 0,025.
Rezolvare
În tabelul Student, pentru coloana 0.05 se citesc valorile prezentate mai jos, în dreptul
gradelor de libertate egale cu 9, 25, 30, 50:
101
Grade de libertate 0.10 0.05 K
1
2
M
9 1,833
M
25 1,708
M
30 1,697
>30 1,645
102
Rezolvare
Caracterizarea acestei populaţii se poate realiza prin calculul unui indicator al tendinţei
centrale, media, de exemplu, şi a unui indicator al dispersiei, cum este abaterea standard:
Xi 14 + 15 + 17 + 18
Media populaţiei este: µ = i
= = 16 lei.
N 4
4!
Dacă n=2, K = C Nn = C42 = = 6 eşantioane.
2!⋅(4 − 2)!
Valorile variabilei pentru cele 2 unităţi din fiecare din cele 6 eşantioane sunt:
14 + 15 15 + 17
Eşantionul 1: x1 = = 14,5 Eşantionul 4: x6 = = 16
2 2
14 + 17 15 + 18
Eşantionul 2: x2 = = 15,5 Eşantionul 5: x7 = = 16,5
2 2
14 + 18 17 + 18
Eşantionul 3: x3 = = 16 Eşantionul 6: x8 = = 17,5
2 2
103
Tabelul 4.2. Distribuţia variabilei media de selecţie µ̂
xi Frecvenţa de pi
apariţie
14,5 I 1/6=0,167
15,5 I 1/6=0,167
16 II 2/6=0,332
16,5 I 1/6=0,167
17,5 I 1/6=0,167
TOTAL - 1
În cazul nostru,
- media mediei de selecţie este calculată ca o medie aritmetică folosind frecvenţe
relative:
M (µˆ ) = xi ⋅ pi =14,5 ⋅ 0.167 + 15,5 ⋅ 0.167 + ... + 17,5 ⋅ 0.167 = 16 .
i
σ µˆ = σ µ2ˆ = x
i
i
2
⋅ pi − ( xi ⋅ pi ) 2 = 0,83 = 0,911 .
i
104
Tabelul 4.3. Elemente de calcul ale mediei şi varianţei variabilei µ̂
xi pi xi ⋅ p i xi2 xi2 ⋅ pi
14,5 0,167 2,421 210,250 35,111
15,5 0,167 2,588 240,250 40,121
16 0,332 5,312 256,000 84,992
16,5 0,167 2,755 272,250 45,465
17,5 0,167 2,922 306,250 51,143
TOTAL 1,0 16 - 256,832
După cum se observă, distribuţia mediei de selecţie urmează o lege normală, iar mediile
eşantioanelor „se grupează” în jurul mediei lor, adică a mediei populaţiei.
σ2
Folosind notaţiile prezentate, putem scrie: µˆ ~ N ( µ , σ µ̂ ) sau µˆ ~ N ( µ ,
2
).
n
105
US5. ESTIMAREA PARAMETRILOR UNEI POPULAŢII
Cuprins
Rezumat
Bibliografie
106
US5. ESTIMAREA PARAMETRILOR UNEI POPULAŢII
Estimarea mediei unei populaţii se poate realiza punctual şi prin interval de încredere
(I.C.).
DEFINIȚIE Estimarea punctuală a mediei unei populaţii presupune aflarea unei valori
posibile a estimatorului parametrului µ̂ .
Luând în considerare media (μ) şi varianţa ( σ 2 ) unei populaţii, variabila Z este dată de
X −µ
relaţia Z = . Pentru variabila µ̂ , valorile variabilei Z se calculează după relaţia:
σ
xi − µ xi − µ x−µ
zi = = . Astfel, se poate determina: P( − z ≤ ≤ + z ) = 1 − α , unde:
σ µˆ σ/ n σ/ n
α este un nivel al probabilităţii cuprins între zero şi unu. Acest nivel arată riscul
asumat în estimare. De regulă, în economie se foloseşte un risc de 0,05 sau 5%.
107
Intervalul de încredere pentru media populaţiei, când se cunoaşte varianţa populaţiei,
este:
σ
x ± zα / 2 ⋅ , unde:
n
x este media calculată la nivelul eşantionului;
zα / 2 este o valoare a statisticii Z care se citeşte din Tabelul Z pentru un risc α .
σ este abaterea standard la nivelul populaţiei;
n este volumul eşantionului.
( xi − x ) 2
s' = i
;
n −1
n este volumul eşantionului.
Observații:
Precizia estimării creşte (mărimea intervalului de încredere este mai mică), atunci când:
- volumul eşantionului (n) creşte (“legea rădăcinii pătrate”: mărirea de 4 ori a
volumului eşantionului, dublează precizia estimării);
- probabilitatea cu care se garantează rezultatele este mai mică;
- varianţa eşantionului este mică (valorile aberante afectează mărimea intervalului de
încredere).
108
Exemplul 5.1. Estimarea mediei prin interval de încredere
a. La nivelul unui eşantion format din 28 de angajaţi ai unei firme, extras aleator
simplu, s-au obţinut următoarele rezultate privind vechimea în muncă (luni):
x = 62 luni, s ' = 4 luni . Să se estimeze prin interval de încredere vechimea medie la nivelul
tuturor angajaţilor firmei din care a fost extras eşantionul, considerând un risc de 0,05.
Rezolvare
Întrucât nu se cunoaşte varianâa populaţiei, în estimarea prin IC a mediei populaţiei se
s
foloseşte statistica t Student. IC este definit de: x ± tα / 2,n−1 ⋅ .
n
Din Tabelul repartiţiei Student se citeşte valoarea t0,025;28-1=2,093.
t K 0.025 K
M
27 K 2.052 K
b. La nivelul unui eşantion format din 9 angajaţi, extras aleator simplu, s-au obţinut
următoarele rezultate privind vechimea în muncă (luni): x = 62 luni, s ' = 4 luni . Să se
estimeze prin interval de încredere vechimea medie a întregii populaţii din care a fost extras
eşantionul, considerând un risc de 0,05.
Rezolvare
s'
IC este definit de: x ± tα / 2 ⋅ .
n
Din Tabelul Student se citeşte valoarea t0,025;9-1=2,306.
109
t K 0.025 K
M
8 K 2,306 K
Observaţie: Mărimea intervalului de încredere este, în acest caz, mai mare faţă de exemplul
anterior. Precizia estimării s-a micşorat datorită volumului mai redus al eşantionului.
Estimarea punctuală a proporţiei la nivelul unei populaţii presupune aflarea unei valori
posibile a estimatorului parametrului πˆ . Proporţia unei anumite categorii calculată la nivelul
eşantionului (p) este o estimaţie punctuală a proporţiei acestei categorii la nivelul populaţiei.
110
Rezolvare
Proporţia studenţilor care au fost declaraţi admişi la examen, calculată la nivelul
ni 68
eşantionului, este: p = = = 0,85 sau 85%.
n 80
Interpretare: Proporţia studenţilor admişi la examen la nivelul întregii serii poate fi estimată
punctual prin proporţia calculată la nivelul eşantionului, deci π=0,85 sau π=85%.
π (1 − π )
Variabila proporţia de selecţie ( πˆ ) se caracterizează prin: πˆ ~ N (π , ).
n
Construirea intervalului de încredere pentru proporţia calculată la nivelul unei
populaţii se realizează în mod similar mediei unei populaţii.
Intervalul de încredere pentru proporţia la nivelul unei populaţii este:
p ⋅ (1 − p)
p ± tα / 2,n−1 ⋅ , atunci când nu se cunoaşte σ πˆ .
n
Rezolvare
Proporţia studenţilor care sunt admişi la examen, la nivelul eşantionului, este:
ni 68
p= = = 0,85 sau 85%.
n 80
Limitele intervalului de încredere se calculează astfel:
p ⋅ (1 − p)
p ± tα / 2,n−1 ⋅ , unde:
n
p = 0,85 ;
tα / 2 ,n −1 este valoarea statisticii t Student care se citeşte din Tabelul Student pentru un risc
111
t K 0.025 K
M
M K K
∞ K 1,96 K
112
US6. TESTAREA IPOTEZELOR STATISTICE
Cuprins
Rezumat
În acest capitol este prezentat demersul testării statistice. Testarea statistică are ca
obiectiv testarea diferenței dintre un parametru al unei populații (medie, proporție), care este
estimat pe baza datelor înregistrate la nivelul unui eșantion, și un alt parametru al unei
populații, o valoare cunoscută, de referință. În procesul de testare statistică se formulează
două ipoteze statistice: ipoteza nulă și ipoteza alternativă. În condițiile unui risc asumat, se
adoptă decizia de a respinge sau a accepta una dintre cele două ipoteze.
Bibliografie
1. Andrei, T., Statistică şi econometrie, Ed. Economică, 2003
2. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, Bucureşti, 2002
3. James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and
Economics, Pearson, Education New Jersey, 2008
4. Weiss, N, A., Elementary Statistics, Pearson, 2012
5. Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.
113
US6. TESTAREA IPOTEZELOR STATISTICE
1-α
α/2 α/2
-zα/2 zα/2 Z
H 1 H 0 H 1
a. Ipoteze statistice
115
Ipoteza nulă este ipoteza prin care se presupune că nu există diferenţe între media unei
populaţii, µ , estimată prin media calculată la nivelul eşantion, şi o valoare de referinţă
considerată, µ 0 .
Ipoteza alternativă este contrară ipotezei nule, deci este ipoteza prin care se presupune
că există diferenţe între valorile comparate.
bilateral), H 1 : µ > µ 0 (test unilateral la dreapta) sau H 1 : µ < µ 0 (test unilateral la stânga).
îndepărtată, la stânga sau la dreapta, de valoarea fixă µ 0 (se încadrează printre cele 5% cele
mai puţin probabile medii ale eşantioanelor posibil de extras din populaţie).
Pragul de semnificaţie a testului, α , arată probabilitatea de a respinge ipoteza H0
atunci când aceasta este adevărată. Eroarea comisă în respingerea ipotezei H0, atunci când
aceasta este adevărată, poartă denumirea de eroare de tip I.
Eroarea de tip II se produce în momentul acceptării ipotezei H0, atunci când aceasta
este falsă.
116
c. Alegerea şi calculul statisticii test
x − µ0 x − µ0 ( xi − x ) 2
t calculat = = , unde s' = i
.
s µˆ s' / n n −1
1-α
α/2 α/2
-zα/2 zα/2 Z
H 1 H 0 H 1
Figura 6.2. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test bilateral
Regula de decizie pentru un test unilateral poate fi definită astfel:
117
Se respinge ipoteza H0 Se acceptă ipoteza H0
Folosind probabilitatea dacă Pr ob. < α dacă Pr ob. ≥ α
asociată statisticii test
Test unilateral la dreapta dacă z calculat > + zα dacă z calculat ≤ + zα
H 1 : µ > µ0
Test unilateral la stânga dacă z calculat < − zα dacă z calculat ≥ − zα
H 1 : µ < µ0
Figura 6.3. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test unilateral la
dreapta
Figura 6.4. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test unilateral la
stânga
118
Exemplul 6.3. Citirea valorilor critice şi definirea regiunilor critice
În cazul unui test bilateral, considerând un prag de semnificaţie α = 0 ,05 , valoarea
critică a statisticii test Z este z=1,96. Regiunea de respingere a ipotezei Ho este definită de:
z calculat < −1,96 , respectiv z calculat > +1,96.
În cazul unui test unilateral la dreapta, pentru care ipoteza H 1 : µ > µ 0 , considerând
un prag de semnificaţie α = 0 ,05 , valoarea critică a statisticii test Z este z=1,64. Regiunea de
respingere a ipotezei Ho este, astfel, definită de: z calculat > 1,64 .
În cazul unui test unilateral la stânga, pentru care ipoteza H 1 : µ < µ 0 , considerând
un prag de semnificaţie α = 0 ,05 , valoarea critică a statisticii test Z este z = −1,64 . Regiunea
Exemplul 6.4. Testarea diferenţei dintre o medie şi o valoare fixă, cazul unui test bilateral
La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul lunar
obţinut şi se obţine x = 14 sute lei. Ştiind că σ = 4 sute lei , se cere să se testeze dacă există
diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras
eşantionul şi salariul mediu pe economie, de 13 sute lei. Se consideră un risc α = 0 ,05.
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13 sute lei (nu există diferenţe semnificative între salariul mediu al întregii populaţii
din care a fost extras eşantionul şi salariul mediu pe economie)
H 1 : µ ≠ 13 sute lei (există diferenţe semnificative între salariul mediu al întregii populaţii
din care a fost extras eşantionul şi salariul mediu pe economie)
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se foloseşte
x − µ0
statistica test Z: z = .
σ/ n
119
Calculul statisticii test
14 − 13
Pe baza datelor obţinute la nivelul eşantionului, se obţine: z cakulat = = 2 ,5 .
4 / 100
Regula de decizie
Folosind probabilitatea asociată statisticii test calculate:
• dacă Pr ob. < α , atunci se respinge ipoteza H0;
• dacă Pr ob. ≥ α , atunci se acceptă ipoteza H0.
120
Interpretare: z calculat = 2 ,5 > z0 ,025 = 1,96 sau (Pr ob. = 2 ⋅ 0 ,006 = 0 ,012 ) < α = 0 ,05 , se
Exemplul 6.5. Testarea diferenţei dintre o medie şi o valoare fixă, cazul unui test unilateral
La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul lunar
obţinut şi se obţine x = 14 sute lei. Ştiind că σ = 4 sute lei , se cere să se testeze dacă salariul
mediu al întregii populaţii din care a fost extras eşantionul este mai mare decât salariul mediu
pe economie, de 13 sute lei. Se consideră un risc α = 0 ,05.
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13 sute lei
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se foloseşte
x − µ0
statistica test Z: z = .
σ/ n
Regula de decizie
Folosind probabilitatea asociată statisticii test calculate:
• dacă Pr ob. < α , atunci se respinge ipoteza H0;
• dacă Pr ob. ≥ α , atunci se acceptă ipoteza H0.
121
Folosind statistica test:
• dacă z calculat > + zα , atunci se respinge ipoteza H0;
Figura 6.6. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test unilateral
la dreapta
Interpretare: z calculat = 2,5 > z 0, 025 = 1,64 sau Pr ob. = 0 ,006 < α = 0 ,05 , se respinge ipoteza
Ho. Se poate garanta cu o probabilitate de 0,95 că salariul mediu al întregii populaţii din care
a fost extras eşantionul observat ( µ ) este mai mare decât salariul mediu pe economie ( µ 0 ) .
Exemplul 6.6. Testarea diferenţei dintre o medie şi o valoare fixă, cazul în care nu se
cunoaşte varianţa populaţiei
Pentru un eşantion format din 25 de persoane, se înregistrează salariul lunar obţinut şi se
obţin următoarele rezultate: x = 15 sute lei, s' = 2 sute lei. Se cere să se testeze dacă există
diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras
eşantionul şi salariul mediu de economie, de 13 sute lei. Se consideră un risc α = 0 ,05.
122
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13
H 1 : µ ≠ 13
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t Student,
x − µ0
t= .
s' / n
Regula de decizie
• dacă t calculat < −tα / 2 sau t calculat > +tα / 2 , atunci se respinge ipoteza H0;
• dacă t calculat ≥ −tα / 2 sau t calculat ≤ +tα / 2 , atunci se acceptă ipoteza H0.
t K 0.025 K
M
24 K 2,064 K
123
Interpretare: Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:
0,95
0,025 0,025
tcalc =5
t
-2,064 2,064
H1 H0 H1
t calculat = 5 > t 0 ,025;24 = 2 ,064 , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de
0,95 că există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost
extras eşantionul observat ( µ ) şi salariul mediu pe economie ( µ 0 ) .
Ipoteze statistice
Ipotezele care se formulează în testarea semnificaţiei unei proporţii sunt:
H0 :π = π0
H 1 : π ≠ π 0 (test bilateral)
124
p −π0 p −π0
t calculat = = sau, în cazul folosirii procentelor,
sπˆ p(1 − p) / n
p −π0 p − π0
t calculat = = .
sπˆ p (100 − p ) / n
Rezolvare
Formularea ipotezelor statistice
H 0 : π = 51%
H 1 : π ≠ 51%
Statistica test
125
Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t Student,
p −π0
t= .
p ⋅ (100 − p ) / n
Regula de decizie
• dacă t calculat < −tα / 2 sau t calculat > +tα / 2 , atunci se respinge ipoteza H0;
• dacă t calculat ≥ −tα / 2 sau t calculat ≤ +tα / 2 , atunci se acceptă ipoteza H0.
Interpretare: t calculat = 0 ,2 < t 0 ,025;24 = 2 ,064 , se acceptă ipoteza Ho. Se poate garanta cu o
Testarea ipotezelor cu privire la două valori ale aceluiaşi parametru poate viza două
medii ale unor populaţii, µ1 şi µ 2 , sau două proporţii, π 1 şi π 2 .
Ipoteze statistice
126
H 0 : µ1 − µ 2 = 0
H 1 : µ1 − µ 2 ≠ 0
s12 ( n1 − 1 ) + s 22 ( n2 − 1 )
sp = .
n1 + n2 − 2
127
Rezolvare
Ipoteze statistice:
H0: µ1 = µ 2 (nu există diferenţe semnificative între vârstele medii ale celor două populaţii din
care au fost extrase eşantioanele)
H1: µ1 ≠ µ 2 (există diferenţe semnificative între vârstele medii ale celor două populaţii din
care au fost extrase eşantioanele)
Statistica test
Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se foloseşte
statistica t, calculată după relaţia:
x1 − x 2
t=
s12 s 22
+
n1 n 2
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;
1-α
α/2 α/2
-t α/2 tα/2 t
H 1 H 0 H 1
128
35 − 32
t= = 16 ,7
2 +4
2 2
625
Interpretare: ( t calc = 16 ,7 ) > (t0 ,025 = 1,96 ), se respinge ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între vârstele medii ale populaţiilor din
care au fost extrase eşantioanele observate.
Rezolvare
Ipoteze statistice
H0: µ M = µ F
H1: µ M ≠ µ F
Statistica test
Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se foloseşte
statistica t, calculată după relaţia:
xM − xF
t=
sM2 sF2
+
n1 n2
129
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;
1-α
α/2 α/2
-t α/2 tα/2 t
H 1 H 0 H 1
Interpretare: ( t calc = 0 ,76 ) < (t0 ,025 = 2 ,145 ), se acceptă ipoteza H0. Se poate garanta cu o
Ipoteze statistice
H 0 : π1 − π 2 = 0
H1 : π 1 − π 2 ≠ 0
130
Alegerea pragului de semnificaţie a testului α
Regula de decizie
• dacă t calc > tα / 2 ; n1 + n2 − 2 , se respinge ipoteza H0;
Rezolvare
Ipoteze statistice:
H0: π 1 = π 2 (nu există diferenţe semnificative între proporţia persoanelor care au votat pentru
candidatul A în anul 2016 şi anul 2012)
H1: π 1 ≠ π 2 (există diferenţe semnificative între proporţia persoanelor care au votat pentru
candidatul A în anul 2016 şi anul 2012)
Statistica test
Statistica t se calculează după relaţia:
131
p1 − p2
tcalculat =
p1 ⋅ (100 − p1 ) p2 ⋅ (100 − p2 )
+
n1 n2
Regula de decizie
• dacă t calc > tα / 2 ; n1 + n2 − 2 , se respinge ipoteza H0;
Interpretare: ( t calc = 0 ,71) < (t 0 ,025 = 1,96 ), se acceptă ipoteza H0. Se poate garanta cu o
Estimarea prin interval de încredere presupune construirea unui interval pentru valoarea
unui parametru, plecând de la rezultatele obţinute prin prelucrarea datelor la nivelul unui
eşantion extras din populaţie.
Testarea ipotezelor statistice presupune un demers invers: se formulează o ipoteză
asupra valorii unui parametru şi se verifică dacă această ipoteză este sau nu „contrazisă” de
observaţiile de la nivelul unui eşantion extras din populaţie.
De exemplu, să presupunem că în urma prelucrării datelor la nivelul unui eşantion, se
obţin limitele intervalului de încredere pentru media unei populaţii definite de [14; 18] . Dacă
132
în procesul testării statistice, formulăm ipotezele H 0 : µ = 10 ; H 1 : µ ≠ 10 , atunci putem
observa că se respinge ipoteza H0, deoarece media populaţiei, µ , nu poate fi egală cu 10.
133
Anexe
134
Anexa 1
Distribuţia Laplace:
z t2
1 −
Φ( z ) = e 2 dt
2π 0
0 z
0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036
0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075
0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114
0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152
0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188
0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222
0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255
0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285
0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313
0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339
1 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362
1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383
1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401
1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418
1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432
1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444
1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454
1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463
1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471
1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477
2 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482
2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486
2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489
2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492
2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494
2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495
2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496
2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497
2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498
2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499
3 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499
135
Distribuţia Student: p=P(t>tα) Anexa 2
Grade de libertate 0.1 0.05 0.025 0.01 0.005 0.001 0.0005
136
Bibliografie
137
20. Pintilescu, C., Analiză statistică multivariată, Editura Universităţii “Alexandru Ioan Cuza” Iaşi,
2007.
21. Saporta, G., Probabilités, analyse des données et statistique, Editura Technip, Paris, 1990
22. Tövissi, L.; Isaic-Maniu, Al., Statistica, A.S.E., Bucureşti, 1984.
23. Trebici, V.(coord.) - Mica enciclopedie de statistică, Editura Ştiinţifică şi Enciclopedică, Bucureşti,
1985.
24. Ţarcă, M. , Statistică, vol.I şi II, Universitatea "Al.I.Cuza" Iaşi, 1979.
25. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
26. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
138
BAZELE STATISTICII
- anul universitar 2021-2022 –
Statistica inferenţială:
Metodele inferenţiale au la bază ideea culegerii datelor, a
prelucrării şi analizei acestora de la nivelul unui eşantion
reprezentativ extras din populaţie după un procedeu ştiinţific
corespunzător. Obiectivul principal al acestor metode este
estimarea unor parametri şi testarea unor ipoteze care privesc
realitatea analizată.
1.2. Concepte fundamentale
a. Populaţia statistică
reprezintă o mulţime de elemente care pot fi reprezentate
de obiecte, persoane, fapte, evenimente sau procese din
lumea reală.
volumul unei populaţii se notează cu N.
c. Unităţile statistice
sunt elementele componente ale unei populaţii statistice.
Exemplu:
d. Variabila statistică
reprezintă însuşirea, trăsătura esenţială purtată de unităţile
statistice ale unei populaţii.
Exemplu
Exemplu
1.3. Tipuri de variabile statistice
după modul de exprimare:
1. Variabile numerice (cantitative): Valorile variabilei se
exprimă prin numere.
- variabile discrete.
Exemplu:
- variabile continue.
Exemplu:
1.3. Tipuri de variabile statistice
după modul de exprimare:
2. Variabile nenumerice (calitative):
- variabile nominale.
- variabile ordinale.
2. Analiza unei serii statistice univariate
2.1. Variabile cantitative
A. Variabilă discretă
i
N i = N i −1 + ni = nh
h =1
m
N i = N i +1 + ni = nh
h =i
• Frecvenţe relative cumulate crescător (Fi )
sau descrescător (Fi )
- exprimă ponderea unităţilor statistice cumulate “până la”
sau “peste” nivelul considerat al caracteristicii, adică valori ≤
xi, respectiv ≥ xi.
i
Fi = Fi −1 + f i = f h
h =1
m
Fi = Fi +1 + f i = f h
h =i
A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,
cunoscuţi şi sub denumirea de caracteristici numerice ale
unei distribuţii.
a. Definire:
- mediile sunt acele valori în jurul cărora se repartizează
unităţile unei populaţii.
- cele mai importante mărimi medii sunt media aritmetică,
modul şi mediana.
A.2. Analiza seriei folosind metode numerice
b. Media aritmetică ( x )
- Media aritmetică este valoarea pe care am observa-o dacă
unităţile statistice ar înregistra aceleaşi valori ale variabilei
(dacă nu ar exista variaţii ale valorilor înregistrate de
unităţile statistice).
Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţe
diferite (variabilă discretă).
Media simplă: xi
x= i
n
Media ponderată.
x i ni
x= i sau x = xi f i
ni i
i
Observaţie:
Media aritmetică este sensibilă la prezenţa valorilor extreme
(outliers).
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:
xmin≤ x ≤xmax.
Observaţie:
o distribuţie poate avea una, două sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).
n+1
U Me
=
2
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple:
- număr impar de termeni.
- număr par de termeni.
Observaţie:
mediana nu este influenţată de valorile extreme.
Știați că …
s2 = i
n , respectiv i
i n
Varianţa este întotdeauna pozitivă, nu are unitate de
măsură şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilor xi faţă
de medie creşte “influenţa” valorilor extreme
asupra nivelului varianţei.
2. Abaterea standard (s)
◼ arată cu cât variază, în medie, valorile xi ale variabilei faţă
de nivelul mediu al distribuţiei, în sens pozitiv şi negativ.
◼ se calculează ca radical din varianţă.
◼ se exprimă în aceeaşi unitate de măsură cu cea a variabilei.
( xi − x ) 2 (x i − x ) 2 ni
s= i
, s= i
n n i
i
3. Coeficientul de variaţie (v)
s
v= 100
x
◼ se exprimă în procente.
◼ valori ridicate ale acestui coeficient (v>50%) arată o
distribuţie eterogenă, care se caracterizează printr-o
variaţie mare a valorilor xi faţă de nivelul mediu şi o medie
nereprezentativă.
4. Intervalul interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eşantionului.
3 (x i − x)3
Coeficientul de asimetrie Fisher: sw = , cu 3 = i
s3 n
Relaţii între cele trei mărimi medii
Arată forma unei distribuţii:
1. Când x = Mo = Me distribuţia este simetrică.
2. Când x Me Mo distribuţia este asimetrică la
dreapta (asimetrie pozitivă).
3. Când x Me Mo distribuţia este asimetrică la
stânga (asimetrie negativă).
2. Boltirea
- este definită prin compararea distribuţiei empirice cu
distribuţia normală din punctul de vedere al variaţiei
variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată:
– pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher:
4 4 (x i − x)4
k= − 3 = −3 4 = i
22 s4 , cu n
A.3. Analiza seriei folosind metode grafice
a. Poligonul frecvenţelor:
- construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea
acestora prin segmente de dreaptă.
- aproximează forma unei distribuţii.
b. Histograma
c. Curba frecvenţelor
- presupune ajustarea printr-o linie curbă, continuă a
histogramei.
- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată, comparativ cu histograma.
Figura 1. Distribuția elevilor de la un liceu după nota
obținută la un examen, în martie 2016
d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”
Forma diagramei (D1, Q1, Q2, Q3, D9);
Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei şi
asimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prin
reprezentarea simultană a diagramelor).
Diagrama box-plot
1
NOTA
3 4 5 6 7 8 9 10 11
Mean 3.209581
Standard Error 0.131265
Median 3
Mode 2
Standard Deviation 1.696319
Sample Variance 2.877498
Kurtosis 1.40152
Skewness 1.315485
Range 9
Minimum 1
Maximum 10
Sum 536
Count 167
B. Variabilă continuă
B.1. Prezentarea seriei statistice
- gruparea unităţilor statistice este realizată pe intervale de
variaţie.
Observaţie:
- Gruparea pe intervale de variaţie duce la pierderea unei părţi
a informaţiei iniţiale.
I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
II. Indicatori specifici si reprezentare grafică
a) Variabile nominale:
• Pentru a reprezenta structura pe categorii la nivelul unui
eşantion se calculează frecvenţe relative.
• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele: Bar Chart sau Pie Chart.
• Indicatori specifici: modul.
b) Variabile ordinale:
• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele: Bar Chart sau Pie Chart.
• Frecvenţe absolute şi relative.
• Indicatori specifici: modul şi quartilele.
BAZELE STATISTICII
- anul universitar 2021-2022-
Partea a doua. Statistica inferenţială
1.1. Fundamentele inferenţei statistice
a. Obiectiv: populație și eșantion.
b. Noţiuni şi notaţii:
- parametrii populației (media, varianța, abaterea standard pentru
populație)
2. Legea Student
- este definită prin grade de libertate.
- Valorile teoretice ale statisticii t Student sunt tabelate.
2
ˆ ~ N ( , )
n
1.2. Estimarea parametrilor unei populaţii
s' s'
( x − t / 2;n −1 ) ( x + t / 2;n −1 )
n n
- Statistica t Student se alege pentru un risc α și (n-1) grade de
libertate.
Exemplu
La nivelul unui eşantion format din 25 de persoane, extras
aleator simplu repetat, s-au obţinut următoarele rezultate
privind vârsta (ani):
s' 2
( x t0.025;24 ) = ( 32 2 ,064 ) = ( 31,17 ; 32 ,83 )
n 25
(1 − )
ˆ ~ N ( , )
n
p (1 − p) p (1 − p)
( p − t / 2 ) ( p + t / 2 )
n n
Exemplu:
În urma realizării unui sondaj electoral la nivelul unui
eşantion format din 1500 persoane, se observă că 840
persoane au votat pentru candidatul A. Să se estimeze prin
interval de încredere proporţia persoanelor care votează
pentru candidatul A la nivelul întregii populaţii, considerând
un risc de 0,05.
Rezolvare:
- proporţia persoanelor care au votat pentru candidatul A, la
nivelul eşantionului, este: p=840/1500=0,56 sau 56%.
- I.C. se calculează astfel:
p (1 − p) 0,56 (1 − 0,56)
( p t / 2 ) = 0,56 1,96 = (0,53; 0,59).
n 1500
f) Regula de decizie
2.2. Testarea ipotezelor asupra unui eşantion
5.2.1. Testarea ipotezelor asupra mediei unei populaţii
a) Formularea ipotezelor H 0 : = 0
H1 : 0
b) Alegerea testului statistic
- dacă se cunoaşte 2 se foloseşte statistica Z;
x − 0 x − 0
zcalculat = t calculat =
/ n s' / n
2.2.1. Testarea ipotezelor asupra mediei unei
populaţii
e). Regula de decizie
- dacă t calculat t / 2 , se respinge ipoteza nulă,
pentru un risc
Exemplu
Exemplu
În urma prelucrării datelor privind veniturile familiilor dintr-o
regiune înregistrate la nivelul unui eşantion de volum n=625,
s-au obţinut următoarele rezultate:
x = 12 mil . lei , s‘2= 4. Să se testeze dacă există diferenţe
semnificative între veniturile medii ale familiilor la nivelul
populaţiei din care a fost extras eşantionul şi venitul mediu pe
ţară, 0 = 13 mil . lei , considerând un risc de 5%.
2.2.2 Testarea ipotezelor asupra proporţiei
Demersul testării:
a) Formularea ipotezelor statistice
H0 : = 0
H1 : 0
2.2.2 Testarea ipotezelor asupra proporţiei
b) Alegerea pragului de semnificaţie
c) Testul statistic
p − 0
t calculat =
p( 1 − p ) / n
d) Regula de decizie
Tipuri de întrebări grilă
cu mai multe variante de răspuns corecte
---------------------------------------------------------------------
1) Se consideră distribuţia firmelor dintr-o localitate după numărul de salariaţi înregistraţi în
luna ianuarie 2018. Variabila statistica, în acest caz, este reprezentată de
a) ansamblul firmelor
b) o firmă
c) numărul de salariaţi
---------------------------------------------------------------------
2) Care din următoarele variabile sunt variabile numerice (cantitative)?
a) talia, greutatea, salariul
b) sexul persoanelor, starea civilă, domiciliul
c) nivelul de studii absolvite
---------------------------------------------------------------------
3) Sunt discrete următoarele variabile:
a) sexul persoanelor, starea civilă, domiciliul
b) numărul de membri ai unei gospodării, numărul de angajaţi ai unei firme
c) salariul lunar, venitul gospodăriilor, PIB/locuitor
---------------------------------------------------------------------
4) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut
rezultatele din tabelul de mai jos.
Statistics
Current Salary
N Valid 474
Missing 0
Mean $34,000.00
Median $28,000.00
Mode $30,500
Std. Deviation $17,000.000
Percentiles 25 $24,000.00
50 $28,000.00
75 $37,000.00
---------------------------------------------------------------------
5) Pentru un eşantion de angajaţi s-au obţinut următoarele rezultate cu privire la nivelul
salariului ($):
Statistics
Current Salary
N Valid 474
Missing 0
Mean $34,419.57
Std. Error of Mean
$784.311
Median $28,875.00
Mode $30,750
Std. Deviation
$17,075.661
Variance 291578214,453
Skewness 2,125
Std. Error of Skewness
,112
Kurtosis 5,378
Std. Error of Kurtosis
,224
Range $119,250
Minimum $15,750
Maximum $135,000
Sum $16,314,875
Percentiles 25 $24,000.00
50 $28,875.00
75 $37,162.50
---------------------------------------------------------------------
6) 25% din salariaţii unei întreprinderi au un salariu de cel mult 2500 lei. Această valoare
reprezintă
a) quartila unu
b) mediana
c) quartila trei
---------------------------------------------------------------------
7) Distribuţia a n familii dintr-un bloc, după numărul de copii (X), la un moment dat, se
prezintă astfel :
xi 0 1 2 3 4
ni 5 15 20 10 5
Ponderea familiilor care au cel mult 2 copii este :
a) 72,7%
b) 40%
c) 2%
8) Distribuţia a n familii dintr-un bloc, după numărul de copii (X), la un moment dat, se
prezintă astfel :
xi 0 1 2 3 4
ni 5 15 20 10 5
----------------------------------------------------------
9) Pentru două judeţe, A şi B, s-a înregistrat rata şomajului (%) în perioada 1990-2011.
Rezultatele sunt reprezentate in figura de mai jos.
judetul_B
judetul_A
4 6 8 10 12 14 16 18 20 22
b) Rata mediană a şomajului pentru judeţul A este mai mică decât cea pentru judeţul B
c) Judeţul A este mai omogen decât judeţul B din punctul de vedere al ratei şomajului
---------------------------------------------------------------------
10) Cheltuielile lunare (milioane lei) pentru plata serviciilor şi a dobânzilor la creditele luate
de un eşantion format din 8 familii sunt: X: (4, 6, 12, 7, 8, 10, 27, 16)
Pentru această distribuţie sunt valabile rezultatele:
a) Mo = 27
d) Me = 9
---------------------------------------------------------------------
11) Distribuţia unui eşantion de 200 de firme din judeţul Iaşi după profitul lunar, obţinut in
anul 2012, este caracterizată prin următoarele valori: x = 180 milioane şi s2= 361.
Abaterea medie pătratică (deviația, standard, abaterea standard) arată că
a) o firmă obţine un profit lunar care se abate de la profitul mediu cu 19 milioane lei
b) o firmă obţine un profit lunar care se abate, în medie, de la profitul mediu, cu 19 milioane
lei, în sens pozitiv şi negativ
c) o firmă obţine un profit lunar care se abate, în medie, de la profitul mediu, cu 361
milioane lei, în sens pozitiv şi negativ
d) o firmă obţine un profit lunar mai mare decât profitul mediu cu 19 milioane lei
---------------------------------------------------------------------
12) Distribuţia familiilor dintr-un bloc după numărul de copii se prezintă astfel:
Număr copii 0 1 2 3 4
Număr familii 3 10 18 3 2
b) Mo = 18 copii
c) Mo = 32 copii
13) Distribuţia familiilor dintr-un bloc după numărul de copii se prezintă astfel:
Număr copii 0 1 2 3 4
Număr familii 3 10 18 3 2
Interpretare:
Jumătate (50%) dintre familii au cel mult 2 copii, jumătate (50%) au cel puțin 2 copii.
14) Diagramele box-plot obţinute pentru distribuţia angajaţilor a două firme după salariul lunar
(euro) obţinut sunt prezentate mai jos:
b) Distribuţia angajaţilor după salariul obţinut este mai omogenă în cazul firmei B decât în
cazul firmei A
c) 50% dintre angajaţii firmei A obţin un salariu lunar mai mic de 400 euro în timp ce 50%
din angajaţii firmei B obţin un salariu lunar mai mic de 350 euro
d) 75% dintre angajaţii firmei B obţin un salariu mediu lunar mai mare de 250 euro
---------------------------------------------------------------------
15) În urma prelucrării datelor privind vârsta, înregistrate pentru o populaţie formată din 100 de
persoane, s-au obţinut următoarele rezultate:
x = 25 ani s 2 = 9.
; Valoarea şi interpretarea corectă a coeficientului de variaţie sunt:
a) v=12% şi arată că media distribuţiei este reprezentativă
--------------------------------------------------------------------
16) Un coeficient de boltire (k) egal cu - 4 arată:
a) o distribuţie leptocurtică
b) o distribuţie mezocurtică
c) o distribuţie platicurtică
---------------------------------------------------------------------
lOMoARcPSD|7743997
---------------------------------------------------------------------
1) Se consideră distribuţia firmelor dintr-o localitate după numărul de
salariaţi înregistraţi în luna ianuarie 2018. Variabila statistica, în acest
caz, este reprezentată de
a) ansamblul firmelor
b) o firmă
c) numărul de salariaţi
---------------------------------------------------------------------
2) Care din următoarele variabile sunt variabile numerice (cantitative)?
a) talia, greutatea, salariul
b) sexul persoanelor, starea civilă, domiciliul
c) nivelul de studii absolvite
---------------------------------------------------------------------
3) Sunt discrete următoarele variabile:
a) sexul persoanelor, starea civilă, domiciliul
b) numărul de membri ai unei gospodării, numărul de angajaţi ai unei
firme
c) salariul lunar, venitul gospodăriilor, PIB/locuitor
---------------------------------------------------------------------
4) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($)
s-au obţinut rezultatele din tabelul de mai jos.
Statistics
Current Salary
N Valid 474
Missing 0
Mean $34,000.00
Median $28,000.00
Mode $30,500
Std. Deviation $17,000.000
Percentiles 25 $24,000.00
50 $28,000.00
75 $37,000.00
Statistics
Current Salary
N Valid 474
Missing 0
Mean $34,419.57
Std. Error of Mean
$784.311
Median $28,875.00
Mode $30,750
Std. Deviation
$17,075.661
Variance 291578214,453
Skewness 2,125
Std. Error of Skewness
,112
Kurtosis 5,378
Std. Error of Kurtosis
,224
Range $119,250
Minimum $15,750
Maximum $135,000
Sum $16,314,875
Percentiles 25 $24,000.00
50 $28,875.00
75 $37,162.50
judetul_B
judetul_A
4 6 8 10 12 14 16 18 20 22
TOTAL 210
Numărul studenţilor care au obţinut cel mult nota 8 la examen este:
a) 130 studenţi
b) 190 studenţi
c) 80 studenţi
5 25 25/210*10 83,33+11,
0=11,91 91=95,24
6 40 40/210*10 64,28+19,
0=19,05 05=83,33
7 55 55/210*10 38,09+26,
0=26,19 19=64,28
8 60 60/210*10 9,52+28,5
0=28,57 7=38,09
9 15 15/210*10 2,38+7,14
0=7,14 =9,52
10 5 5/210*100 2,38
=2,38
TOTAL 210 100
Ponderea studenţilor care au obţinut peste nota 7 la examen este
a) 64,28%
b) 28,57%
c) 38,09%
afirmaţiile:
a) distribuţia este asimetrică la dreapta(Mo<Me<x)
b) media distribuţiei este reprezentativă(v=s/x=3/17*100=17.64<50%)
10) Distribuţiile studenţilor din două serii (seria 1 şi seria 2) după nota obţinută
la un examen în sesiunea ianuarie 2012 se prezintă astfel:
NOTA_1
NOTA_2
3 4 5 6 7 8 9 10 11
b) 75% din numărul total al studenţilor din a doua serie au obţinut o notă de
până la 8
c) distribuţia studenţilor din prima serie se caracterizează printr-o dispersie
mai mare
d) 50% din studenţii din prima serie au luat note între 5 şi 9.
Mean 23.57
Standard Error 0.45
Median 23.00
Mode 22.00
Standard Deviation 2.46
Sample Variance 6.05
Kurtosis(K) -1.06
Skewness(Sk) 0.33
Range 8.00
Minimum 20.00
Maximum 28.00
Sum 707.00
Count 30.00
Current Salary
N Valid 474
Missing 0
Mean $34,000.00
Median $28,000.00
Mode $30,500
Std. Deviation $17,000.000
Percentiles 25 $24,000.00
50 $28,000.00
75 $37,000.00
13. Pentru două judeţe, A şi B, s-a înregistrat rata şomajului (%) în perioada
1990-2011. Rezultatele sunt reprezentate in figura de mai jos.
judetul_B
judetul_A
4 6 8 10 12 14 16 18 20 22
Mediul Salariu
9 12 15 20
Urban 1 5 7 15
Rural 6 4 2 1
Mediul Salariu
8-10 10-12 12-14 14-16
Urban 1 5 7 15
Rural 6 4 2 1