Sunteți pe pagina 1din 7

Seminarul 2

Gruparea datelor statistice și reprezentarea grafică; calcul frecvențe


absolute și relative

Gruparea/clasificarea datelor statistice presupune împărţirea unităţilor populaţiei statistice


observate în grupe sau clase distincte omogene, după unul sau mai multe criterii.
Atunci când criteriul (caracteristica) după care se realizează această operaţie este unul
numeric, cantitativ, ea se numeste grupare, iar când operaţia se realizează după un criteriu
(caracteristic) calitativ, nenumeric, ea se numeste clasificare.

1. Clasificarea datelor statistice

a) Dacă datele sunt sistematizate după o variabilă categorială (nominală), ordinea claselor
este lăsată la îndemâna cercetătorului:

1
b) Dacă datele se referă la variabile ordinale, clasele vor respecta criteriul de ordine:

2. Gruparea datelor

a) pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja valorilor
pe care le poate lua caracteristica nu este foarte mare)

b) pe intervale de variaţie (atunci când sistematizăm datele după o variabilă continuă, care
are o plajă largă de valori.

2
Se notează cu X – caracteristica de grupare (valoarea facturilor emise zilnic). Se parcurg
următorii pasi:
● se calculează amplitudinea variaţiei caracteristicii (Ax): Ax = xmax - xmin =11,7–5,2=6,5 mii
lei
● se stabileste numărul de grupe (r): r = 1+ 3,322 ⋅ lg n = 1+3,322lg 50 =6,64≈7 (formula
lui Sturges)
● se stabileste mărimea intervalului de grupare (h): h = Ax / r =6,5/7≈1 mii lei
● se stabilesc intervalele de variaţie si se efectuează gruparea

3
3. Frecvențe relative și absolute

Serii de repartiţie de frecvenţe pe intervale de variaţie

a) Centrul intervalului este determinat ca medie aritmetică simplă a limitelor intervalului


si este considerat reprezentativ pentru datele din acel interval. Se determină cu una din
relaţiile:
𝑖𝑛𝑓 𝑠𝑢𝑝
𝑥𝑖 +𝑥𝑖 𝑖𝑛𝑓 ℎ
𝑥𝑖 = 𝑥𝑖 = 𝑥𝑖 + 2𝑖 , ℎ𝑖 reprezintă mărimea intervalului
2

b) Frecvenţa absolută a grupei (ni) este egală cu numărul de unităţi statistice care au
valoarea caracteristicii mai mare (sau egală) cu limita inferioară a intervalului si mai mica
(sau egală) cu limita superioară a acesteia. Suma frecvenţelor absolute este notată cu n si
reprezintă numărul total de unităţi sau volumul esantionului.

c) Frecvenţa relativă a unei grupe ( ni* ) reprezintă ponderea unităţilor statistice în volumul
total al colectivităţii care au valoarea caracteristicii cuprinsă între limita inferioară si cea
superioară a grupei respective. Se determină ca raport între frecvenţa absolută a grupei si
volumul esantionului (eventual înmulţit cu 100).

d) Frecvenţele cumulate

4
● Frecvenţa absolută cumulată crescător a unei grupe este egală cu numărul
unităţilor care au valoarea variabilei mai mică (sau egală) cu limita superioară a
𝑖𝑛𝑓
grupei (mai exact între 𝑥𝑖 𝑠𝑖 𝑥𝑖𝑠𝑢𝑝

● Frecvenţa absolută cumulată descrescător a unei grupe este egală cu numărul


unităţilor pentru care valoarea caracteristicii este mai mare (sau egală) cu limita
inferioară a grupei

5
4. Gruparea datelor după două categorii (tabelul de contingență)
Tabelul de contingență se folosește pentru sintetizarea datelor după două sau mai multe
variabile o dată. Tabelul următor arată jocul de societate peferat de tineri precum și
gustările favorite din timpul întâlnirilor cu prietenii.

Pizza Chips-uri Biscuiți Total


Monopoly 10 3 12 25
Jocuri de cărți 8 14 7 29
Catan 14 17 7 38
Dixit 12 7 4 23
Total 44 41 30 115

a) Câți dintre respondenți preferă să joace Monopoly?


b) Câți dintre respondenți preferă să mănânce biscuiți?
c) Care este probabilitatea ca jocul Catan să fie jocul preferat al unui respondent?
d) Care este probabilitatea ca pizza să fie gustarea preferată a unui respondent?
e) Care este probabilitatea ca un respondent să prefere Jocuri de cărți și Biscuiții?
f) Care este probabilitatea ca un respondent să prefere Jocuri de cărți și Catan?
g) Care este probabilitatea ca unui respondent caruia ii place Monopoly să-i placă Pizza?
h) Care este probabilitatea ca unui respondent caruia ii place Pizza să joace Monopoly?

5. Reprezentare grafică

Making Data Meaningful Part 2: A guide to presenting statistics

a) Ce condiții trebuie să îndeplinească un grafic bun?


b) Ce tip de grafic ați alege pentru a reprezenta:
- Populația României în perioada 2000-2016,
- Evoluția PIB în perioada 2004-2015 în România,
- Datoria publică ca pondere în PIB în țările membre UE în anul 2015.

6
- Rata medie anuală a inflației corelată cu rata șomajului la nivelul țărilor membre
UE în anul 2015,
- Populatia de peste 18 ani în funcție de starea civilă?

6. Infografice

Condiții de viață ale populației din România în anul 2015

În grupuri de câte 4, identificați 3 avantaje ale infograficelor comparativ cu reprezentările


clasice (Tabele, grafice, hărți).

Temă

1. Types of outliers (Tipuri de valori aberante): additive, transitory change, level shift.
Descrieți pe scurt fiecare tip de valoare aberantă.
2. Dați like paginii de Facebook a INS și alegeți 3 infografice. Analizați comparativ cele 3
infografice din punct de vedere grafic și al relevanței informației. Ce sugestii de
îmbunătățire aveți?

Referințe

Making Data Meaningful Part 2: A guide to presenting statistics

http://www.unece.org/fileadmin/DAM/stats/documents/writing/MDM_Part2_English.pdf
(accesat la data 13 martie 2017)

Condiții de viață ale populației din România în anul 2015

http://www.insse.ro/cms/files/publicatii/pliante%20statistice/2016/Conditii%20de%20viata%20a
le%20populatie%20din%20Romania%202015.pdf (accesat la data 13 martie 2017)

Curs de statistica: Unitatea de învățare nr. 4 (sursa exemplelor)

http://www.ase.ro/upcpr/profesori/1825/UI4-Prel.datelor.pdf (accesat la data 13 martie 2017)