Sunteți pe pagina 1din 11

Curs nr.

NOŢIUNI DE BAZĂ ALE STATISTICII

1. Ansamblul obiectelor sau indivizilor luat pentru prelucrarea statistică se


numeşte colectiv. Când din colectiv se selecţionează, după anumite
criterii, un număr de obiecte sau indivizi pentru a fi supus unui
experiment, acesta se numeşte eşantion.
2. Totalitatea indicatorilor variabili se numeşte mulţime. Suma acestora se
notează cu “S” sau cu (sigma).
3. Fiecare indicator al mulţimii statistice se numeşte element.
4. Numărul sau suma tuturor frecvenţelor se numeşte volumul mulţimii şi
se notează cu “N”.
5. Fiecare valoare numerică ce caracterizează variabila dată se numeşte
variantă şi se notează cu “v” sau x i.
6. Numărul care exprimă de câte ori se repetă o variantă se numeşte
frecvenţă şi se notează cu “ f “.
Parametrii tendinţelor centrale
Ansamblul acestor indicatori este constituit din :
- Media aritmetică;
- Mediana şirului;
- Modulul şirului de date;
- Valoarea centrală.
Media aritmetică
Este indicatorul cel mai des utilizat şi cel mai simplu de aflat. În
interpretarea ei nu trebuie să uităm că această măsură a tendinţei centrale este
influienţată de rezultatele extreme, fapt care poate duce uneori la concluzii eronate.
Media poate fi comparată cu axul suprafeţei de plutire a unei bărci atunci când
aceasta se află într-un echilibru perfect. Dacă la capătul unei bărci se aşează o
persoană foarte grea şi la celălalt o persoană cu greutate foarte mică, axul suprafeţei
de sprijin se va deplasa către persoana foarte grea. Media corespunde deci centrului
de greutate din fizică. Tot în acest fel media aritmetică va cădea pe punctul care va
echilibra şirul nostru de date. În acest sens putem spune că un rezultat foarte slab va
trage media după el, şi un rezultat foarte bun va determina o înbunătăţire a mediei.
Pentru calcularea ei se foloseşte formula :
X = Σ x/N unde :

X = media aritmetică;
Σ x = suma valorilor individuale;
N = numărul de cazuri.
Să luăm spre exemplificare următorul grup de date ce reprezintă
performanţe înregistrate de elevii unei clase, a XI – a ( anul III de liceu ), la proba
de săritura în lungime cu elan de pe loc.

TABELUL Nr. 1
Numărul de ordine al elevilor Valorile individuale ale cazurilor
N X
1 2,39
2 2,55
3 2,16
4 2,11
5 2,15
6 2,13
7 2,20
8 2,37
9 2,13
10 2,24
11 2,29
12 2,00
13 2,18
14 2,30
15 2,15
16 2,20
17 2,17
18 1,90
19 1,95
20 2,20

N = 20 Σ x = 43,77
X = Σ x/N = 43,77/20 = 2,18m
Putem spune că media aritmetică la săritura în lungime cu elan de pe loc a
colectivului este de 2,18m.
Această formulă de calcul este eficientă în situaţia în care avem un eşantion
compus dintr-un număr redus ( mic ) de cazuri şi datele sunt negrupate. Pentru
calcularea mediei aritmetice la un număr mare de cazuri sau pentru datele grupare
se utilizează media aritmetică ponderată după formula :
M p = Σ x f/N unde :
x = valoarea individuală;
f = ponderea sau frecvenţa;
N = numărul total de cazuri.
În această situaţie se face suma valorilor individuale înmulţite cu frecvenţa
fiecărei valori şi împărţite la numărul total de cazuri.
Să încercăm să exemplificăm cu tabelul nr. 2 pe cazurile prezentate în
tabelul nr. 1.

TABELUL Nr. 2

x F fx
1,90 1 1,90
1,95 1 1,95
2,00 1 2,00
2,11 1 2,11
2,13 2 4,26
2,15 2 4,30
2,16 1 2,16
2,17 1 2,17
2,18 1 2,18
2,20 3 6,60
2,24 1 2,24
2,29 1 2,29
2,30 1 2,30
2,37 1 2,37
2,39 1 2,39
2,55 1 2,55
Σ x f = 43,77
M p = Σ x f /N = 43,77/20 = 2,18m

O altă formulă de calcul a mediei pentru datele grupate în clase este


următoarea : m = f x k/N unde :
 x k = valoarea centrală a clasei;
 f x k = produsul dintre frecvenţă şi valoarea centrală a clasei;
 N = numărul de cazuri.

Mediana şirului de date


Mediana ( mdn sau Me ) este punctul care împarte în două şirul de date şi
deasupra căruia se află jumătate din cazuri, iar sub el cealaltă jumătate. Ea nu ne
este precizată ca o performanţă sau ca valoare particulară, ci un punct, căruia îi
poate corespunde sau nu o anumită valoare a lui x.
Pentru aflarea medianei trebuie întâi să aranjăm datele în ordine
descrescândă, fără a ţine seama de ordinea recoltării lor. Prezentăm datele din
tabelul nr. 1 aşezate în ordinea crescândă. Ele reprezintă performanţele obţinute de
20 de elevi la săritura în lungime cu elan de pe loc. Pentru calculul medianei se
foloseşte formula :
Mdn = N + ½ = 20 + ½ = 21/2 = 10,5.
TABELUL Nr. 3
N X
1 1,90
2 1,95
3 2,00
4 2,11
5 2,13
6 2,13
7 2,15
8 2,15
9 2,16
10 2,17
11 2,18
12 2,20
13 2,20
14 2,20
15 2,24
16 2,29
17 2,30
18 2,37
19 2,39
20 2,55

Având valoarea de 10,5 numărăm de sus în jos 10,5 şi aflăm că mediana se


află între numărul de ordine 10 şi 11. Valoarea concretă care-I corespunde este între
2,17 şi 2,18 m, adică : ( 2,17 + 2,18 )/2 = 2,175
Pentru datele grupate în clase calculul se va desfăşura astfel :
La un lot de 28 de sportivi s-a aplicat un test de perspicacitate şi s-au obţinut
performanţe între 0 şi 44. Împărţirea în clase se face astfel :
==========================
Clase F Clase F
==========================
40 – 44 1 10 – 14 1
35 – 39 1 5–9 1
30 – 34 3 0–4 4
25 – 29 5
20 – 24 3
15 – 19 9

Aplicând formula medianei reiese că: 28 + ½ = 14,5.


Numărând de sus în jos 14,5 cazuri constatăm că locul medianei este cuprins
în intervalul cu frecvenţa 9.
Pentru gruparea datelor în clase se calculează întâi amplitudinea
( notată cu W ) după următoarea formulă : W = x max. – x min. În cazul nostru W =
44 – 0 = 44, deci W = 44, apoi se alege un număr care adăugat, începând de la
valoarea cea mai mică, să cuprindă toate datele.
Pentru exemplul prezentat au ales ca interval de clasă cifra 4. Este
recomandabil să nu se formeze mai puţin de 5 clase şi nici mai mult de 10.
Gruparea în clase a datelor va fi folosită în calculele ulterioare ale diferiţilor
indicatori statistici.
Modulul este indicatorul din categoria tendinţelor centrale care se află cel
mai simplu. Modul reprezintă valoarea variabilei cu frecvenţa cea mai mare. În
tabelul 2 în care sunt înregistrate valorile performanţelor a 20 de elevi la săritura în
lungime cu elan de pe loc, constatăm că valoarea 2,20 m este variabila cea mai
reprezentativă, deoarece are frecvenţa cea mai mare. Să vedem în continuare în ce
situaţii se folosesc media, medianul şi modulul.
Media aritmetică este cel mai des folosită din următoarele motive:
 este valoarea centrală cea mai exactă;
 se poate manipula uşor în calculele ulterioare;
 ne arată destul de exact care este centrul de greutate al şirului de date;
 deviaţiile cazurilor particulare furnizează înformaţii despre caracterul
distribuţiei.
Modulul este estimaţia cea mai primitivă a tendinţei centrale şi se
recomandă a fi utilizat numai în cadrul aprecierilor foarte sumare.
Mediana se foloseşte în cazurile în care se doreşte o situaţie mai exactă,
deoarece fiecare valoare a variabilei aleatoare, indiferent de mărimea ei nu este
luată în consideraţie decât o singură dată, astfel că se obţine o valoare foarte
apropiată de media aritmetică.
Indicii de împrăştiere sau de distribuţie
Pentru cunoaşterea particularităţilor unui colectiv studiat printr-o probă ( test
), mai ales când avem un număr mare de subiecţi, se impune cu necesitate
măsurarea gradului de dispersie a distribuţiei.
Amplitudinea este indicatorul statistic ce arată gradul de împrăştiere a
datelor şi se notează cu w. Pentru calcularea ei avem nevoie de valoarea cea mai
mare şi de valoarea cea mai mică a performanţelor înregistrate. Din diferenţa lor
rezultă amplitudinea seriei respective.
Vom nota : x max. = valoarea cea mai mare;
x min = valoarea cea mai mică.
Consultând datele din tabelul nr. 1 vom constata că :
x max. = 255 cm şi x min. = 190 cm
deci : w = 255 – 190 = 65 cm. Altfel spus performanţele colectivului se
întind ( împrăştie ) pe distanţa a 65 de centimetri ceea ce reprezintă amplitudinea.
Abaterea sau deviaţia centrală
Pentru calculul deviaţiei centrale trebuie luat în consideraţie un parametru
care reprezintă tendinţa centrală a şirului de date şi anume, media aritmetică şi
oricare din valorile individuale. Acest indicator ne arată cu cât un rezultat din seria
de date ( xi ) se abate de la medie( x ). Simbolul abaterii centrale este A. Deci A
=xi–x, în care :
xi = valoarea individuală dată;
x = media aritmetică a şirului de date
Din tabelul nr. 1 luând valoarea 190 şi media aritmetică a colectivului 218,
vom avea ; 190 – 218 = - 28. Dacă din acelaşi total luăm o performanţă de 220 vom
avea : 220 – 218 = + 2. Deci la calcularea abaterii centrale trebuie să ţinem cont de
semnul + sau – al rezultatului.
Abaterea medie sau variaţia medie
Este un indicator care se foloseşte în cazurile în care dorim să comparăm
rezultatele a două colective care au aceeaşi valoare a mediei aritmetice. Se
calculează după formula : Am = Σ( Xi – X )/N.
Prin calcularea variaţiei medii vom constata câte performanţe sânt mai bune
într-un colectiv decât în celălalt şi care dintre ele este mai omogen
(din gruparea rezultatelor în jurul mediei).
Dispersia
Are simbolul S² şi desemnează media patratelor abaterilor valorilor
individuale, fiecare ridicate la pătrat, faţă de media aritmetică. În calcularea acestui
indicator avem avantajul că dispar semnele de + şi – , însă se iveşte dificultatea
manevrării patratelor, care sunt şi mai greu de înţeles. Dispersia nu reprezintă
altceva decât patratul abaterii standard şi se calculează după următoarea formulă :
S² = ∑ ( Xi – X )²/N

Abaterea tip sau abaterea standard sau deviaţia standard


Se obţine din rădăcina patrată a dispersiei în cazul în care se cunoaşte
dispersia. Deci : S = a²
În cazul în care avem o serie simplă calculul se efectuează după formula :

S=± ∑ ( Xi – x )²/ ( N – 1 ) , unde :


∑ = suma rezultatelor;
Xi – x = abaterea valorilor individuale faţă de medie;
N = numărul de cazuri.
În situaţia în care avem un număr mai mic de 30 de valori individuale se
utilizează N – 1, fapt ce determină mărirea semnificaţiei dispersiei făcând-o mai
precisă. Datorită faptului că diferenţa dintre N şi N – 1 , la un număr mai mare de
30 de cazuri este neglijabilă , se va putea folosi şi în această situaţie N – 1.
În lucrările de specialitate abaterea standard se mai notează şi cu litera
grecească ( δ ) sau cu litera D.
Mulţi autori folosesc N pentru orice număr de cazuri. Să exemplificăm prin
aceleaşi date folosite până acum ( rezultate la săritura în lungime cu elan de pe loc ).
TABEL Nr. 4
Nr. crt. Xi Xi - x (Xi – x )²
1 190 28 784
2 195 23 529
3 200 18 324
4 211 7 49
5 213 5 25
6 213 5 29
7 215 3 9
8 215 3 9
9 216 2 4
10 217 1 1
11 218 0 0
12 220 2 4
13 220 2 4
14 220 2 4
15 224 6 36
16 229 11 121
17 230 12 144
18 237 19 361
19 239 21 441
20 255 37 1369

∑ Xi = 20 x = 218 ∑ ( Xi – x ) = 4243

S=± 4243/( 20 – 1 ) =± 223 = ± 14,93


Pentru calcularea deviaţiei standard se mai folosesc şi alte formule, dintre
care una similară folosite de noi este :
S=± ∑ d²/ ( N – 1 ) d² = ( Xi – X )²
În cazul în care seria de date este grupată pe frecvenţe se foloseşte formula :
S= ∑ d² f/N – 1 deci, 223 = ± 14,93
TABELUL Nr. 5
Xi F ( Xi – x ) = d ( Xi –x)² = d² d² f
190 1 28 784 784
195 1 23 529 529
200 1 18 324 324
211 1 7 49 49
213 2 5 25 50
215 2 3 9 18
216 1 2 4 4
217 1 1 1 1
218 1 0 0 0
220 3 2 4 12
224 1 6 36 36
229 1 11 121 121
230 1 12 144 144
237 1 19 361 361
239 1 21 441 441
255 1 37 1369 1369

N = 20 ∑ d² f = 4243
S=± d² f / N – 1 =± 4243/19 = ± 223 = 14,93
Măsurile variabilităţii sunt de natură a ne crea o imagine mai exactă asupra
raporturilor valorice existente între membrii a două colective. Spre exemplificare să
considerăm că un profesor de educaţie fizică desfăşoară lecţii la două clase paralele,
a X-a A şi a X-a B. În cadrul primei ore a semestrului se aplică elevilor probele
cuprinse în sistemul unitar de verificare şi apreciere. După efectuarea calculelor
profesorul anunţă mediile aritmetice obţinute de cele două colective la săritura în
lungime cu elan de pe loc : clasa A, 190 cm şi clasa B, 170 cm. Desigur suntem
tentaţi în a considera clasa mai bună A decât clasa B, atâta vreme cât nu avem nici o
indicaţie despre împrăştierea valorilor variabilei în jurul mediei fiecărui grup. Un
indicator deosebit de important pentru explicarea situaţiei prezentate este cel
referitor la amplitudine.
La clasa A rezultatele se distribuie pe 55 cm, în timp ce la clasa B pe 70 cm. Prin
desenarea curbelor de distribuţie ne dăm seama de suprapunerea acestora şi
constatăm că între cele două colective există mai mult asemănări decât deosebiri.
De asemenea se constată că la elevii colectivului B există o variabilitate mai mare şi
că orice membru al acestei clase este probabil a avea performanţă mai ridicată decât
oricare mambru al clasei A. Din cele exemplificate rezultă clar că media singură nu
este adecvată pentru a caracteriza un grup şi de aceea este necesar să apelăm la
măsurarea variabilităţii faţă de orice măsură a tendinţei centrale. Cea mai
semnificativă măsură a variabilităţii şi mai des utilizată este abaterea standard.
Coeficientul de variabilitate
În practica educaţiei fizice şi sportului sunt dese cazurile în care ne
interesează gradele de omogenitate a două sau mai multe colective, mai ales când
mediile aritmetice sunt diferite sau sunt exprimate în unităţi de măsură diferite : kg.,
cm., sec., mm., min., etc. Pentru aceasta se apelează la coeficientul de variabilitate.
Cel mai simplu coeficient de variabilitate este cel al lui Pearson şi se
exprimă în funcţie de abaterea standard şi media aritmetică după următoarea
formulă :
Cv = S/X
Să presupunem că două colective formate din câte 12 elevi au fost notaţi la o
probă de control care a verificat capacitatea de practicare a unui joc sportiv cu
următoarele note :

I. 2, 3, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9;
II. 2, 2, 4, 5, 5, 5, 6, 6, 7, 8, 8, 9;
I. N = 12 II. N = 12
Xi = 72 Xi = 67
X = 6 X = 5,5
Înlocuind în formulă datele de la ambele colective obţinem :
Pentru colectivul I. S = 2,14
Cv = 2,14x100/6 = 35,66%
Pentru colectivul II. S = 2,13
Cv = 2,13x100/5,5 = 38,72%
Limita inferioară a lui Cv este 0 ( zero ); dacă el depăşeşte 33% atunci în
seria de date media aritmetică nu este semnificativă şi poate servi numai ca
aproximaţie a tendinţei centrale. Din exemplul luat se constată că ambele serii
depăşesc 33%, fapt generat şi de numărul relativ mic de cazuri investigate, şi putem
trage concluzia că media aritmetică este cu ât mai exactă cu cât numărul de cazuri
este mai mare.
Coeficienţii de variaţie ne pot forma o imagine a gradului de variaţie în
următoarele cazuri :
 când vrem să apreciem gradul de omogenitate al observaţiilor colectivului
cercetat;
 când vrem să comparăm valorile la două abateri tip, ale două şiruri de
observaţii, ale căror elemente au valori foarte diferite sau sunt caracterizate de
însuşiri diferite.
În cazul în care se apreciază cu ajutorul coeficientului de variabilitate gradul
de omogenitate al observaţiilor, împrăştierea acestora se interpretează astfel :
- 0 – 10%, dispersie mică, deci omogenitate mare;
- 10 – 20%, dispersie medie, omogenitate medie;
- peste 20%, lipsă de omogenitate, datorită dispersiei mari.
Coeficientul de variabilitate se calculează şi în raport de valoarea medianei
care se trece în formulă în locul mediei aritmetice.

Teste de autoevaluare şi apreciere


1. Definiţi termenul de eşantion.
2. Definiţi termenul de variantă.
3. Ce reprezintă frecvenţa ?
4. Care sunt parametrii tendinţelor centrale ?
5. Ce este amplitudinea ?
6. Definiţi termenul de modul.
7. Care este cel mai simplu coeficient de variabilitate ?

Cheia exerciţiilor
1. Eşantionul reprezintă un colectiv selecţionat după anumite criterii pentru
a fi supus unui experiment. Criteriile se stabilesc pe baza unor ipoteze de
lucru.
2. Fiecare valoare numerică ce caracterizează variabila dată se numeşte
variantă.
3. Frecvenţa este numărul care exprimă de câte ori se repetă o variantă.
4. Parametrii tendinţelor centrale sunt : * media aritmetică; * mediana
şirului de date; * modulul şirului de date; * valoarea centrală.
5. Indicatorul statistic ce ne arată gradul de împrăştiere a datelor se
numeşte amplitudine.
6. Modulul este indicatorul tendinţelor centrale care reprezintă valoarea
variabilei cu frecvenţa cea mai mare.
7. Cel mai simplu coeficient de variabilitate este cel al lui Pearson şi se
exprimă prin raportul dintre abaterea standard şi media aritmetică.