Sunteți pe pagina 1din 45

2.

ELEMENTE DE STATISTICĂ DESCRIPTIVĂ

Admitem că discuţia se referă la o colecţie de date brute,


(înregistrate asupra parametrului de interes a unui proces oarecare)
formând un eşantion din populaţia tuturor observaţiilor posibile.

Prin simpla inspecţie a lor este imposibil să se detecteze


caracteristici importante şi / sau tendinţe pe care le implică datele
respective.

De aceea este indicat ca setul de date să fie supus unor


operaţiuni preliminare care să uşureze analiza lor şi formarea
unei viziuni sintetice de natură statistică.

Operaţiunile menţionate sunt:


ordonarea,
clasarea şi
reprezentarea grafică a rezultatelor.

Reprezentările grafice ajută să se înţeleagă mai uşor semnificaţia


caracteristicilor descriptive (de poziţie, de dispersie şi de formă) ale
seriei de date şi permit diverse estimări ulterioare.

2.1. Ordonarea datelor de eşantion

Operaţiunea de ordonare a datelor de eşantion se poate face


- în ordinea crescătoare sau
- descrescătoare
a valorilor lor numerice, funcţie de scopul urmărit în analiză.

Dacă se doreşte obţinerea unei distribuţii de frecvenţă, este


avantajoasă ordonarea crescătoare a datelor,
Pentru calculul asigurării empirice este necesară ordonarea lor
descrescătoare.

9
Se numeşte rang - numărul de ordine al unei date
oarecare din şirul ordonat.

Fie talia eşantionului N şi setul iniţial de date din


şir. Valoarea de rang r din şirul ordonat se va nota .

Pentru un şir ordonat crescător


= şi = (2.1)
iar dacă ordonarea se face descrescător, atunci
= şi = (2.2)

Cînd două observaţii au valori identice, rangurile lor se


precizează arbitrar fie la rangul mediu (identic pentru ambele), fie la
rangul corespunzător ordinii iniţiale din seria originală.

Prin ordonare apare una dintre caracteristicile descriptive ale


seriei de date şi anume plaja (sau domeniul) în care se plasează
valorile ei.
La ordonare crescătoare, aceasta rezultă cu , iar pentru
cazul invers cu .

Există diverşi algoritmi de ordonare (sau sortare) având calităţi


distincte.
Unii se remarcă prin simplitatea de programare, dar implică
multe operaţii dacă N este mare (mai mare decât 200, de exemplu), în
timp ce alţii presupun instrucţiuni mai complexe, dar reduc simţitor
numărul de operaţii (a se vedea Quicksort, Heapsort ş a)

În continuare se indică o procedură Pascal pentru un algoritm de


ordonare simplu şi eficient (dacă talia şirului este de ordinul a N =
200 date) numit algoritm de sortare prin inserţie.

10
Procedure Sortare(n:integer; var x:vect);
{ Procedura de ordonare crecatoare/descrescatoare a datelor}
label 1,2,3,4;
var i,j:integer; xx:real; opt:char;
begin
kaz:=0; {implicit: ordonare crescatoare}
writeln('Implicit - ordoneaza crescator setul de date !');
write('Doresti ordonare descrescatoare (Y/N) ? '); readln(opt);
opt:=Upcase(opt); if opt='Y' then kaz:=1;
i:=2;
1: if i > n then goto 4
else
begin
xx:=x[i]; j:=i-1;
2: if j <= 0 then goto 3;
if kaz = 0 then
begin { ordonare crescatoare }
if x[j] <= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
if kaz = 1 then
begin { ordonare descrescatoare }
if x[j] >= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
3: x[j+1]:=xx; i:=i+1; goto 1;
end;
4: end;

Parametrii de intrare în procedură sunt n = numărul de date în


şir şi respectiv x = vectorul conţinând datele din şirul originar.
La ieşirea din procedură, vectorul x va conţine şirul ordonat
crescător (varianta implicită) sau descrescător (dacă la rulare se
specifică această opţiune).

11
Ştiind că debitele maxime anuale înregistrate pe
Exemplul 2.1.1

Dunăre la postul hidrometric Olteniţa în perioada 1921 – 1962 au avut


valorile din tabelul 2.1.1.a, să se ordoneze crescător şirul de date,
folosind un program de calcul care include o procedură de sortare.
Tabel 2.1.1.a
Debite maxime anuale (mc/s) la Oltenita,pe Dunare,intre 1921 si 1962
7750 11500 11900 13800 8480 13700 8780 9380 9680 8140
10700 14400 9870 8090 10100 9100 14000 9620 9560 15600
14300 15900 7610 14200 11100 7990 11900 10100 7050 8510
10200 10000 12200 10800 13300 13000 10100 12200 8230 9370
9720 13800

Soluţie
S-a utilizat programul Setdate care a generat fişierul de rezultate
având conţinutul din tabelul 2.1.1.b.
Tabel 2.1.1.b
Debite maxime anuale la Oltenita, pe Dunare, intre 1921 si 1962
Datele ordonate crescator:
7050.00 7610.00 7750.00 7990.00 8090.00
8140.00 8230.00 8480.00 8510.00 8780.00
9100.00 9370.00 9380.00 9560.00 9620.00
9680.00 9720.00 9870.00 10000.00 10100.00
10100.00 10100.00 10200.00 10700.00 10800.00
11100.00 11500.00 11900.00 11900.00 12200.00
12200.00 13000.00 13300.00 13700.00 13800.00
13800.00 14000.00 14200.00 14300.00 14400.00
15600.00 15900.00

Să se ordoneze descrescător şirul de debite medii


Exemplul 2.1.2

anuale din tabelul 2.1.2.a, înregistrate la Olteniţa în intervalul 1921-


1962
Tabel 2.1.2.a
Debite medii anuale (mc/s) la Oltenita,pe Dunare, intre 1921 si 1962
4090 6650 6300 6950 5350 7960 5990 5220 5240 5400
6570 5900 5700 5100 5190 6150 8040 6100 5980 8600
8850 7000 4160 7280 5570 4460 4400 6120 4200 4300
5950 5550 5640 5520 7860 6730 5650 6080 5460 6480

12
5010 6280
Soluţie
Se utilizează acelaşi program, dar specificând opţiunea pentru
ordonare descrescătoare şi se obţin rezultatele din tabelul 2.1.2.b
Tabel 2.1.2.b
Debite medii anuale la Oltenita pe Dunare intre 1921 si 1962
Datele ordonate descrescator:
8850.00 8600.00 8040.00 7960.00 7860.00
7280.00 7000.00 6950.00 6730.00 6650.00
6570.00 6480.00 6300.00 6280.00 6150.00
6120.00 6100.00 6080.00 5990.00 5980.00
5950.00 5900.00 5700.00 5650.00 5640.00
5570.00 5550.00 5520.00 5460.00 5400.00
5350.00 5240.00 5220.00 5190.00 5100.00
5010.00 4460.00 4400.00 4300.00 4200.00
4160.00 4090.00

Problema 2 1 1
?
Un eşantion stocastic de 50 de clienţi admis reprezentativ pentru
o anumită bancă, a obţinut dobânzile anuale la conturile lor curente în
valută (USD) ca în tabelul 2 1 3. Să se ordoneze crescător şirul de
valori din acest tabel.
Tabel 2.1.3
Dobanzi anuale la conturi curente (in $),
pentru un esantion de 50 clienti
28.43 35.22 36.92 96.44 65.99 55.87 52.77 42.87 39.44 80.01
87.63 21.32 24.92 57.91 61.25 27.83 32.93 64.88 40.96 50.01
38.55 69.47 31.62 59.91 25.14 36.10 63.54 27.92 28.21 45.66
49.23 43.16 87.98 73.97 29.03 38.31 51.17 68.23 52.92 70.18
72.05 58.22 44.15 47.85 33.64 32.95 26.29 30.14 22.81 23.64

13
2.2. Gruparea datelor de eşantion

Operaţiunea vizează gruparea datelor într-un număr de clase


(intervale) distincte, pentru a concentra informaţia brută pe care o
oferă şirul original.
Tabloul conţinând numărul de apariţii a datelor din fiecare clasă
se numeşte distribuţie de frecvenţă,
iar reprezentarea acesteia sub formă grafică se numeşte
histogramă.
2.2.1. Clasarea datelor

La alegerea numărului de clase, K, trebuie ca


- acesta să nu fie prea mic (pierzând astfel multe informaţii
asupra formei distribuţiei),
- dar totuşi suficient de mic pentru a permite o viziune sintetică
asupra datelor analizate.

În funcţie de talia eşantionului, se aleg între 5 şi 15 clase, după


una din relaţiile:
(2.3)
sau (2.4)

Notând prin k indicele de clasă (k = l, 2,...,K), apar următoarele


definiţii şi relaţii:

– ecartul (sau amplitudinea) clasei ;


– limita inferioară ;
– limita superioară şi ; (2.5)
– valoarea centrală şi (2.6)
– frecvenţa absolută (numărul de apariţii) a clasei şi
evident

14
(2.7)

– frecvenţa relativă a clasei şi (2.8)


– frecvenţa cumulată până la clasa k inclusiv şi
(2.9)

iar (2.10)

Frecvenţele se exprimă uneori în procente

De regulă se preferă
- gruparea în clase de ecart constant şi
- având limitele de clasă alese cu valori convenabile (multiplii
de 2, 5, 10, 100 etc.).

Limita inferioară şi respectiv superioară (pentru clasele


extreme) se fixează ţinând seama
- de valorile extreme din şirul ordonat crescător,
- de numărul de clase K şi
- de ecartul rezultat.

Pentru datele problemei din Exemplul 2.1.2 (şirul de


Exemplul 2.2.1

debite medii anuale înregistrate la postul hidrometric Olteniţa între


1921-1962 ) să se întocmească tabloul distribuţiei de frecvenţă.

Soluţie

15
Având în vedere (2.3) şi (2.4), deoarece talia acestui şir este N =
42, rezultă numărul recomandat de clase

sau

Din datele ordonate în tabelul 2.1.2.b se constată plaja pe care se


plasează datele (între 4090 şi 8850 m3 s-1), adică pe o diferenţă de
4760 m3 s-1.
Rotunjind această diferenţă la 4800 m3 s-1, se obţine o valoare
care
- pentru K = 8 (prima recomandare K > 6,405) dă un ecart de
clasare =4800/8 = 600 m3 s-1,
- iar pentru K = 6 (între cele două recomandări de mai sus) dă
un ecart =4800/6 = 800 m3 s-1

Se alege ca limită inferioară a primei clase = 4050 m3 s-1, şi


astfel rezultă = 8850 m3 s-1 (valoarea cea mai mare din şir),
indiferent dacă se ia K = 6 sau K = 8.

Tabelul 2.2.1.a conţine tabloul distribuţiei de frecvenţă efectuat


cu K = 8 clase pe domeniu ,
iar tabelul 2.2.1.b tabloul distribuţiei de frecvenţă pentru K = 6.

Tabel 2.2.1.a
Clasare în K = 8 clase de ecart h = 600 m s
3 -1

k ak bk ck nk fk Fk
1 4050 4650 4350 6 0,143 0,143
2 4650 5250 4950 5 0,119 0,262
3 5250 5850 5550 9 0,214 0,476
4 5850 6450 6150 10 0,238 0,714
5 6450 7050 6750 6 0,143 0,857
6 7050 7650 7350 1 0,024 0,881
7 7650 8250 7950 3 0,071 0,952

16
8 8250 8850 8550 2 0,048 1,000

Tabel 2.2.1.b
Clasare în K = 6 clase de ecart h = 800 m s
3 -1

k ak bk ck nk fk Fk
1 4050 4850 4450 6 0,143 0,143
2 4850 5650 5250 13 0,309 0,452
3 5650 6450 6050 11 0,262 0,714
4 6450 7250 6850 6 0,143 0,857
5 7250 8050 7650 4 0,095 0,952
6 8050 8850 8450 2 0,048 1,000

Ultimele trei coloane din aceste tabele conţin frecvenţele absolute


(numărul de apariţii), frecvenţele relative şi respectiv frecvenţele
cumulate , pentru fiecare clasă.

În primul tabel se constată că dacă ecartul de clasare este mai


redus (K mai mare ), pot să apară clase cu număr mic de date în
zona mijlocie a plajei de valori (aici !).
Din acest punct de vedere, distribuţia de frecvenţă obţinută cu
doar K = 6 clase oferă o viziune mai concludentă asupra datelor.

Totuşi, există situaţii în care se doreşte ( sau este necesară) o


analiză de frecvenţă mai rafinată, cu elementele stabilite mult mai
riguros.
În Exemplul 2.2.2 se descriu paşii unei astfel de proceduri.

Să se claseze în 10 clase de ecart egal, cele 50 de


Exemplul 2.2.2

valori ale dobânzilor anuale din în tabelul 2.1.3 , problema 2.1.1.

Soluţie
Valorile extreme din şirul de date sunt 96,44 şi respectiv 21,32,
adică o plajă de 75,12 $.
Pentru clasarea în 10 clase, rezultă un ecart pe clasă de
75,12 / 10 = 7,512.

17
Ecartul folosit nu poate fi mai mic decât această valoare şi
trebuie să aibă acelaşi număr de cifre zecimale ca datele din şir.
Rezultă că ecartul h = 7,52 $ îndeplineşte condiţiile respective.
Limita inferioară a primei clase va fi admisă mai mică decât
valoarea minimă din şir şi având o cifră zecimală semnificativă în
plus faţă de aceasta. În consecinţă = 21,315 $.
Limitele intervalelor de clasare se determină apoi adăugând
ecartul h la pentru a obţine succesiv
; ;.............
Valorile centrale ck se calculează cu relaţia (2.6).

Prin această schemă de clasare se evită situaţia ca vreo dată


oarecare din şir să aibă valoarea egală cu limita dintre două clase şi
să fie necesară o decizie arbitrară pentru alocarea ei la una dintre
clasele respective.
Cu procedeul de mai sus se obţine tabloul distribuţiei de
frecvenţă din tabelul 2.2.2.
Tabel 2.2.2
Analiza de frecvenţă pentru Problema 2.1.1
k ak bk ck nk fk Fk
1 21,315 28,835 25,08 10 0,200 0,200
2 28,835 36,355 32,60 8 0,160 0,360
3 36,355 43,875 40,12 7 0,140 0,500
4 43,875 51,395 47,64 6 0,120 0,620
5 51,395 58,915 55,16 5 0,100 0,720
6 58,915 66,435 62,68 5 0,100 0,820
7 66,435 73,955 70,20 4 0,080 0,900
8 73,955 81,475 77,72 2 0,040 0,940
9 81,475 88,995 85,24 2 0,040 0,980
10 88,995 96,515 92,76 1 0,020 1,000

Desigur că este posibil ca operaţiunea de clasare să se realizeze


şi folosind clase de ecart h variabil.
Spre această opţiune poate conduce reprezentarea grafică
(histograma) a distribuţiei de frecvenţă, dacă alura ei pare neregulată,
cu oscilaţii ale frecvenţelor între clase succesive.
Ilustrarea modului de abordare în acest caz apare în Exemplul
2.2.3.

18
Procedura Pascal următoare realizează clasarea a n date din
setul de valori incluse în vectorul x (care poate fi şirul iniţial sau şirul
ordonat).
Alţi parametri de intrare în procedură sunt:
- numărul de clase k, de ecart egal h şi respectiv
- limita inferioară a primei clase .
Alegerea valorilor lor se face în programul Setdate, pe parcursul
rulării şi înainte de apelarea procedurii de clasare.
Procedure Clasare(n,k:integer; xmn,h:real; x:v1);
{ Procedura de clasare a N date din vectorul X in K clase,
incepand de la Xmn, cu pasul H
Cazul general, cu datele din X in ordinea initiala }
var j,i:integer;
begin
{ Limitele de clase si initializare numar aparitii: }
for j:=1 to k do
begin
a[j]:=xmn+(j-1)*h; b[j]:=a[j]+h; nj[j]:=0;
end;
{ Determina numarul de aparitii pe clase: }
for j:=1 to k do
for i:=1 to n do
if (x[i] > a[j]) and (x[i] <= b[j]) then nj[j]:=nj[j]+1;
{ Calculeaza frecventele relative si frecventele cumulate pe clase: }
for j:=1 to k do
begin
fr[j]:=nj[j]/n;
if j=1 then fc[j]:=fr[j]
else fc[j]:=fc[j-1]+fr[j];
end;
end;

În interiorul procedurii sunt calculate şi transmise programului


principal (ca variabile globale): limitele inferioară şi superioară pe
clase, numărul de apariţii (sau frecvenţa absolută) şi frecvenţa
relativă pe clase, precum şi frecvenţa cumulată până la clasa
curentă inclusiv.

2.2.2. Reprezentări grafice

Reprezentarea tabelară a distribuţiei de frecvenţă este utilă


pentru identificarea caracteristicilor unei colecţii mari de date dar,
adesea se preferă evidenţierea acestor caracteristici prin
reprezentări grafice.

19
Există două categorii importante de grafice şi anume:
- histogramele – realizate prin construirea unor dreptunghiuri
succesive şi
- poligoanele – care se obţin unind puncte succesive prin
segmente de linii drepte.

În cazul histogramelor, pe abcisă se reprezintă plaja de valori


în care se încadrează datele din şir, iar pe ordonată apare fie
frecvenţa absolută (numărul de apariţii) din fiecare clasă, fie
frecvenţa relativă (normalizată sau exprimată în procente).
Ca regulă, suprafaţa dreptunghiului corespunzător fiecărei
clase trebuie să fie proporţională cu efectivul (sau frecvenţa) ei şi
atunci
la clasarea cu h constant, înălţimile dreptunghiurilor din
histogramă vor fi proporţionale cu frecvenţele claselor.

În Fig.2.1 sunt histogramele corespunzătoare datelor din tabelele


2.2.1.a şi 2.2.1.b. Acestea grupează în 8 şi respectiv 6 clase de ecart
constant, valorile debitelor medii anuale înregistrate pe Dunăre, la
Olteniţa între 1921 - 1962.
Fig.2.2 redă histograma dateleor din tabelul 2.2.2 privind
distribuţia de frecvenţă a dobânzilor anuale la conturile în USD ,
pentru eşantionul de 50 clienţi ai unei bănci. Frecvenţa relativă s-a
exprimat în %.
Comparând histogramele din Fig. 2.1 şi respectiv 2.2, este
evident că cele două seturi de date au caracteristici diferite. La primul
set apar mai frecvent valori din zona mediană a domeniului, în timp ce
la al doilea set predomină valorile din zona inferioară a plajei de date.

20
12 Număr apariţii Frecvenţă relativă

10 0,25

6
0,125

0
4050 4650 5250 5850 6450 7050 7650 8250 8850

Debit mediu anual

14 Număr apariţii Frecvenţă relativă

12

10 0,25

6
0,125

0
4050 4850 5650 6450 7250 8050 8850

Debit mediu anual

Fig.2.1. Histograma debitelor medii anuale pe Dunăre la Olteniţa (1921 – 1962),


cu 8 şi respective 6 clase pe domeniu

21
Număr apariţii Frecvenţă relativă
12

10 20

6
10
4

0
21,315 96,515
Dobândă anuală (USD)

Fig. 2.2 – Histograma datelor din tabelul 2.2.2

În exemplul următor se ilustrează o manieră de construire a


histogramei cu intervale de ecart variabil.

La postul de urmărire a calităţii apelor evacuate în


Exemplul 2.2.3

emisar de o staţie de tratare s-au prelevat zilnic probe pe parcursul


unei luni şi s-au găsit încărcările de CBO5 ( în mg l-1) ca în tabelul
2.2.3.a. Să se analizeze distribuţia de frecvenţă şi să se traseze
histograma datelor măsurate.
Tabel 2.2.3.a
Încărcare CBO5 (mg.l-1) la 30 probe zilnice
Proba nr. CBO5 Proba nr. CBO5 Proba nr. CBO5
1 27,24 11 17,91 21 53,06
2 58,20 12 38,53 22 19,48
3 35,38 13 27,31 23 17,86
4 21,08 14 17,14 24 41,34
5 24,17 15 20,69 25 37,54
6 13,33 16 28,41 26 26,20
7 20,68 17 16,76 27 14,42
8 21,23 18 98,93 28 21,39
9 30,76 19 77,34 29 34,19
10 22,71 20 30,94 30 55,09

22
Soluţie
Din inspecţia datelor se constată că iau valori din domeniul
13,33 – 98,93 mg l-1.
Alegând, de exemplu, k = 7 clase de ecart egal şi extinzând
plaja între 10 şi 101 mg l-1, ar rezulta
- ecarturi egale de câte 13 mg l-1,
- cu efectivele de 13, 9, 3, 3, 0, 1 şi respectiv 1 apariţii,
deci cu majoritatea datelor plasate între 10 şi 36 mg l-1.

O descriere statistică mai sugestivă rezultă folosind clase de


ecart variabil, redus în zona valorilor mici şi mai extins în zona
valorilor mari.

La construirea histogramei, pentru a realiza proporţionalitatea


suprafeţei dreptunghiului cu frecvenţa clasei, pe ordonată se va
reprezenta densitatea de frecvenţă (sau densitatea de efectiv )
calculată cu relaţia:
(sau ) (2.11)

În tabelul 2.2.3.b s-a inclus distribuţia de frecvenţă realizată cu


7 clase de ecart variabil, iar în figura 2.3 s-a reprezentat histograma
corespunzătoare, cu densitatea de efectiv (apariţii) pe ordonată.

Tabel 2.2.3.b
Analiza de frecvenţă cu clase de ecart inegal
k ak bk hk nk n’k fk f’k
1 10 15 5 2 0,40 0,067 0,0134
2 15 20 5 5 1,00 0,167 0,0334
3 20 25 5 7 1,40 0,233 0,0466
4 25 30 5 4 0,80 0,133 0,0266
5 30 40 10 6 0,60 0,200 0,0200
6 40 60 20 4 0,20 0,133 0,0067
7 60 100 40 2 0,05 0,067 0,0017

23
Densitate de
1,5 apariţie

0,5

0
10 20 30 40 50 60 70 80 90 100
Concentraţie CBO5 (mg l )
. -1

Fig.2.3. Histograma cu clase de ecart inegal pentru concentraţia CBO5 din probe

Alura histogramei reflectă unele caracteristici ale


distribuţiei de frecvenţă.

Se spune că distribuţia este simetrică dacă cele două jumătăţi


ale ei se suprapun la împăturirea în jurul unei axe verticale care
trece prin mijlocul plajei (domeniului) de valori utilizat la clasare.

În caz contrar, distribuţia va fi asimetrică şi anume:


- cu asimetrie pozitivă dacă porţiunea plasată la dreapta clasei
de frecvenţă maximă este substanţial mai extinsă decât cea din
zona valorilor mici şi respectiv
- cu asimetrie negativă dacă histograma are un aspect invers.

Distribuţiile de frecvenţă din Fig.2.2 şi 2.3 par să fie distribuţii


cu asimetrie pozitivă.

Măsuri (parametrii) ale acestei caracteristici de (a)simetrie vor


fi precizate ulterior.

24
Adesea, în practică se constată un tip special de distribuţii
simetrice, numite în formă de clopot.
Când se clasează cu ecart constant, la acest tip se observă că
- înălţimile dreptunghiurilor histogramei se reduc aproximativ
în acelaşi raport, începând de la clasa de frecvenţă maximă,
spre cele două extremităţi ale axei absciselor iar
- variabilitatea datelor este bine reflectată de o regulă empirică,
după care
- circa 68% dintre datele şirului se plasează într-un interval
având lăţimea egală cu dublul abaterii standard în jurul mediei;
- circa 95% din observaţii – într-un interval cu lăţimea de
patru ori abaterea standard şi respectiv
- circa 99,7% din observaţii - într-un interval cu lăţimea de
şase ori abaterea standard în jurul mediei.
Semnificaţia parametrilor menţionaţi (medie, abatere standard)
va fi precizată ulterior.

Cu datele tabelate la analiza de frecvenţă se poate construi şi un


grafic numit poligonul frecvenţelor.

La acesta, pe abscisă se figurează valorile centrale pe clase şi


lor li se asociază frecvenţa absolută (numărul de apariţii) sau
frecvenţa relativă (eventual în %) a claselor respective.

Pentru a obţine un contur închis, la cele două extremităţi ale


abscisei se mai admite câte un punct (plasate la şi respectiv
), cărora li se asociază frecvenţe nule.

25
40 Frecvenţă
relativă (%)
35

30

25

20

15

10

0
2850 3650 4450 5250 6050 6850 7650 8450 9250 10050

Debit mediu anual

Fig.2.4. Poligonul frecvenţei procentuale pentru datele de debite medii anuale


din tabelul 2.2.1.b

În Fig.2.4 s-a reprezentat poligonul frecvenţelor procentuale


pentru datele de debite medii anuale pe Dunăre, la Olteniţa, între anii
1921-1962, clasate - conform tabelului 2.2.1.b – în 6 clase de ecart h =
800 m3 s-1.
Pe axa orizontală mai apar punctele = 4450–800 = 3650
m s şi respectiv
3 -1
= 8450 +800 =9250 m3 s-1, ambele având
frecvenţa asociată zero.

26
25 Frecvenţă
relativă (%)

20

15

10

0
0 20 40 60 80 100 120
Dobânda anuală (USD)

Fig.2.5. Poligonul frecvenţei procentuale pentru datele de dobânzi anuale


din tabelul 2.2.2

Fig.2.5 conţine poligonul frecvenţelor pentru datele din tabelul


2.2.2 referitoare la dobânzile anuale încasate de eşantionul de clienţi
pentru conturile curente în valută.
Este uşor de constatat că aici pasul de clasare este $,
astfel încât punctele extreme pe axa absciselor rezultă la 17,56 şi
respectiv 100,28 $.

O altă reprezentare de tip poligonal este poligonul (sau


ogiva) frecvenţelor cumulate, numit uneori şi grafic de
repartiţie.

Se construieşte figurând punctele de coordonate ,


k = 1,2, ..., K din tabloul distribuţiei de frecvenţă, începând cu punctul
şi trasând segmente de dreaptă între punctele respective.
Se utilizează pentru a determina numărul (sau proporţia)
observaţiilor care se plasează sub (sau peste) o valoare specificată.

27
Frecvenţă
100 cumulată (%)

75

50

25

0
4050 4850 5650 6450 7250 8050 8850

Debit mediu anual

Fig. 2.6 Graficul frecvenţelor cumulate pentru datele clasate în tabelul 2.2.1.b

Ca exempu, în Fig. 2.6 este redat graficul frecvenţelor cumulate


(în %) corespunzător poligonului frecvenţelor din Fig.2.4 şi datelor
de debite medii anuale pe Dunăre clasate în tabelul 2.2.1.b.

Valoarea medie a intervalului de clasare este 6450 m3.s-1 şi –


conform graficului din figură – se poate afirma că în circa 72% dintre
anii de observaţii debitul mediu anual nu va depăşi 6450 m3.s-1, iar în
circa 28% dintre ani va fi mai mare decât valoarea respectivă.

Pe de altă parte, la frecvenţa cumulată de 50% corespunde un


debit mediu anual de circa 5785 m3.s-1, aceasta fiind valoarea sub care
(sau peste care) se vor plasa jumătate din datele observate.

Valoarea variabilei corespunzătoare frecvenţei cumulate de 50%,


ca şi alte valori identificabile cu ajutorul acestui grafic, reprezintă
caracteristici descriptive ale setului de date şi vor fi menţionate în
viitor.

2.2.3. Distribuţii de frecvenţă empirice

28
Când
- datele înregistrate asupra unei mărimi de interes sunt în număr
redus,
- iar analiza anterioară nu poate conduce la concluzii
convingătoare,
se preferă utilizarea unei maniere empirice de analiză statistică.

În varianta empirică, se acceptă că fiecare dată din şirul


ordonat crescător (sau descrescător) corespunde câte unei clase de
valori.
Aceste clase sunt, în general, de amplitudine variabilă, dar
admise cu acelaşi efectiv sau echiprobabile.

Cu şirul de date ordonat crescător şi valoarea variabilei de


rang r în şirul respectiv,
există diverse formule propuse pentru a evalua ceea ce se
numeşte frecvenţa empirică (în fapt frecvenţa cumulată)
corespunzătoare valorii , care se pot exprima prin relaţia generală:

(2.12)

unde N este talia şirului, iar - un coeficient cu valori între 0 şi 0,5.

În tabelul următor sunt sintetizate câteva dintre particularizările


relaţiei (2.12) folosite frecvent pentru calculul frecvenţei empirice.

Formule de calcul a frecvenţei empirice

Denumire Weibull Hazen Gringorten Blom Cunnane Mediană


Coeficient 0 0,5 0,44 0,375 0,40 0,3175

Formulă pentru

- Pentru o populaţie originară perfect cunoscută, se recomandă


şi respectiv dacă parametrii acesteia nu sunt cunoscuţi.

29
- Pentru o lege de probabilitate normală a populaţiei originare se
recomandă ; sau dacă legea este de tip exponenţial;
sau pentru o lege uniformă; sau, în sfârşit, ca cel mai bun
compromis pentru o formulă neparametrică.
- În şcoala franceză se preferă ; iar în practica din SUA,

Spre exemplu, utilizând formula Hazen în cazul datelor de


debite medii anuale pe Dunăre, la Olteniţa, din tabelul 2.1.2.a şi
observând în ordine inversă valorile clasate descrescător din tabelul
2.1.2.b, se obţin frecvenţele empirice din tabelul următor.

Frecvenţe empirice după Hazen, pentru debitele medii anuale pe Dunăre,


la Olteniţa, între 1921 – 1962
Rang Rang
r r
1 4090 1,17 22 5950 51,19
2 4160 3,57 23 5980 53,57
3 4200 5,95 24 5990 55,95
4 4300 8,33 25 6080 58,33
5 4400 10,71 26 6100 60,71
6 4460 13,10 27 6120 63,10
7 5010 15,48 28 6150 65,48
8 5100 17,86 29 6280 67,86
9 5190 20,24 30 6300 70,24
10 5220 22,62 31 6480 72,62
11 5240 25,00 32 6570 75,00
12 5350 27,38 33 6650 77,38
13 5400 29,76 34 6730 79,76
14 5460 32,14 35 6950 82,14
15 5520 34,52 36 7000 84,52
16 5550 36,90 37 7280 86,90
17 5570 39,29 38 7860 89,28
18 5640 41,67 39 7960 91,66
19 5650 44,05 40 8040 94,05
20 5700 46,43 41 8600 96,43
21 5900 48,81 42 8850 98,81
Este de aşteptat ca graficul construit cu datele din acest
tabel, să oscileze în jurul poligonului frecvenţelor cumulate realizat
pe clase de debite şi reprezentat în Fig. 2.6, pentru acelaşi set de
valori.

30
Distribuţiile empirice de frecvenţă se vor utiliza în capitolele
următoare în cadrul unor metode de estimare a parametrilor
distribuţiilor teoretice de probabilitate care să reflecte setul de
date observate, precum şi la verificarea ipotezelor statistice
referitoare la aceste distribuţii.

Problema 2 2 1
?
40 de rugbişti aleşi aleatoriu din echipele de primă divizie au
greutăţile corporale (în kg) din tabelul 2.2.4
Tabel 2.2.4
Greutăţile (în kg) unui lot de 40 rugbişti (R – număr sportiv în lot; G – greutate)
R G R G R G R G
1 97,2 11 102,3 21 85,2 31 100,3
2 103,1 12 97,5 22 93,3 32 98,3
3 86,5 13 110,0 23 106,3 33 102,8
4 91,3 14 88,2 24 102,8 34 102,5
5 101,1 15 92,5 25 96,8 35 92,9
6 109,5 16 96,2 26 95,2 36 107,0
7 111,2 17 107,5 27 114,7 37 101,7
8 90,8 18 104,8 28 97,6 38 104,2
9 98,3 19 98,9 29 98,0 39 100,9
10 99,1 20 95,0 30 108,5 40 105,2
a) Să se ordoneze crescător datele de greutate din tabel;
b) Rotunjind valoarea minimă la primul întreg inferior şi pe cea
maximă la primul întreg superior, să se claseze datele de pe această
plajă în 5 clase de ecart egal;
c) Să se reprezinte histograma şi poligonul frecvenţelor relative
pentru această distribuţie de frecvenţă;
d) Prezintă histograma vreo caracteristică evidentă ?
e) Trasaţi ogiva frecvenţelor cumulate şi estimaţi procentul
sportivilor cu greutatea de cel puţin 100 kg.

Problema 2.2.2
?
Un lot de 30 studenţi ajunşi la o universitate din Braşov venind
din restul ţării, sunt chestionaţi în legătură cu poziţia geografică a
localităţii de origine faţă de Braşov, după categoriile: NE (nord – est),
SE (sud – est), V (vest), SV (sud – vest) şi respectiv NV (nord – vest).

31
Răspunsurile au fost următoarele: NV, V, V, NE, NV, SV, SV,
SV, SE, NV, SV, SE, SE, V, SV, NE, N, V, NE, NV, NV, SV, V, SE,
SV, SV, NV, V, SV şi NV.
Construiţi o distribuţie de frecvenţă pentru aceste date
categoriale.

Problema 2.2.3
?
Ştiind că 40 de muncitori pe un şantier de construcţii au prestat
în luna anterioară un număr de ore suplimentare plătite - ca în tabelul
2.2.5 Tabel 2.2.5
Număr de ore suplimentare plătite pentru luna
anterioară, la un lot de 40 muncitori
22 12 17 2 4 14 25 19 26 17
6 10 7 7 13 16 17 13 24 22
24 23 19 8 5 9 15 20 18 20
25 18 8 26 24 24 22 21 12 15

a) Să se utilizeze procedura din Exemplul 2.2.2 pentru a construi


o distribuţie de frecvenţă cu 5 clase de ecart egal;
b) Reprezentaţi histograma şi clasificaţi distribuţia din punctul
de vedere al caracteristicii de simetrie;
c) Determinaţi procentul de muncitori care au prestat cel puţin
10 ore suplimentare retribuite.

2.3.Caracteristici descriptive ale seturilor de date

32
Pe lângă descrierea tabelară / grafică prezentată, colecţiile de date
sunt caracterizate şi printr-o serie de valori numerice numite
măsuri statistice (sau caracteristici descriptive).

Dacă o astfel de măsură se referă la o populaţie, ea se numeşte


parametru,
iar dacă se referă la un anumit eşantion (ales aleatoriu dintr-un
număr mare de eşantioane posibile pentru populaţia respectivă) ea se
numeşte statistică (sau estimaţie sau caracteristică
experimentală).

O parte majoră a statisticii deductive este dedicată metodelor


folosite pentru evaluarea valorilor necunoscute ale parametrilor
unei populaţii, pe baza unor statistici de eşantion adecvate.

În continuare se clasifică şi prezintă relaţiile de calcul pentru


măsuri statistice (estimatori) ale unor eşantioane de date observate.

Aceste statistici vor fi notate cu litere latine, în timp ce pentru


parametri caracteristici ai unei populaţii se vor folosi litere greceşti.

2.3.1. Tipuri de caracteristici descriptive

Principalele tipuri de caracteristici descriptive (măsuri statistice)


sunt următoarele:
- Caracteristici de poziţie, acestea fiind măsuri (valori numerice)
în jurul cărora se grupează datele observate. Cele mai semnificative
sunt: media aritmetică, mediana şi moda, dar alături de acestea se
pot defini şi – de exemplu - media ponderată, media armonică,
media pătratică, media geometrică etc.

- Caracteristici de dispersie - care sunt măsuri ale gradului de


împrăştiere a datelor observate, în raport cu valoarea centrală.
Printre cele frecvent folosite se numără: plaja (sau domeniul)
observaţiilor, abaterea medie absolută, varianţa şi abaterea
standard, coeficientul de variaţie, intervalele intercuartile ş.a.

33
- Caracteristici de formă – aflate în legătură cu alura
distribuţiilor de frecvenţă, având măsurile specifice reprezentate de
coeficienţii de asimetrie şi coeficienţii de aplatisare.

2.3.2. Măsuri ale tendinţei (poziţiei) centrale

Media aritmetică (numită prescurtat media) unui set de date


se notează cu şi este dată de
(2.13)

Pentru a actualiza valoarea mediei unei serii la care se adaugă o


nouă dată , se poate folosi relaţia
(2.14)
în care prin s-a notat media setului de N date şi este
media şirului actualizat.

La fel, media şirului din care se elimină ultima valoare ,


rezultă cu
(2.15)

Media este utilizată cel mai frecvent ca măsură a poziţiei


centrale.

La translatarea originii datelor din şirul iniţial cu valoarea


constantă c, noul şir , i = 1,2,..., N va avea media ,
iar la scalarea datelor sub forma , i = 1,2,..., N, va rezulta
.

În mod evident, suma abaterilor valorilor din şir în raport cu


media este nulă, adică
(2.16)

34
Mediana – notată – este definită ca valoarea faţă de care
jumătate dintre observaţiile seriei de date sunt mai mari şi respectiv
cealaltă jumătate sunt mai mici.
Se mai numeşte şi valoare echiprobabilă sau cuartilă de ordin 2.

Pentru un şir de date ordonate,


- dacă talia şirului N este număr impar, atunci mediana va fi
egală cu data de rang , adică
(2.17.a)
- iar dacă N este număr par, mediana se admite egală cu media
datelor de ranguri N/2şi respectiv N/2+1, adică
(2.17.b)

Dacă s-a reprezentat graficul frecvenţei cumulate pentru setul de


observaţii considerat, atunci mediana corespunde valorii de pe axa
absciselor pentru care frecvenţa cumulată este 0,5 (sau 50%). Din
această cauză se mai foloseşte şi notaţia .

Din poligonul frecvenţei cumulate în Fig.2.6 pentru debitele medii


anuale pe Dunăre, la Olteniţa, între anii 1921 – 1962, clasate în 6 clase
de ecart egal, se constată că mediana (valoarea corespunzătoare la F =
50%) este = 5785 m3.s-1.
Pe de altă parte, observând datele ordonate din tabelul 2.1.2.b
pentru acelaşi set de observaţii, se constată că valorile de rang N/2 =
42/2 =21 şi respectiv 22 sunt 5950 şi 5900 m 3.s-1, astfel încât cu relaţia
(2.17.b) ar rezulta =5925 m3.s-1 care diferă destul de mult (circa
2,4%) faţă de mediana obţinută pe baza ogivei frecvenţei cumulate.

Moda – notată – se defineşte ca fiind valoarea care apare cel


mai frecvent printre datele observate.
Se mai numeşte şi valoare dominantă, valoarea cea mai
probabilă sau valoare modală.

35
Moda poate să nu fie unică într-un set de date observate sau
chiar poate să nu existe.

Distribuţiile care au o singură valoare modală (cea mai


frecventă) se numesc unimodale.
Dacă însă două valori numerice diferite se regăsesc de acelaşi
număr de ori (cel mai mare) printre observaţiile din set, este vorba
despre o distribuţie bimodală ş.a.m.d.
Când toate datele observate sunt diferite între ele, în mod evident
moda nu poate fi definită.

Dacă setul de observaţii este grupat pe clase, atunci se vorbeşte


de una sau mai multe clase modale.

Pentru clasarea debitelor medii anuale din Exemplul 2.2.1. în 6


clase ca în tabelul 2.2.1.b,
- clasa modală apare în poziţia a doua,
- este unică şi
- se întinde între 4850 şi 5650 m3.s-1.
- valoarea centrală a acestei clase adică = 5250 m3.s-1 poate fi
acceptată ca modă şi
- ea apare în poligonul frecvenţei procentuale din Fig. 2.4. la
abscisa pentru care frecvenţa atinge valoarea maximă.

În cazul datelor clasate în tabelul 2.2.2, prima clasă este clasa


modală a distribuţiei dobânzilor anuale încasate de cei 50 de clienţi ai
băncii pentru conturile lor în USD.

Relaţia între medie, mediană şi modă

Presupunând că
- numărul de date din şir, N, este foarte mare şi că
- a fost posibilă o clasare cu ecart foarte mic (astfel încât
poligonul frecvenţelor poate fi aproximat printr-o curbă continuă şi
unimodală)
relaţia între , şi depinde de alura distribuţiei de frecvenţă.

36
Cele trei situaţii tipice sunt reprezentate în figura 2.7

~
X̂X
X

A1 A2
X

A1 A2
X

~
XXX̂

A1 A2
X

Fig.2.7. Schematizarea relaţiilor între medie, mediană şi modă

Pentru oricare dintre tipurile de distribuţie a), b) sau c) mediana


este plasată astfel încât verticala prin împarte suprafaţa de sub
graficul de frecvenţă în două părţi de suprafeţe egale (A1 = A2).

37
Moda corespunde abscisei pentru care frecvenţa relativă
înregistrează un maxim.
Cu aceste precizări
– pentru cazul a): < < şi se spune că distribuţia are asimetrie
pozitivă;
– pentru cazul b): = = şi se spune că distribuţia este simetrică;
– pentru cazul c): > > şi se spune că distribuţia are asimetrie
negativă.

2.3.3. Măsuri ale dispersiei (variabilităţii)

Plaja (sau domeniul, sau amplitudinea sau întinderea) se


obţine prin ordonarea datelor observate şi este egală cu diferenţa
dintre valorile extreme, adică
(2.18)
la ordonarea descrescătoare.

Din cauza fluctuaţiilor de eşantion, aceasta nu este o caracteristică


foarte reprezentativă.

Abaterea medie absolută – notată AMA – este definită ca


media diferenţelor absolute dintre fiecare dată a şirului şi media lui,
adică
(2.19)

Varianţa – notată – este definită ca media pătratelor


diferenţelor dintre fiecare dată a şirului şi media lui, adică
(2.20)

În cazul eşantioanelor de talie N redusă, posibil de extras dintr-o


populaţie densă,
- pentru a evita erorile inerente procedurii de selecţie şi

38
- pentru a obţine un estimator zis nedeplasat al acestui
parametru,
se foloseşte relaţia
(2.21)
(se va reveni în capitolele următoare)
.
Altă formulă de calcul pentru varianţa ar putea fi
(2.22)

Ca şi la actualizarea mediei prin adăugarea observaţiei ,


varianţa seriei extinse se obţine cu relaţia
(2.23)

iar la eliminarea valorii din şir, cu relaţia


(2.24)
unde prin şi s-au notat varianţa şi media şirului cu N date
observate.

La translatarea originii datelor din şirul iniţial cu valoarea


constantă c, noul şir va avea aceeaşi varianţă, adică
,
în schimb la scalarea lor sub forma varianţa noului şir
va fi – deci puternic modificată faţă de varianţa şirului
iniţial.

Abaterea standard (sau abaterea pătratică medie sau


abaterea tip) se notează cu s şi este egală cu rădăcina pătrată din
varianţă, adică
(2.25)
sau – pentru estimatorul nedeplasat:

39
(2.26)

Deoarece abaterea standard are aceeaşi dimensiune ca şi


variabila observată, ea este mult mai utilă în practică în raport cu
varianţa şi reprezintă caracteristica de dispersie cea mai sugestivă.

Cele două caracteristici fundamentale media (pentru tendinţa


centrală) şi abaterea standard (pentru dispersie) pot fi utilizate
împreună la analiza unui set de observaţii în baza teoremei (sau
inegalităţii) lui Cebâşev.
care ajută la determinarea fracţiei (sau procentajului) de
observaţii care se estimează că s-ar plasa într-un număr specificat
de abateri standard, de fiecare parte în raport cu media.

Sub formă analitică, inegalitatea Cebâşev se scrie


≤ ≥ , ω>0 (2.27)
şi se citeşte: probabilitatea ca diferenţa în modul între valoarea
variabilei observate şi media şirului să fie egală cu cel mult ω
abateri standard, este cel puţin egală cu , unde ω este un real
pozitiv.

De exemplu, pentru ω = 2, se poate afirma că probabilitatea ca


variabila observată să se plaseze într-un domeniu centrat pe media
şi de lungime 2 ω s = 4 s, este de cel puţin . Sau,
altfel spus: este de aşteptat ca cel puţin 75% dintre observaţiile
şirului să se plaseze în domeniul de valori ( ).

O altă variantă de utilizare conjugată a celor două caracteristici


fundamentale este cea prin intermediul z – scorului.

40
Fiecărei date din şir îi corespunde un z – scor care măsoară cu
câte abateri standard este plasată valoarea respectivă sub sau peste
media şirului.
Dacă , observaţia i are un z – scor pozitiv,
iar pentru , z – scorul respectiv va fi negativ.

Notând scorul valorii din şir, acesta se va calcula cu relaţia:


, (2.28)
iar rezultatul va fi un număr adimensional.

Această caracteristică permite ca z – scorul să fie folosit pentru


a compara sau ordona observaţii din populaţii diferite şi ale căror
date au unităţi de măsură diferite.

Coeficientul de variaţie – notat cu - este definit ca


raportul dintre abaterea standard şi media şirului, adică
(2.29)
Este o caracteristică adimensională şi poate fi utilizat la
comparaţii efectuate asupra unor serii diferite de date.

Intervalele intercuantile

Se numesc cuantile de ordin k – cele k–1 valori care împart


datele seriei în k clase de aceeaşi frecvenţă (clase echiprobabile).

- Cele 99 percentile împart seria în 100 clase de


efectiv N/100
- Cele 9 decile împart seria în 10 clase de efectiv N/10
- Cele 3 cuartile şi împart seria în 4 clase de efectiv
N/4

41
De regulă, cuantilelele se estimează pe baza ogivei frecvenţelor
cumulate (cum s-a explicat în legătură cu mediana - care este în fond
cuartila de ordinul doi)

Intervalul intercuartile se obţine ca diferenţa .


şi este o măsură a dispersiei mai puţin sensibilă la fluctuaţiile
de eşantion decât amplitudinea (sau plaja).

Semnificaţia percentilei – de exemplu – reprezintă valoarea


sub care se plasează 70% dintre datele observate.
Decila este valoarea sub care se plasează 40% dintre datele
şirului,
iar cuartila corespunde valorii sub care se regăsesc 25%
dintre date.
Desigur că

La examenul de Statistică Aplicată, un lot de studenţi


Exemplul 2.3.1

au obţinut punctajele (din 100 puncte) incluse în tabelul 2.3.1.a.


Tabel 2.3.1.a
56 42 60 64 85 76 81 40 70 68
66 58 65 46 44 72 70 74 80 80
49 51 55 60 63 58 94 67 73 69
75 70 79 90 42 77 77 50 91 45
62 59 72 87 98 73 54 49 53 70

a) Să se claseze datele în 7 clase de ecart egal;


b) Să se traseze poligonul frecvenţelor cumulate;
c) Ştiind că numărul minim de puncte necesar pentru promovare
este 50, să se estimeze pe baza ogivei procentajul de promovaţi şi
respectiv restanţieri;
d) Să se calculeze media, abaterea standard şi coeficientul de
variaţie a setului de date;

42
e) Să se estimeze mediana folosind şirul ordonat şi respectiv ogiva
frecvenţelor cumulate precum şi moda pe baza clasei modale;
f) Aflaţi procentul de studenţi cu z – scor pozitiv la acest examen;
g) Estimaţi intervalul intercuartile pe baza graficului frecvenţelor
cumulate.

Soluţie
În tabelul 2.3.1.b se găsesc datele problemei ordonate crescător.
Tabel 2.3.1.b
Punctaj obtinut de 50 studenti la examenul de Statistica
Datele ordonate crescator:
40.00 42.00 42.00 44.00 45.00
46.00 49.00 49.00 50.00 51.00
53.00 54.00 55.00 56.00 58.00
58.00 59.00 60.00 60.00 62.00
63.00 64.00 65.00 66.00 67.00
68.00 69.00 70.00 70.00 70.00
71.00 72.00 72.00 73.00 73.00
74.00 75.00 76.00 77.00 77.00
79.00 80.00 80.00 81.00 85.00
87.00 90.00 91.00 94.00 98.00
a) Clasarea punctajelor s-a făcut cu procedura din Exemplul
2.2.2 pentru a evita ambiguitatea atribuirii unei valori din şir egală
cu limita dintre două clase, la una dintre acestea. Se ajunge totuşi la
situaţia nerealistă că limita ultimei clasate devine 102,5 puncte,
punctajul maxim posibil fiind 100 puncte.
Dacă s-ar admite plaja cuprinsă între punctajul minim (aici 40) şi
cel maxim posibil (100 în cazul problemei), cu 7 clase pe domeniu ar
rezulta un ecart de 60/7 = 8,5714 puncte, dar care este ,,neprietenos’’
în aplicaţii practice.
Tabel 2.3.1.c
Punctaj obtinut de 50 studenti la examenul de Statistica
Rezultate clasare in 7 clase de ecart= 9.00:
k a(k) b(k) c(k) n(k) f(k) fc(k)
1 39.50 48.50 44.00 6 0.1200 0.1200
2 48.50 57.50 53.00 8 0.1600 0.2800
3 57.50 66.50 62.00 10 0.2000 0.4800
4 66.50 75.50 71.00 13 0.2600 0.7400
5 75.50 84.50 80.00 7 0.1400 0.8800
6 84.50 93.50 89.00 4 0.0800 0.9600
7 93.50 102.50 98.00 2 0.0400 1.0000

43
b) Cu rezultatele din tabelul anterior, în Fig.2.8 s-a trasat
poligonul frecvenţelor cumulate procentuale.

100
Frecvenţă
cumulată (%)
90

80

70

60

50

40 q3
30 ~
X
F*
20

10 q1
0
35 45 55 65 75 85 95 105
Puncte la examen
Fig.2.8. Poligonul frecvenţelor cumulate pentru rezultatele la examen

c) Folosind ogiva din figură, se constată că pentru punctajul de


promovare de 50 puncte corespunde valoarea frecvenţei cumulate
, cu semnificaţia că 15% dintre studenţi au punctaj inferior
(deci sunt restanţieri), iar 85% au promovat.

d) Media setului de valori se calculează cu (2.13) şi este în


acest caz puncte.
Pentru abaterea standard se admite (2.25) şi rezultă valoarea
puncte.
Coeficientul de variaţie dat de (2.29) are valoarea .

e) Fiind un număr par de date (N = 50), mediana calculată pe


baza şirului ordonat va fi media valorilor de rang 25 şi respectiv 26,
adică

44
şi conform datelor din tabelul 2.3.1.b acestea sunt 67, respectiv 68,
astfel că puncte.
Estimarea medianei pe baza ogivei din Fig.2.8 se obţine ca
abscisă corespunzătoare frecvenţei cumulate de 50%.
Un calcul mai precis decât citirea grafică este interpolarea liniară
între perechile 3 şi 4 de valori din tabelul 2.3.1.c. Procedând
astfel se obţine puncte.
Pentru calculul modei, se constată din tabel că frecvenţa relativă
maximă (26%) apare în clasa a 4-a iar valoarea centrală a acestei
clase, adică c4, va fi admisă ca modă - deci puncte.

Observând valorile , , şi tipurile de


distribuţii din Fig.2.7, se poate afirma că distribuţia punctajelor
obţinute de lotul de studenţi la examen are o asimetrie negativă.

f) Conform definiţiei (2.28), valorile mai mari decât media au


z – scor pozitiv. Din tabelul datelor ordonate 2.3.1.b se constată că 26
valori sunt mai mari decât puncte.
Procentul de studenţi cu z – scor pozitiv (peste medie) este deci

g) Cuartilele corespunzătoare frecvenţelor cumulate de 25 şi


respectiv 75% se obţin din graficul ogivei sau prin interpolare
liniară între datele din tabelul 2.3.1.c şi au valorile şi
puncte. Intervalul intercuartile rezultă deci

Ştiind că numărul mediu zilnic de cărţi consultate în


Exemplul 2.3.2

biblioteca facultăţii este de 112, cu o abatere standard de 14 cărţi, să


se folosească inegalitatea lui Cebâşev pentru a afla ce fracţie de timp
a) Se vor consulta între 56 şi 168 cărţi pe zi ?
b) Se vor consulta între 92 şi 132 cărţi pe zi ?

45
c) Se vor consulta mai puţin decât 42 sau mai mult decât 182
cărţi pe zi ?

Soluţie
Pentru rezolvarea problemei, este util să se traseze diagrama din
Fig. 2.9

42 56 70 84 98 112 126 140 154 168 182


 1
2
3
4
5
Fig.2.9. Diagrama abaterilor standard în jurul mediei

a) Observând relaţia (2.27) pentru inegalitatea lui Cebâşev, se


constată că intervalul 56-168 corespunde la , astfel încât
probabilitatea ca numărul zilnic de cărţi consultate să se plaseze în
acest interval este de:
adică circa 93,75%

b) Intervalul 92–132 este centrat în jurul mediei , la o


distanţă de adică la de ori
abaterea standard s = 14. În consecinţă, probabilitatea ca numărul
zilnic de cărţi consultate să se plaseze între 92 şi 132 este:

c)Deoarece 42 şi respectiv 182 se găsesc la câte abateri


standard faţă de medie, rezultă că probabilitatea de plasare în acest
interval este de , iar probabilitatea de a se consulta
mai puţin decât 42 sau mai mult decât 182 cărţi pe zi va fi de 4%.

46
S-a constatat statistic faptul că la banda de servire a
Exemplul 2.3.3

cantinei unei universităţi, timpul mediu de aşteptare pentru a se


ajunge la mâncare este de 120 secunde, cu o abatere standard de 25
secunde. Admiţând că distribuţia timpilor de aşteptare este în formă
de clopot şi folosind regula empirică menţionată la sfârşitul
paragrafului 2.2.2, să se estimeze:
a) Procentul de studenţi care trebuie să aştepte mai mult de 70
secunde;
b) Procentul de studenţi care trebuie să aştepte între 95 şi 170
secunde;
c) Câţi studenţi dintre 1000 care frecventează cantina respectivă
vor trebui să aştepte mai mult de 170 secunde ?
d) În ce interval de timp se plasează perioada de aşteptare pentru
circa 95% dintre studenţi ?
e) Propuneţi o procedură de estimare a procentului de studenţi
care vor aştepta la bandă cel puţin 160 de secunde ?

Soluţie
Ca şi în exemplul anterior, este util să se realizeze diagrama din
Fig.2.10 (asemănătoare cu fig. 2.9, dar adaptată la problema de faţă).

45 70 95 120 145 170 195


2,35% 13,5% 34% 34% 13,5% 2,35%

Fig. 2.10 Diagrama procentelor de apariţii în jurul mediei la distanţe multiplu de abaterea
standard, pentru distribuţia în formă de clopot.

Conform regulii empirice, la distribuţia în formă de clopot


circa 68% dintre observaţii se plasează între şi ,
95% între şi şi respectiv
99,7% între şi .

a) Deoarece procentul observaţiilor plasate în afara domeniului


este de 100 – 99,7 = 0,3%, cu probabilităţi egale pentru

47
ambele extremităţi, rezultă că procentul celor plasaţi sub 45 secunde
de aşteptare sau , este de 0,15%.
Rezultă că procentul studenţilor care aşteaptă sub 70 de
secunde este de circa 0,15 + 2,35 = 2,5%, iar mai mult de 70 secunde
circa 100 – 2,5 = 97,5%

b) Conform diagramei din Fig.2.10, procentul celor care


aşteaptă între 95 şi 170 secunde este de circa .

c) Deoarece procentul celor cu perioada de aşteptare peste 170


secunde este egal cu al celor având perioada sub 70 secunde adică
2,5%, rezultă că din 1000 studenţi vor aştepta mai mult de 170
secunde circa studenţi.

d) Conform diagramei din Fig.2.10 şi regulii empirice, 95%


dintre studenţi vor aştepta la bandă între 70 şi 170 secunde.

e)Cel mai simplu procedeu de estimare ar fi pe baza graficului


frecvenţelor cumulate. E simplu de calculat că frecvenţele cumulate
până la timpii trecuţi în tabelul de mai jos sunt următoarele

45 70 95 120 145 170


0,15 2,5 16 50 84 97,5

Durata de aşteptare de 160 secunde se plasează între valorile


din ultimele două coloane.
Prin interpolare lineară între aceste date se găseşte că la durată
de 160 secunde corespunde frecvenţa cumulată de 92,1%.
În consecinţă, circa dintre studenţi vor aştepta
mai mult de 160 secunde pentru a se servi.

48
Se definesc în continuare următoarele două tipuri de momente:

Momentul de ordin r în raport cu originea – calculat


cu relaţia:
(2.30)
Prin comparaţie cu (2.13), se constată că , deci media
setului de valori este chiar momentul de ordin unu în raport cu
originea.

Momentul centrat de ordin r – calculat cu formula


(2.31)
Prin comparaţie cu (2.20) se constată că , deci varianţa
datelor este egală cu momentul centrat de ordin doi.

Ţinând seama de observaţia (2.16), este evident că momentul


centrat de ordin 1 este nul, adică .

Sunt uşor de verificat şi următoarele relaţii între momentele


centrate şi cele faţă de origine.

(2.32)

Prin translaţia tuturor datelor cu valoarea c, noua serie ,


va avea momentele centrate nemodificate adică ,
iar prin scalare sub forma , se obţine .

2.3.4. Caracteristici de formă

49
Caracteristica de (a)simetrie a unei distribuţii de
frecvenţă se evaluează prin coeficientul de asimetrie propus de
Fisher:
(2.33)

Având în vedere relaţiile (2.29) şi (2.31), se mai poate scrie şi

, (2.34)

iar dacă se adimensionalizează datele seriei în raport cu media şi se


introduce variabila modul , i=1, 2,….N, atunci devine
(2.35)

Ca în cazul varianţei, dacă talia N a setului de observaţii este


redusă, un estimator nedeplasat pentru coeficientul de asimetrie
se obţine înlocuind din (2.35)
prin sau prin .

Dacă (asimetrie nulă), distribuţia este simetrică în jurul


mediei.

O distribuţie de forma celei din Fig. 2.7.a) va avea , iar una


de forma celei din Fig. 2.7.c) va avea .

Altă măsură a asimetriei, propusă de Pearson, este


coeficientul Pearsonian de asimetrie dat de
, (2.36)

iar Yule propune coeficientul cuartil de simetrie definit prin


(2.37)
în care evident .

50
Coeficienţii şi sunt mai puţin sensibili la fluctuaţii de
eşantion.

O altă caracteristică de formă se referă la boltirea (sau


aplatisarea) graficului distribuţiei de frecvenţă.

După Pearson coeficientul de boltire este definit prin


, (2.38)

iar după Fisher prin relaţia


, (2.39)
în care pentru distribuţia normală (se va detalia în alt capitol).

Pentru aceeaşi caracteristică, Kelly propune un coeficient


calculat pe baza cuartilelor, cu relaţia
(2.40)
unde şi sunt decilele corespunzătoare.

Problema 2.3.1
?
Pentru datele de debite maxime anuale înregistrate pe Dunăre, la
Olteniţa, între 1921 – 1962, precizate în tabelul 2.1.1.a, alcătuiţi
tabloul distribuţiei de frecvenţă cu 7 clase de ecart h=1275 m3s-1,
începând de la valoarea minimă . Calculaţi măsurile
caracteristice de poziţie, dispersie şi formă (medie, abatere standard,
coeficient de variaţie, mediană, modă, interval intercuartile, coeficient
de asimetrie şi coeficient de boltire).

Problema 2.3.2
?

51
Calculaţi măsurile caracteristice de mai sus pentru setul de
debite medii anuale la acelaşi post şi din aceeaşi perioadă (tabelul
2.1.2.a), clasate ca în tabelul 2.2.1.b.

Problema 2.3.3
?
Reluaţi Problema 2.2.1 cu greutăţile celor 40 de rugbişti
prezentate în tabelul 2.2.4 şi calculaţi măsurile caracteristice ca în
cazul anterior, apelând pentru mediană şi cuartile la împărţirea pe 5
clase a datelor din problema menţionată.
a) Ce constataţi referitor la forma distribuţiei reflectată prin valorile
coeficienţilor de asimetrie ?
b) Cum apare moda faţă de medie şi mediană, prin prisma
observaţiei de mai sus ?
c) Dacă aţi raţionat corect la punctul d) al Problemei 2.2.1, aţi
dedus că în acest caz este aplicabilă regula empirică privind
împrăştierea datelor. Folosind media şi abaterea standard calculate şi
respectiv ogiva frecvenţelor cumulate, estimaţi în ce măsură se
verifică regula empirică pentru datele problemei de faţă. Comentaţi.

Problema 2.3.4
?
Un alergător pe distanţe scurte a participat la curse de 100 m,
200 m şi 400 m împreună cu alţi competitori. Ştiind că timpii realizaţi
de atlet pe aceste distanţe, timpii medii şi abaterile standard la cursele
respective sunt ca în tabelul următor, să se aprecieze în care cursă a
înregistrat sportivul cea mai bună performanţă relativă

Cursă Timp alergător Timp mediu Abatere standard


(sec) (sec) (sec)
100 m 11,1 11,5 0,12
200 m 24,4 24,6 0,35
400 m 47,2 46,8 0,57

52
Problema 2.3.5
?
Încercând să evite reproşurile părinţilor, un student mai ,,silitor,,
a decis ca pentru toate disciplinele din anul întâi să le comunice
punctaje obţinute la activităţile aferente (seminar, laborator, lucrări de
casă, examene finale) cu 25 puncte mai mult.
a) Dacă aceste punctaje (din 100) au fost: 92, 87, 53, 73,
65, 83, 77, 60, 50, 75, 80 şi 62, să se determine media şi abaterea
standard a punctajelor reale obţinute în anul respectiv.
b) Folosind inegalitatea lui Cebâşev şi observând punctajul
minim real, faceţi o estimare aproximativă a numărului de examene
trecute cu cel puţin 50 de puncte şi respectiv al celor restante (prin
rotunjire în favoarea lui !)

53

S-ar putea să vă placă și