Documente Academic
Documente Profesional
Documente Cultură
9
Se numeşte rang - numărul de ordine al unei date
oarecare din şirul ordonat.
10
Procedure Sortare(n:integer; var x:vect);
{ Procedura de ordonare crecatoare/descrescatoare a datelor}
label 1,2,3,4;
var i,j:integer; xx:real; opt:char;
begin
kaz:=0; {implicit: ordonare crescatoare}
writeln('Implicit - ordoneaza crescator setul de date !');
write('Doresti ordonare descrescatoare (Y/N) ? '); readln(opt);
opt:=Upcase(opt); if opt='Y' then kaz:=1;
i:=2;
1: if i > n then goto 4
else
begin
xx:=x[i]; j:=i-1;
2: if j <= 0 then goto 3;
if kaz = 0 then
begin { ordonare crescatoare }
if x[j] <= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
if kaz = 1 then
begin { ordonare descrescatoare }
if x[j] >= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
3: x[j+1]:=xx; i:=i+1; goto 1;
end;
4: end;
11
Ştiind că debitele maxime anuale înregistrate pe
Exemplul 2.1.1
Soluţie
S-a utilizat programul Setdate care a generat fişierul de rezultate
având conţinutul din tabelul 2.1.1.b.
Tabel 2.1.1.b
Debite maxime anuale la Oltenita, pe Dunare, intre 1921 si 1962
Datele ordonate crescator:
7050.00 7610.00 7750.00 7990.00 8090.00
8140.00 8230.00 8480.00 8510.00 8780.00
9100.00 9370.00 9380.00 9560.00 9620.00
9680.00 9720.00 9870.00 10000.00 10100.00
10100.00 10100.00 10200.00 10700.00 10800.00
11100.00 11500.00 11900.00 11900.00 12200.00
12200.00 13000.00 13300.00 13700.00 13800.00
13800.00 14000.00 14200.00 14300.00 14400.00
15600.00 15900.00
12
5010 6280
Soluţie
Se utilizează acelaşi program, dar specificând opţiunea pentru
ordonare descrescătoare şi se obţin rezultatele din tabelul 2.1.2.b
Tabel 2.1.2.b
Debite medii anuale la Oltenita pe Dunare intre 1921 si 1962
Datele ordonate descrescator:
8850.00 8600.00 8040.00 7960.00 7860.00
7280.00 7000.00 6950.00 6730.00 6650.00
6570.00 6480.00 6300.00 6280.00 6150.00
6120.00 6100.00 6080.00 5990.00 5980.00
5950.00 5900.00 5700.00 5650.00 5640.00
5570.00 5550.00 5520.00 5460.00 5400.00
5350.00 5240.00 5220.00 5190.00 5100.00
5010.00 4460.00 4400.00 4300.00 4200.00
4160.00 4090.00
Problema 2 1 1
?
Un eşantion stocastic de 50 de clienţi admis reprezentativ pentru
o anumită bancă, a obţinut dobânzile anuale la conturile lor curente în
valută (USD) ca în tabelul 2 1 3. Să se ordoneze crescător şirul de
valori din acest tabel.
Tabel 2.1.3
Dobanzi anuale la conturi curente (in $),
pentru un esantion de 50 clienti
28.43 35.22 36.92 96.44 65.99 55.87 52.77 42.87 39.44 80.01
87.63 21.32 24.92 57.91 61.25 27.83 32.93 64.88 40.96 50.01
38.55 69.47 31.62 59.91 25.14 36.10 63.54 27.92 28.21 45.66
49.23 43.16 87.98 73.97 29.03 38.31 51.17 68.23 52.92 70.18
72.05 58.22 44.15 47.85 33.64 32.95 26.29 30.14 22.81 23.64
13
2.2. Gruparea datelor de eşantion
14
(2.7)
iar (2.10)
De regulă se preferă
- gruparea în clase de ecart constant şi
- având limitele de clasă alese cu valori convenabile (multiplii
de 2, 5, 10, 100 etc.).
Soluţie
15
Având în vedere (2.3) şi (2.4), deoarece talia acestui şir este N =
42, rezultă numărul recomandat de clase
sau
Tabel 2.2.1.a
Clasare în K = 8 clase de ecart h = 600 m s
3 -1
k ak bk ck nk fk Fk
1 4050 4650 4350 6 0,143 0,143
2 4650 5250 4950 5 0,119 0,262
3 5250 5850 5550 9 0,214 0,476
4 5850 6450 6150 10 0,238 0,714
5 6450 7050 6750 6 0,143 0,857
6 7050 7650 7350 1 0,024 0,881
7 7650 8250 7950 3 0,071 0,952
16
8 8250 8850 8550 2 0,048 1,000
Tabel 2.2.1.b
Clasare în K = 6 clase de ecart h = 800 m s
3 -1
k ak bk ck nk fk Fk
1 4050 4850 4450 6 0,143 0,143
2 4850 5650 5250 13 0,309 0,452
3 5650 6450 6050 11 0,262 0,714
4 6450 7250 6850 6 0,143 0,857
5 7250 8050 7650 4 0,095 0,952
6 8050 8850 8450 2 0,048 1,000
Soluţie
Valorile extreme din şirul de date sunt 96,44 şi respectiv 21,32,
adică o plajă de 75,12 $.
Pentru clasarea în 10 clase, rezultă un ecart pe clasă de
75,12 / 10 = 7,512.
17
Ecartul folosit nu poate fi mai mic decât această valoare şi
trebuie să aibă acelaşi număr de cifre zecimale ca datele din şir.
Rezultă că ecartul h = 7,52 $ îndeplineşte condiţiile respective.
Limita inferioară a primei clase va fi admisă mai mică decât
valoarea minimă din şir şi având o cifră zecimală semnificativă în
plus faţă de aceasta. În consecinţă = 21,315 $.
Limitele intervalelor de clasare se determină apoi adăugând
ecartul h la pentru a obţine succesiv
; ;.............
Valorile centrale ck se calculează cu relaţia (2.6).
18
Procedura Pascal următoare realizează clasarea a n date din
setul de valori incluse în vectorul x (care poate fi şirul iniţial sau şirul
ordonat).
Alţi parametri de intrare în procedură sunt:
- numărul de clase k, de ecart egal h şi respectiv
- limita inferioară a primei clase .
Alegerea valorilor lor se face în programul Setdate, pe parcursul
rulării şi înainte de apelarea procedurii de clasare.
Procedure Clasare(n,k:integer; xmn,h:real; x:v1);
{ Procedura de clasare a N date din vectorul X in K clase,
incepand de la Xmn, cu pasul H
Cazul general, cu datele din X in ordinea initiala }
var j,i:integer;
begin
{ Limitele de clase si initializare numar aparitii: }
for j:=1 to k do
begin
a[j]:=xmn+(j-1)*h; b[j]:=a[j]+h; nj[j]:=0;
end;
{ Determina numarul de aparitii pe clase: }
for j:=1 to k do
for i:=1 to n do
if (x[i] > a[j]) and (x[i] <= b[j]) then nj[j]:=nj[j]+1;
{ Calculeaza frecventele relative si frecventele cumulate pe clase: }
for j:=1 to k do
begin
fr[j]:=nj[j]/n;
if j=1 then fc[j]:=fr[j]
else fc[j]:=fc[j-1]+fr[j];
end;
end;
19
Există două categorii importante de grafice şi anume:
- histogramele – realizate prin construirea unor dreptunghiuri
succesive şi
- poligoanele – care se obţin unind puncte succesive prin
segmente de linii drepte.
20
12 Număr apariţii Frecvenţă relativă
10 0,25
6
0,125
0
4050 4650 5250 5850 6450 7050 7650 8250 8850
12
10 0,25
6
0,125
0
4050 4850 5650 6450 7250 8050 8850
21
Număr apariţii Frecvenţă relativă
12
10 20
6
10
4
0
21,315 96,515
Dobândă anuală (USD)
22
Soluţie
Din inspecţia datelor se constată că iau valori din domeniul
13,33 – 98,93 mg l-1.
Alegând, de exemplu, k = 7 clase de ecart egal şi extinzând
plaja între 10 şi 101 mg l-1, ar rezulta
- ecarturi egale de câte 13 mg l-1,
- cu efectivele de 13, 9, 3, 3, 0, 1 şi respectiv 1 apariţii,
deci cu majoritatea datelor plasate între 10 şi 36 mg l-1.
Tabel 2.2.3.b
Analiza de frecvenţă cu clase de ecart inegal
k ak bk hk nk n’k fk f’k
1 10 15 5 2 0,40 0,067 0,0134
2 15 20 5 5 1,00 0,167 0,0334
3 20 25 5 7 1,40 0,233 0,0466
4 25 30 5 4 0,80 0,133 0,0266
5 30 40 10 6 0,60 0,200 0,0200
6 40 60 20 4 0,20 0,133 0,0067
7 60 100 40 2 0,05 0,067 0,0017
23
Densitate de
1,5 apariţie
0,5
0
10 20 30 40 50 60 70 80 90 100
Concentraţie CBO5 (mg l )
. -1
Fig.2.3. Histograma cu clase de ecart inegal pentru concentraţia CBO5 din probe
24
Adesea, în practică se constată un tip special de distribuţii
simetrice, numite în formă de clopot.
Când se clasează cu ecart constant, la acest tip se observă că
- înălţimile dreptunghiurilor histogramei se reduc aproximativ
în acelaşi raport, începând de la clasa de frecvenţă maximă,
spre cele două extremităţi ale axei absciselor iar
- variabilitatea datelor este bine reflectată de o regulă empirică,
după care
- circa 68% dintre datele şirului se plasează într-un interval
având lăţimea egală cu dublul abaterii standard în jurul mediei;
- circa 95% din observaţii – într-un interval cu lăţimea de
patru ori abaterea standard şi respectiv
- circa 99,7% din observaţii - într-un interval cu lăţimea de
şase ori abaterea standard în jurul mediei.
Semnificaţia parametrilor menţionaţi (medie, abatere standard)
va fi precizată ulterior.
25
40 Frecvenţă
relativă (%)
35
30
25
20
15
10
0
2850 3650 4450 5250 6050 6850 7650 8450 9250 10050
26
25 Frecvenţă
relativă (%)
20
15
10
0
0 20 40 60 80 100 120
Dobânda anuală (USD)
27
Frecvenţă
100 cumulată (%)
75
50
25
0
4050 4850 5650 6450 7250 8050 8850
Fig. 2.6 Graficul frecvenţelor cumulate pentru datele clasate în tabelul 2.2.1.b
28
Când
- datele înregistrate asupra unei mărimi de interes sunt în număr
redus,
- iar analiza anterioară nu poate conduce la concluzii
convingătoare,
se preferă utilizarea unei maniere empirice de analiză statistică.
(2.12)
Formulă pentru
29
- Pentru o lege de probabilitate normală a populaţiei originare se
recomandă ; sau dacă legea este de tip exponenţial;
sau pentru o lege uniformă; sau, în sfârşit, ca cel mai bun
compromis pentru o formulă neparametrică.
- În şcoala franceză se preferă ; iar în practica din SUA,
30
Distribuţiile empirice de frecvenţă se vor utiliza în capitolele
următoare în cadrul unor metode de estimare a parametrilor
distribuţiilor teoretice de probabilitate care să reflecte setul de
date observate, precum şi la verificarea ipotezelor statistice
referitoare la aceste distribuţii.
Problema 2 2 1
?
40 de rugbişti aleşi aleatoriu din echipele de primă divizie au
greutăţile corporale (în kg) din tabelul 2.2.4
Tabel 2.2.4
Greutăţile (în kg) unui lot de 40 rugbişti (R – număr sportiv în lot; G – greutate)
R G R G R G R G
1 97,2 11 102,3 21 85,2 31 100,3
2 103,1 12 97,5 22 93,3 32 98,3
3 86,5 13 110,0 23 106,3 33 102,8
4 91,3 14 88,2 24 102,8 34 102,5
5 101,1 15 92,5 25 96,8 35 92,9
6 109,5 16 96,2 26 95,2 36 107,0
7 111,2 17 107,5 27 114,7 37 101,7
8 90,8 18 104,8 28 97,6 38 104,2
9 98,3 19 98,9 29 98,0 39 100,9
10 99,1 20 95,0 30 108,5 40 105,2
a) Să se ordoneze crescător datele de greutate din tabel;
b) Rotunjind valoarea minimă la primul întreg inferior şi pe cea
maximă la primul întreg superior, să se claseze datele de pe această
plajă în 5 clase de ecart egal;
c) Să se reprezinte histograma şi poligonul frecvenţelor relative
pentru această distribuţie de frecvenţă;
d) Prezintă histograma vreo caracteristică evidentă ?
e) Trasaţi ogiva frecvenţelor cumulate şi estimaţi procentul
sportivilor cu greutatea de cel puţin 100 kg.
Problema 2.2.2
?
Un lot de 30 studenţi ajunşi la o universitate din Braşov venind
din restul ţării, sunt chestionaţi în legătură cu poziţia geografică a
localităţii de origine faţă de Braşov, după categoriile: NE (nord – est),
SE (sud – est), V (vest), SV (sud – vest) şi respectiv NV (nord – vest).
31
Răspunsurile au fost următoarele: NV, V, V, NE, NV, SV, SV,
SV, SE, NV, SV, SE, SE, V, SV, NE, N, V, NE, NV, NV, SV, V, SE,
SV, SV, NV, V, SV şi NV.
Construiţi o distribuţie de frecvenţă pentru aceste date
categoriale.
Problema 2.2.3
?
Ştiind că 40 de muncitori pe un şantier de construcţii au prestat
în luna anterioară un număr de ore suplimentare plătite - ca în tabelul
2.2.5 Tabel 2.2.5
Număr de ore suplimentare plătite pentru luna
anterioară, la un lot de 40 muncitori
22 12 17 2 4 14 25 19 26 17
6 10 7 7 13 16 17 13 24 22
24 23 19 8 5 9 15 20 18 20
25 18 8 26 24 24 22 21 12 15
32
Pe lângă descrierea tabelară / grafică prezentată, colecţiile de date
sunt caracterizate şi printr-o serie de valori numerice numite
măsuri statistice (sau caracteristici descriptive).
33
- Caracteristici de formă – aflate în legătură cu alura
distribuţiilor de frecvenţă, având măsurile specifice reprezentate de
coeficienţii de asimetrie şi coeficienţii de aplatisare.
34
Mediana – notată – este definită ca valoarea faţă de care
jumătate dintre observaţiile seriei de date sunt mai mari şi respectiv
cealaltă jumătate sunt mai mici.
Se mai numeşte şi valoare echiprobabilă sau cuartilă de ordin 2.
35
Moda poate să nu fie unică într-un set de date observate sau
chiar poate să nu existe.
Presupunând că
- numărul de date din şir, N, este foarte mare şi că
- a fost posibilă o clasare cu ecart foarte mic (astfel încât
poligonul frecvenţelor poate fi aproximat printr-o curbă continuă şi
unimodală)
relaţia între , şi depinde de alura distribuţiei de frecvenţă.
36
Cele trei situaţii tipice sunt reprezentate în figura 2.7
~
X̂X
X
A1 A2
X
A1 A2
X
~
XXX̂
A1 A2
X
37
Moda corespunde abscisei pentru care frecvenţa relativă
înregistrează un maxim.
Cu aceste precizări
– pentru cazul a): < < şi se spune că distribuţia are asimetrie
pozitivă;
– pentru cazul b): = = şi se spune că distribuţia este simetrică;
– pentru cazul c): > > şi se spune că distribuţia are asimetrie
negativă.
38
- pentru a obţine un estimator zis nedeplasat al acestui
parametru,
se foloseşte relaţia
(2.21)
(se va reveni în capitolele următoare)
.
Altă formulă de calcul pentru varianţa ar putea fi
(2.22)
39
(2.26)
40
Fiecărei date din şir îi corespunde un z – scor care măsoară cu
câte abateri standard este plasată valoarea respectivă sub sau peste
media şirului.
Dacă , observaţia i are un z – scor pozitiv,
iar pentru , z – scorul respectiv va fi negativ.
Intervalele intercuantile
41
De regulă, cuantilelele se estimează pe baza ogivei frecvenţelor
cumulate (cum s-a explicat în legătură cu mediana - care este în fond
cuartila de ordinul doi)
42
e) Să se estimeze mediana folosind şirul ordonat şi respectiv ogiva
frecvenţelor cumulate precum şi moda pe baza clasei modale;
f) Aflaţi procentul de studenţi cu z – scor pozitiv la acest examen;
g) Estimaţi intervalul intercuartile pe baza graficului frecvenţelor
cumulate.
Soluţie
În tabelul 2.3.1.b se găsesc datele problemei ordonate crescător.
Tabel 2.3.1.b
Punctaj obtinut de 50 studenti la examenul de Statistica
Datele ordonate crescator:
40.00 42.00 42.00 44.00 45.00
46.00 49.00 49.00 50.00 51.00
53.00 54.00 55.00 56.00 58.00
58.00 59.00 60.00 60.00 62.00
63.00 64.00 65.00 66.00 67.00
68.00 69.00 70.00 70.00 70.00
71.00 72.00 72.00 73.00 73.00
74.00 75.00 76.00 77.00 77.00
79.00 80.00 80.00 81.00 85.00
87.00 90.00 91.00 94.00 98.00
a) Clasarea punctajelor s-a făcut cu procedura din Exemplul
2.2.2 pentru a evita ambiguitatea atribuirii unei valori din şir egală
cu limita dintre două clase, la una dintre acestea. Se ajunge totuşi la
situaţia nerealistă că limita ultimei clasate devine 102,5 puncte,
punctajul maxim posibil fiind 100 puncte.
Dacă s-ar admite plaja cuprinsă între punctajul minim (aici 40) şi
cel maxim posibil (100 în cazul problemei), cu 7 clase pe domeniu ar
rezulta un ecart de 60/7 = 8,5714 puncte, dar care este ,,neprietenos’’
în aplicaţii practice.
Tabel 2.3.1.c
Punctaj obtinut de 50 studenti la examenul de Statistica
Rezultate clasare in 7 clase de ecart= 9.00:
k a(k) b(k) c(k) n(k) f(k) fc(k)
1 39.50 48.50 44.00 6 0.1200 0.1200
2 48.50 57.50 53.00 8 0.1600 0.2800
3 57.50 66.50 62.00 10 0.2000 0.4800
4 66.50 75.50 71.00 13 0.2600 0.7400
5 75.50 84.50 80.00 7 0.1400 0.8800
6 84.50 93.50 89.00 4 0.0800 0.9600
7 93.50 102.50 98.00 2 0.0400 1.0000
43
b) Cu rezultatele din tabelul anterior, în Fig.2.8 s-a trasat
poligonul frecvenţelor cumulate procentuale.
100
Frecvenţă
cumulată (%)
90
80
70
60
50
40 q3
30 ~
X
F*
20
10 q1
0
35 45 55 65 75 85 95 105
Puncte la examen
Fig.2.8. Poligonul frecvenţelor cumulate pentru rezultatele la examen
44
şi conform datelor din tabelul 2.3.1.b acestea sunt 67, respectiv 68,
astfel că puncte.
Estimarea medianei pe baza ogivei din Fig.2.8 se obţine ca
abscisă corespunzătoare frecvenţei cumulate de 50%.
Un calcul mai precis decât citirea grafică este interpolarea liniară
între perechile 3 şi 4 de valori din tabelul 2.3.1.c. Procedând
astfel se obţine puncte.
Pentru calculul modei, se constată din tabel că frecvenţa relativă
maximă (26%) apare în clasa a 4-a iar valoarea centrală a acestei
clase, adică c4, va fi admisă ca modă - deci puncte.
45
c) Se vor consulta mai puţin decât 42 sau mai mult decât 182
cărţi pe zi ?
Soluţie
Pentru rezolvarea problemei, este util să se traseze diagrama din
Fig. 2.9
46
S-a constatat statistic faptul că la banda de servire a
Exemplul 2.3.3
Soluţie
Ca şi în exemplul anterior, este util să se realizeze diagrama din
Fig.2.10 (asemănătoare cu fig. 2.9, dar adaptată la problema de faţă).
Fig. 2.10 Diagrama procentelor de apariţii în jurul mediei la distanţe multiplu de abaterea
standard, pentru distribuţia în formă de clopot.
47
ambele extremităţi, rezultă că procentul celor plasaţi sub 45 secunde
de aşteptare sau , este de 0,15%.
Rezultă că procentul studenţilor care aşteaptă sub 70 de
secunde este de circa 0,15 + 2,35 = 2,5%, iar mai mult de 70 secunde
circa 100 – 2,5 = 97,5%
48
Se definesc în continuare următoarele două tipuri de momente:
(2.32)
49
Caracteristica de (a)simetrie a unei distribuţii de
frecvenţă se evaluează prin coeficientul de asimetrie propus de
Fisher:
(2.33)
, (2.34)
50
Coeficienţii şi sunt mai puţin sensibili la fluctuaţii de
eşantion.
Problema 2.3.1
?
Pentru datele de debite maxime anuale înregistrate pe Dunăre, la
Olteniţa, între 1921 – 1962, precizate în tabelul 2.1.1.a, alcătuiţi
tabloul distribuţiei de frecvenţă cu 7 clase de ecart h=1275 m3s-1,
începând de la valoarea minimă . Calculaţi măsurile
caracteristice de poziţie, dispersie şi formă (medie, abatere standard,
coeficient de variaţie, mediană, modă, interval intercuartile, coeficient
de asimetrie şi coeficient de boltire).
Problema 2.3.2
?
51
Calculaţi măsurile caracteristice de mai sus pentru setul de
debite medii anuale la acelaşi post şi din aceeaşi perioadă (tabelul
2.1.2.a), clasate ca în tabelul 2.2.1.b.
Problema 2.3.3
?
Reluaţi Problema 2.2.1 cu greutăţile celor 40 de rugbişti
prezentate în tabelul 2.2.4 şi calculaţi măsurile caracteristice ca în
cazul anterior, apelând pentru mediană şi cuartile la împărţirea pe 5
clase a datelor din problema menţionată.
a) Ce constataţi referitor la forma distribuţiei reflectată prin valorile
coeficienţilor de asimetrie ?
b) Cum apare moda faţă de medie şi mediană, prin prisma
observaţiei de mai sus ?
c) Dacă aţi raţionat corect la punctul d) al Problemei 2.2.1, aţi
dedus că în acest caz este aplicabilă regula empirică privind
împrăştierea datelor. Folosind media şi abaterea standard calculate şi
respectiv ogiva frecvenţelor cumulate, estimaţi în ce măsură se
verifică regula empirică pentru datele problemei de faţă. Comentaţi.
Problema 2.3.4
?
Un alergător pe distanţe scurte a participat la curse de 100 m,
200 m şi 400 m împreună cu alţi competitori. Ştiind că timpii realizaţi
de atlet pe aceste distanţe, timpii medii şi abaterile standard la cursele
respective sunt ca în tabelul următor, să se aprecieze în care cursă a
înregistrat sportivul cea mai bună performanţă relativă
52
Problema 2.3.5
?
Încercând să evite reproşurile părinţilor, un student mai ,,silitor,,
a decis ca pentru toate disciplinele din anul întâi să le comunice
punctaje obţinute la activităţile aferente (seminar, laborator, lucrări de
casă, examene finale) cu 25 puncte mai mult.
a) Dacă aceste punctaje (din 100) au fost: 92, 87, 53, 73,
65, 83, 77, 60, 50, 75, 80 şi 62, să se determine media şi abaterea
standard a punctajelor reale obţinute în anul respectiv.
b) Folosind inegalitatea lui Cebâşev şi observând punctajul
minim real, faceţi o estimare aproximativă a numărului de examene
trecute cu cel puţin 50 de puncte şi respectiv al celor restante (prin
rotunjire în favoarea lui !)
53