Sunteți pe pagina 1din 9

3.1.3.

Parametrii statistici principali

Parametrii statistici principali ai unui sir de date x i de n masurari in care x1


k

apare de f1 ori, x2 de f2 ori, xk de fk ori si f


i 1
i  n se mai numesc si valori tipice

de selectie si sunt definiti astfel:


Media aritmetica de sondaj a sirului de date:
1 k
x  f i  xi
n i 1
(4.22)
Daca in cele n masurari xi apare o singura data atunci:
1 n
x  xi
n i 1
(4.23)
Media aritmetica are o mare importanta in estimarea preciziei masurarilor
cind nu se cunoaste valoarea exacta a marimii fizice masurate.
Media geometrica a sirului de date se calculeaza cu relatia:
1
 n n
x g    xi  (4.24)
 i 1 
Media armonica este:
n
xa  n
1 (4.25)
x
i 1 i

Media patratica este:


n

x i 1
2
i
(4.26)
xp 
n
Mediana de sondaj a sirului de date - este valoarea fata de care frecventa
valorilor mai mici decit ea este egala cu frecventa valorilor mai mari decit ea.
Valorile xi se aranjeaza in ordine crescatoare sau descrescatoare si mediana este:
- daca n este impar:
M e  x ( n 1)/ 2 (4.27)
- daca n este par:
x n / 2  x n / 2 1
Me  (4.28)
2
Moda de sondaj a sirului de date este valoarea din sirul de date careia ii
corespunde frecventa maxima. Daca repartitia de frecventa are doua valori
maxime, ambele fiind cele mai probabile, repartitia se numeste bimodala. Daca
repartitia de frecventa are mai multe mode, repartitia este polimodala iar daca
repartitia are in mijloc un minim in loc de un maxim se numeste antimodala.
Legatura dintre media aritmetica, mediana si moda este data de relatia:
M o  x  3  ( M e  x) (4.29)
Valoarea centrala a sirului de date:
x max  x min
xc  (4.30)
2
in care xmax este cea mai mare din valorile xi , iar xmin cea mai mica.
Abaterea medie patratica de la valoarea medie se calculeaza cu relatia:

1 k
s*  
n i 1
f i ( x i  x) 2 (4.31)
iar abaterea standard empirica este:
1 k
s  f i ( x i  x) 2
n  1 i 1
(4.32)
Abaterea standard empirica aproximeaza cel mai bine eroarea medie
patratica  atunci cind numarul de masurari este relativ mic.
Dispersia de sondaj a sirului de date, sau momentul centrat de ordinul
doi este:
1 k
s2   f i ( x i  x) 2
n i 1
(4.33)
Dispersia de sondaj poate fi folosita ca estimatie a dispersiei 2 si daca in
cele n masurari xi apare o singura data atunci se calculeaza cu relatia:
1 n
s2  
n  1 i 1
( xi  x) 2 (4.34)
Amplitudinea sirului de date se calculeaza ca diferenta dintre valoarea
cea mai mare xmax si valoarea cea mai mica xmin a sirului de masurari dat:
R  x max  x min (4.35)
Coeficientul de variatie al sirului de date:
s
Cv  (4.36)
x
Abaterea medie absoluta de selectie a sirului de date reprezinta media
abaterilor fata de valoarea adevarata a marimii fizice a (daca aceasta este
cunoscuta) sau fata de media aritmetica luata in valoare absoluta:
1 k
Am   f i x i  x (4.37)
n i 1
Momentul de sondaj de ordinul r, calculat fata de originea sistemului
este:
1 n r
Mr   xi
n i 1
(4.38)
Momentul centrat de sondaj de ordinul r se obtine din momentele
generale de ordinul r considerind ca originea arbitrara coincide cu media
aritmetica:
1 k
r  
n i 1
f i ( x i  x) r (4.39)
Coeficientul de asimetrie al sirului de date permite aprecierea formei
unei repartitii statistice. Pentru calculul coeficientului de asimetrie se foloseste
relatia:
( 3 ) 2
1  (4.40)
(s2 ) 3
in care s2 este dispersia de sondaj a sirului de date iar:
1 k
3  
n i 1
f i ( x i  x) 3 (4.41)
Asimetria este pozitiva daca repartitia este asimetrica cu extremitatea
extinsa spre dreapta si negativa in caz contrar. Coeficientul de asimetrie este nul
pentru o repartitie simetrica. Asimetria absoluta poate fi exprimata ca diferenta
dintre media aritmetica si moda:
1  x  Mo (4.42)
Coeficientul de boltire:
4
2  (4.43)
(s 2 ) 2
in care 4 este momentul centrat de ordinul 4, definit de relatia:
1
4 
n
 f i ( x i  x) 4 (4.44)
Coeficientul de boltire este un indicator al gradului de inclinatie a pantei
curbei densitatii de repartitie in vecinatatea modei de sondaj M o. Pentru
repartitia normala 2 = 3. Daca 2 > 3 curba densitatii de repartitie este mai
ascutita la virf decit curba normala, iar daca 2 < 3 boltirea este mai mare decit
cea a curbei normale.
Excesul curbei de repartitie permite aprecierea gradului de indepartare a
curbei studiate fata de repartitia normala. Daca E = 0 curba studiata coincide cu
cea normala. E > 0 pune in evidenta o concentrare a frecventelor fata de centru
iar E < 0 o indepartare a frecventelor fata de centru. Excesul se calculeaza cu
relatia:
E = 2 - 3 (4.45)

Exemplul 3.1

Pentru masurarile din exemplul 1.2 sa se determine parametrii statistici principali.


Se utilizeaza programul PARSTAT.MCD realizat in MathCad.

Calculul parametrilor statistici principali


ORIGIN 1
media := mean (x)
dispersia := var (x)
abaterea := stdev (x)
amplitudinea := max (x) - min (x)
xsort := sort (x)
n := length (x)
  n n  1 n
ind :  if  floor    2  n , , 
  2 2 2
xsort1  xsort n
val _ centrala:
2
abaterea
coef _ var iatie 
media
 xsort ind  xsort ind 1 
mediana:  if  (ind  2  n), xsort ind , 
 2 
modul := media + 3 ( mediana - media )
media  mod ul
coef _ pearson: 
abaterea
r := 2 .. 4 i := 1 .. n
 (x i ) r  x  media  
r
i
moment r :  i
m_ centrat r : i
n n
x i  media  m_ centrat 3  2

abat _ medie_ abs: i coef _ asimetrie: 


n dispersia
m_ centrat 4
coef _ boltire:  excesul:  coef _ boltire  3
dispersia 2

Rezultate

media = 33.379
dispersia = 4.016
abaterea = 2.004
amplitudinea = 8.3
mediana = 33.41
modul = 33.472
val_centrala = 33.25
coef_variatie = 0.06
coef_pearson = - 0.047
abat_medie_abs = 1.604
coef_asimetrie = 0.002
coef_boltire = 2.56
excesul = - 0.44
moment2 = 1.118 103 m_centrat2 = 4.016
moment3 = 3.759 104 m_centrat3 = - 0.357
moment4 = 1.268 106 m_centrat4 = 41.284

3.1.4. Verificarea normalitatii repartitiei.


3.1.4.1. Criteriul de concordanta  2
Datele experimentale se impart in l intervale (clase): (- , x1 ) , [x1, x2 ),...,
[xi-1 , xi ),......, [xl-1 , ). In fiecare interval sunt mi date astfel incit numarul
tuturor masurarilor efectuate este:
n = m1 + m2 + ......+ ml (4.46)
Numarul de date din fiecare interval mi trebuie sa fie suficient de mare
(mi= 510). Numarul claselor se determina cu relatia:
l  1  3.322  log n (4.47)
Se recomanda l = 10  20. Lungimea intervalului este:
x max  x min
d (4.48)
l
Lungimea intervalului se rotunjeste la o valoare intreaga. Fiecarui interval ii
corespunde un numar de date fi . Pentru fiecare clasa se calculeaza ti cu relatia:
x mi  x
ti  (4.49)
s
unde s este abaterea standard empirica (eroarea medie patratica):
1 n
s 
n  1 i 1
(xi  x ) 2 (4.50)
xmi este limita superioara a clasei i, iar valoarea medie este:
1 n
x  xi
n i 1
(4.51)
Se considera ca prima clasa are limita inferioara -, iar ultima clasa are
limita superioara +. Se calculeaza probabilitatea pi ca rezultatele experimentale
sa cada in intervalul i in ipoteza de normalitate a repartitiei:
p i   t i    t i  1  (4.52)
Se tine seama ca (-)= - 0,5 iar () = 0,5 si apoi se calculeaza
criteriul de concordanta:
l
(mi  npi ) 2
2   (4.53)
i 1 npi
Numarul de grade de libertate k se determina astfel:
- daca clasele extreme au mai putin de cinci date fiecare, atunci numarul
gradelor de libertate este k = l - 3;
- daca una din clasele extreme are mai putin de cinci elemente k = l - 2;
- daca toate clasele au mai mult de cinci elemente, numarul gradelor
de libertate este
k= l - 1.
Pentru un nivel de incredere P si numarul de grade de libertate k , din
tabelul 4.2 se determina valoarea critica 2 cr (P,k).

Daca:
 2   cr2 ( P, k ) (4.54)
se poate considera ca functia de repartitie a erorilor aleatoare in seria de date
considerata nu este cea normala.
Eficienta criteriului de concordanta 2 creste daca in fiecare din
intervalele ixi-1 , xi) sunt aproximativ acelasi numar de date si este mai putin
eficient cind repartitia este simetrica dar difera de cea normala.

Valorile critice 2 cr (P,k)


Tabelul 4.2
ktP 0.80 0.90 0.95 0.99 0.999
1 5.99 7.78 9.49 13.28 18.5
5 7.29 9.24 11.07 15.09 20.5
6 8.56 10.64 12.59 16.8 22.5
7 9.80 12.02 14.07 18.5 24.3
8 11.03 13.36 15.51 20.1 26.1
9 12.24 14.68 16.9 21.7 27.9
10 13.44 15.99 18.3 23.2 29.6
11 14.63 17.3 19.7 24.7 31.3
12 15.8 18.5 21 26.2 32.9
13 17 19.8 22.4 27.7 34.5
14 18.2 21.1 23.7 29.1 36.1
15 19.3 22.3 25 30.6 37.7
16 20.5 23.5 26.3 32 39.3
17 21.6 24.8 27.6 33.4 40.8
18 22.8 26 28.9 34.8 42.3
19 23.9 27.2 30.1 36.2 43.8
20 25 28.4 31.4 37.6 45.3

Exemplul 3.2
Consideram n = 40 de masurari ale masei a o mie de seminte de orz si se cere sa se
verifice daca functia de repartitie a erorilor aleatoare de masurare este normala. Valorile
masurate xi sunt:

Nr xi Nr xi Nr xi Nr xi Nr xi
1 29.1 9 31.85 17 32.82 25 33.95 33 35.2
2 29.45 10 31.9 18 33.1 26 34.1 34 35.4
3 30.1 11 32.1 19 33.3 27 34.25 35 35.5
4 30.45 12 32.35 20 33.4 28 34.4 36 35.95
5 30.7 13 32.45 21 33.42 29 34.5 37 36.4
6 31.3 14 32.5 22 33.5 30 34.65 38 36.8
7 31.45 15 32.7 23 33.6 31 34.8 39 37.1
8 31.7 16 32.8 24 33.8 32 34.91 40 37.4

Programul de calcul TESTHI2.MCD realizat in MathCad 5.0 este:

amplitudinea := max(x) - min(x)


media : = mean(x)
n := length(x)
dispersia := var(x)
amplitudinea
d:  d := floor(d)
1  3.322  log(x )
 amplitudinea 
l:  ceil  
 d 
k := 1 .. l j := 1 .. l+1
int j :  min( x )  ( j  1)  d
f := hist(int, x)
mintk := min(x) + k d
min t k  media
tk :
dispersia
y2

funct y :  e 2

b
1
int eg ( funct , a , b ): 
2
 funct ( y )dy
a

f
k
4

29 30 31 32 33 34 35 36 37 38
int
k

a := 0 bk := tk i1 := 2 .. l -1
p1 := integ (funct, a, b1 ) + 0.5
pi1 := integ (funct, a, bi1) - integ (funct, a, bi1 - 1)
pl := 0.5 - integ (funct, a, bl-1)
l
( f i  n  pi ) 2
hi 2 : 
i 1 n  pi
nr_clase_libertate := m - 3

Rezultate

amplitudinea = 8.3
media = 33.379
n = 40
d=1
l=9
k mintk fk tk pk
1 30.1 2 -0.816 0.207
2 31.1 3 -0.567 0.078
3 32.1 5 -0.318 0.09
4 33.1 7 -0.069 0.097
5 34.1 8 0.18 0.099
6 35.1 7 0.429 0.095
7 36.1 4 0.678 0.085
8 37.1 2 0.927 0.072
9 38.1 2 1.176 0.177

hi2 = 18.69
nr_grade_libertate = 6
hi2 > hi2_tabelat = 12.59 pentru P = 0.95, deci repartitia nu este normala

Exemplul 3.3

Pentru cele n = 82 de masurari prezentate in tabelul de la exemplul 1.1 sa se verifice


normalitatea repartitiei erorilor aleatoare de masurare.

Programul de calcul TESTHI2.MCD realizat in MathCad 5.0, rulat pentru masurarile de la


exemplul 1.1 sunt:

Rezultate
amplitudinea = 9
media = 2.915
n = 82
d=1
l=9
k mintk fk tk pk
1 1 2 -0.469 0.319
2 2 24 -0.224 0.092
3 3 16 0.021 0.097
4 4 13 0.266 0.097
5 5 11 0.511 0.091
6 6 6 0.757 0.08
7 7 4 1.002 0.066
8 8 3 1.247 0.052
9 9 2 1.492 0.106
25

20

15
f
k

10

0 1 2 3 4 5 6 7 8
int
k

hi2 = 77.379
nr_grade_libertate = 6
hi2 > hi2_tabelat = 10.64 pentru P = 0.90, deci repartitia nu este normala.

3.1.4.2. Criterii aproximative de verificare

Se foloseste o metoda aproximativa de verificare a normalitatii repartitiei


bazata pe estimarea momentelor centrate de ordinul trei si patru (3 si 4). {n
cazul repartitiei normale a erorilor aleatoare aceste momente sunt: 3 = 0 si
4.=3 4. Pentru comoditatea comparatiei se calculeaza coeficientul de asimetrie
1 (4.40) si excesul E (4.45) care vor trebui sa fie mici, daca repartitia este
normala. Ordinul de marime al acestora, se apreciaza comparativ cu erorile
medii patratice corespunzatoare, care sunt egale cu:
6(n  1)
( n  1)(n  3)
pentru coeficientul de asimetrie
si
33
24n(2  2) pentru exces.
(n  1) (n  3)(n  5)
2

Daca cel putin una dintre caracteristicile indicate, luata in valoare


absoluta, depaseste semnificativ (de doua trei ori) eroarea medie patratica a ei,
atunci normalitatea repartitiei urmeaza sa fie supusa indoielii si sa se faca o
analiza a datelor experimentale cu ajutorul criteriului 2. In caz contrar nu avem
motive pentru o astfel de indoiala.