Sunteți pe pagina 1din 14

Statistică aplicată în inginerie

CURS 7

3. VERIFICAREA IPOTEZELOR. CRITERII DE SEMNIFICAȚIE (CONTINUARE)

3.9. ELIMINAREA VALORILOR CARE SE ABAT MULT DE LA MEDIE

Dacă în șirul de valori există rezultate extreme care sunt mult diferite față de marea
majoritate a celorlalte rezultate, este necesar să se analizeze oportunitatea eliminării acestora
în faza de prelucrare statistică. Aceasta operație se face pe baza unor teste care impun
alegerea unei probabilități funcție de care se ia decizia de păstrare sau eliminare a lor.
Verificarea șirurilor de date sau a eșantionului obținut poartă denumirea de analiză critică a
datelor, testele cele mai utilizate fiind testele GRUBBS, DIXON, ROMANOWSKI și IQR.

3.9.1. Testul GRUBBS (testul g)


Acest test se poate aplica șirurilor mici și mari de date care au aproximativ o distribuție
normală și permite testarea unei singure valori care are o abatere mare în raport cu media.
Se ordonează setul de date de mărime n în ordine crescătoare, se calculează media setului de
date, iar statistica de testare, g, se calculează cu una din următoarele formule în funcție de cea
mai depărtată valoare față de media x ( x1 sau xn ):

x  x1 x x
g ; g n , (3.75)
s s
n

x i
în care: x i1
este media șirului de date,
n
n

x  x 
2
i
s i1
este abaterea medie pătratică de selecție.
n1
Dacă valoarea g calculată cu una din formulele (3.75) este mai mare decât valoarea critică gcritic
(din tabelul 1) pentru un nivel de risc α (uzual α=0,05), valoarea extremă considerată se
elimină din șirul de date.
În caz contrar, se impune concluzia că nu există motive suficiente pentru eliminarea valorii
respective.
Dacă valoarea a fost eliminată, se repetă algoritmul pentru cele n  1 valori rămase până
când nu mai sunt eliminate date ale șirului.

1
Statistică aplicată în inginerie

Tabelul 1
Riscul Riscul Riscul
n n n
α=0,05 α=0,01 α=0,05 α=0,01 α=0,05 α=0,01
3 1,1531 1,1546 15 2,4090 2,7049 80 3,1319 3,5208
4 1,4625 1,4925 16 2,4433 2,7470 90 3,1733 3,5632
5 1,6714 1,7489 17 2,4748 2,7854 100 3,2095 3,6002
6 1,8221 1,9442 18 2,5040 2,8208 120 3,2706 3,6619
7 1,9381 2,0973 19 2,5312 2,8535 140 3,3208 3,7121
8 2,0317 2,2208 20 2,5566 2,8838 160 3,3633 3,7542
9 2,1096 2,3231 25 2,6629 3,0086 180 3,4001 3,7904
10 2,1761 2,4097 30 2,7451 3,1029 200 3,4324 3,8220
11 2,2339 2,4843 40 2,8675 3,2395 300 3,5525 3,9385
12 2,2850 2,5494 50 2,9570 3,3366 400 3,6339 4,0166
13 2,3305 2,6070 60 3,0269 3,4111 500 3,6952 4,0749
14 2,3717 2,6585 70 3,0839 3,4710 600 3,7442 4,1214

3.9.2. Testul DIXON (testul q)


Acest test se poate aplica șirurilor mici de date ( n  10 ) care au aproximativ o distribuție
normală și permite testarea unei singure valori care are o abatere mare în raport cu media.
Se ordonează setul de date de mărime n în ordine crescătoare, se calculează media setului de
date, iar statistica de testare, q, se calculează cu una din următoarele formule în funcție de cea
mai depărtată valoare față de media x ( x1 sau xn ):

x 2  x1 x x
q ; q  n n1 , (3.76)
xn  x1 xn  x1

Dacă valoarea q calculată cu una din formulele (3.76) este mai mare decât valoarea critică
qcritic (din tabelul 2) pentru un nivel de risc α (uzual α=0,05), valoarea extremă considerată se
elimină din șirul de date.
În caz contrar, se impune concluzia că nu există motive suficiente pentru eliminarea valorii
testate.
Dacă valoarea a fost eliminată, se repetă algoritmul pentru cele n  1 valori rămase până
când nu mai sunt eliminate date ale șirului.

2
Statistică aplicată în inginerie

Tabelul 2
Riscul
n
α=0,05 α=0,04 α=0,02 α=0,01
3 0,970 0,976 0,988 0,994
4 0,829 0,846 0,889 0,926
5 0,710 0,729 0,780 0,821
6 0,625 0,644 0,698 0,740
7 0,568 0,586 0,637 0,680
8 0,526 0,543 0,590 0,634
9 0,493 0,510 0,555 0,598
10 0,466 0,483 0,527 0,568

3.9.3. Testul ROMANOWSKI (testul t)


Acest test se aplică șirurilor medii de date ( n  20 ) care au aproximativ o distribuție normală
și permite testarea unei singure valori care are o abatere mare în raport cu media.
Se ordonează setul de date de mărime n în ordine crescătoare, iar statistica de testare, t, se
calculează cu una din următoarele formule, funcție de cea mai depărtată valoare față de
media x ( x1 sau xn ):

x  x1 x x Tabelul 3
t ; t n , (3.77)
n n
s s
n1 n1
n n1

 xi x i
în care: x i 2
sau x  i1
,
n1 n 1
n n1

  xi  x  x  x 
2 2
i
s i 2
sau s  i1
.
n2 n2
!!! din calculul mediei și abaterii standard se exclude valoarea
testată.
Dacă valoarea t calculată cu una din formulele (3.77) este mai mare
decât valoarea critică tcritic (din tabelul 3) pentru un nivel de risc α
(uzual α=0,05), valoarea extremă considerată se elimină din șirul de
date. În caz contrar, se impune concluzia că nu există motive
suficiente de eliminare a valorii testate.

3
Statistică aplicată în inginerie

Dacă valoarea a fost eliminată, se repetă algoritmul pentru cele n  1 valori rămase până
când nu mai sunt eliminate date ale șirului.

3.9.4. Testul IQR


Se poate aplica șirurilor mici și mari de date și care nu trebuie să aibă în mod obligatoriu o
distribuție normală.

Conform definiției, mediana împarte volumul colectivității în două părți egale (valorile din șir
sunt ordonate crescător). Noțiunea de mediană poate fi extinsă. Astfel putem considera valorile
variabilei care împart volumul colectivității în patru părți egale (valorile variabilei care împart
volumul colectivității se numesc quantile). Există în acest caz trei valori ale căror numere de
n n 3 n
ordine sunt: ; ; .
4 2 4
n
Valoarea variabilei care are numărul de ordine egal cu poartă numele de quantilul 1 (Q1).
4
n
Valoarea variabilei care are numărul de ordine egal cu poartă numele de mediană (Me, Q2).
2
3 n
Valoarea variabilei care are numărul de ordine egal cu poartă numele de quantilul 3 (Q3).
4
Ca urmare a definiției, putem spune și că mediana este valoarea căreia îi corespunde o
frecvență relativă cumulată egală cu 0,5. Generalizând această observație, quantilul se poate
defini ca fiind valoarea variabilei căreia îi corespunde o frecvență relativă cumulată dată.
Astfel Q1 reprezintă valoarea variabilei căreia îi corespunde o frecvență relativă cumulată
egală cu 0,25, iar Q3 reprezintă valoarea variabilei căreia îi corespunde o frecvență relativă
cumulată egală cu 0,75.

Se calculează statistica IQR  Q3 – Q1 .

Valorile mai mici de Q1 – 1,5·IQR, respectiv mai mari decât Q3 + 1,5·IQR se elimină din șirul de
date.

4
Statistică aplicată în inginerie

Exemplul 1. S-a extras o selecție de 22 7,70


probe pentru a cerceta grosimea peretelui
7,60
țevilor de oțel de dimensiune 146 × 7.
7,50
Valorile obținute sunt următoarele:
7,40
7,00; 7,10; 7,05; 7,05; 6,90; 7,20; 7,20;
7,30
7,25; 7,05; 7,20; 7,25; 7,15; 7,20; 6,95;
7,20
7,20; 7,50;7,65; 7,40; 7,20; 6,90; 7,10; 7,40.
7,10
Să se analizeze oportunitatea eliminării
valorilor care se abat mult de la medie. 7,00
6,90
Rezolvare
6,80
Testul GRUBBS 1 2 3 4 5 6 7 8 9 10111213141516171819202122
1. Valorile ordonate crescător (SORT):

6,90; 6,90; 6,95; 7,00; 7,05; 7,05; 7,05; 7,10; 7,10; 7,15; 7,20; 7,20; 7,20; 7,20; 7,20; 7,20; 7,25; 7,25; 7,40; 7,40;
7,50; 7,65

2. media de selecție este (AVERAGE): x  7,177

3. cea mai depărtată valoare în raport cu media: xn  7,65

4. se calculează statistica g:

xn  x 7,65  7,177
g   2,52
s 0,1875

unde s este abaterea medie pătratică de selecție este (STDEV): s  0,1875

5. din tabelul 1, pentru α=0,05 și n=22 se găsește g 0 ,05;22 2,6

8. deoarece g  2,52  g 0 ,05;22 2,6 valoarea 7,65 nu se exclude din setul de date.

Testul IQR

1. Valorile ordonate crescător (SORT):

6,90; 6,90; 6,95; 7,00; 7,05; 7,05; 7,05; 7,10; 7,10; 7,15; 7,20; 7,20; 7,20; 7,20; 7,20; 7,20; 7,25; 7,25; 7,40; 7,40;
7,50; 7,65

2. Quantilele Q1 și Q3: Q1=7,05; Q3=7,25

3. se calculează IQR

IQR = Q3 – Q1=7,25 – 7,05=0,20

4. Q1 – 1,5·IQR = 7,05 – 1,5·0,20 = 6,75 (nu există valori mai mici de 6,85)

Q3 + 1,5·IQR = 7,25 + 1,5·0,20 = 7,55 deci se elimină ultima valoare din șir (7,65 > 7,55)

5
Statistică aplicată în inginerie

3.10. CRITERIUL COCHRAN PENTRU ELIMINAREA DISPERSIEI CARE DIFERĂ SEMNIFICATIV DE


CELELALTE

Adesea procesele studiate permit extragerea doar a unor selecții compuse dintr-un număr
relativ mic de unități. De aceea estimarea dispersiei generale  2 trebuie să se facă pe baza mai
multor dispersii de selecție si2 .

Fie s12 , s22 , …, sk 2 , k dispersii de selecție obținute pe baza datelor a k selecții compuse din
același număr de unități, n. Potrivit teoremei adunării pentru distribuția dispersiei, dispersia
generală  2 se poate calcula ca o medie a dispersiilor de selecție si2 ponderate cu numărul
gradelor de libertate respective fi numai dacă dispersiile de selecție sunt omogene, adică sunt
estimațiile uneia și aceleiași dispersii generale ( s12  s22  ....  sk 2  2 ):
k

f s i i
2

2 s2  i1
k
(3.78)
f
i1
i

Testul (criteriul) lui Cochran se aplică indiferent de numărul de selecții (k) avut la dispoziție în
scopul eliminării dispersiei de selecție care diferă semnificativ de celelalte (testarea celei mai
mari dispersii).
Statistica de testare, c, se calculează cu formula:

max  si2 
c k
. (3.79)
s
i1
i
2

Se compară valoare statisticii c din datele cercetării cu valoarea lui cα corespunzătoare riscului
α = 0,05; f = n – 1 și k (tabelul 4), respectiv riscului α = 0,01; f = n – 1 și k (tabelul 5):
a) dacă c  c0,05 se consideră că dispersia are valoarea mare datorită întâmplării și prin
urmare se utilizează la calculul dispersiei s 2 ;
b) dacă c0,05  c  c0 ,01 se pune la îndoială faptul că valoarea mare a dispersiei ar fi
întâmplătoare; pentru mai multă siguranță este preferabil să se renunțe la această
dispersie, adică să nu fie utilizată la calculul dispersiei s 2 ;
c) dacă c  c0,01 se consideră că dispersia are o valoare mare care nu se poate pune pe
seama întâmplării și ca atare se exclude de la calculul dispersiei s 2 .

6
Statistică aplicată în inginerie

Tabelul 4

Tabelul 5

7
Statistică aplicată în inginerie

Exemplul 2. Pentru a caracteriza precizia unei


mașini care produce hârtie de ziar în ceea ce
privește gramajul, interesează mai ales dacă
dispersia 
2
este tipică pentru mașina
respectivă, deci dacă în condiții normale ea este
aceeași. De aceea trebuie să se studieze
dispersia gramajului pentru mai multe suluri de
hârtie produse în schimburi și zile diferite.

S-au considerat 12 astfel de selecții. Din suluri


produse în schimburi și zile diferite s-a luat câte
o bandă de hârtie având o lungime de 40 metri.
Din metru în metru, de la mijlocul bandei, s-au
luat probe pentru determinarea gramajului.
Rezultatele s-au trecut în fișa alăturată.

Să se estimeze dispersia generală a gramajului



2
și să se elimine eventualele selecții
nesemnificative.

Rezolvare

1. Mediile de selecție x i :

x ij
j 1
xi 
n
2
2. Dispersiile de selecție si :

x 
n
2
ij
 xi
j 1
s i2 
n1
Sel. 1 2 3 4 5 6 7 8 9 10 11 12

xi 48,825 50,275 49,338 49,538 49,938 49,100 46,613 49,938 51,125 49,463 51,413 50,675

s i2 1,4824 0,9234 1,0701 0,4419 3,1188 1,7343 0,8791 0,8239 0,7350 1,0060 0,4483 0,6106

fi 39 39 39 39 39 39 39 39 39 39 39 39

3. Calculul lui c 5

Din tabel observăm că cea mai mare dispersie este cea corespunzătoare selecției 5, adică s 5  3, 1188 .
2

2
s5 3,1188
c5  k
  0,235
s i
2 13,2738
i 1

Pentru  0 ,05 , f = 39 ≈36 și k = 12, din tabelul 4 se găsește c0 ,05  0,14 .

8
Statistică aplicată în inginerie

Deoarece c  0,235 calculat este mai mare decât c0 ,05  0,14 , dispersia s 5  3, 1188 se exclude.
2

4. Calculul lui c 6

Din tabel observăm că cea mai mare dintre dispersiile rămase este cea corespunzătoare selecției 6, adică
s 6  1, 7343 .
2

2
s6 1,7343
c6    0,171
s1  s2  ...  sk
2 2 2
10,155

Pentru  0 ,05 , f = 39 ≈36 și k = 11, din tabelul 4 se găsește c0 ,05 0,15 .

Deoarece c6  0,171 calculat este mai mare decât c0 ,05 0,15 , dispersia s6 2  1,7343 = se exclude.

5. Calculul lui c1

Din tabel observăm că cea mai mare dintre dispersiile rămase este cea corespunzătoare selecției 1, adică
s1  1, 4824 .
2

2
s1 1,4824
c1    0,176
s1  s2  ...  sk
2 2 2
8,4207

Pentru  0 ,05 , f = 39 ≈36 și k = 10, din tabelul 4 se găsește c0 ,05 0,16 .

Deoarece c1  0,176 calculat este mai mare decât c0 ,05 0,16 , dispersia s1  1, 4824 se exclude.
2

6. Calculul lui c 3

Din tabel observăm că cea mai mare dintre dispersiile rămase este cea corespunzătoare selecției 3, adică
s 3  1, 0701 .
2

2
s1 1,0701
c3    0,154
s 2  ...  sk
2 2
6,9383

Pentru  0 ,05 , f = 39 ≈36 și k = 9, din tabelul 4 se găsește c0 ,05 0,18 .

Deoarece c3  0,154 calculat este mai mic decât deci dispersia s 3 = 1,0701 nu diferă semnificativ de celelalte
2

dispersii.

7. În concluzie putem spune că cele 9 dispersii rămase sunt omogene și ca atare sunt estimații ale uneia și aceleași
dispersii generale  , care va fi estimată ca media ponderată a acestora:
2

f s i i
2

39 9
6,9383
s 
2 i 1
k

9  39
s i
2
  0,7709
f i
i 1 9
i 1

  s  0,7709
2 2

9
Statistică aplicată în inginerie

3.11. CORELAȚII. COVARIANȚA ȘI COEFICIENTUL DE CORELAȚIE PEARSON

Covarianța oferă o măsură a gradului de corelație între două sau mai multe seturi de variabile
aleatorii. Covarianța pentru două variabile aleatorii X și Y, fiecare cu dimensiunea eșantionului
n, este definită de valoarea așteptărilor.
Se calculează cu relația:
n

x  x    y  y 
i i
cov(X,Y)  i1
, (3.80)
n1
unde n reprezintă volumul eșantionului.
Pentru variabile necorelate covarianța este 0.
În cazul în care variabilele sunt corelate într-o oarecare măsură, covarianța lor va fi diferită de
zero:
 Dacă cov(X,Y) > 0, atunci Y tinde să crească dacă crește X;
 Dacă cov(X,Y) < 0, atunci Y tinde să descrească dacă X crește;
 Dacă Y = X covarianța devine dispersie (varianță).
O posibilă corelație între două seturi de variabile aleatorii poate fi pusă în mai bine în evidență
prin coeficientul de corelație.
Coeficientul de corelație (Pearson) se utilizează atunci dorim să aflăm dacă între două variabile
din același eșantion există o corelație (relație) și care este intensitatea acesteia. Dacă corelația
există, se vor deosebi două feluri: pozitivă și negativă.
 Corelația este pozitivă atunci când creșterea valorilor unei variabile determină
creșterea valorilor celeilalte variabile;
 Corelație negativă apare atunci când creșterea valorilor unei variabile determină
scăderea valorilor pentru a doua variabilă;
Felul corelației se exprimă prin semnul coeficientului de corelație Pearson, r, iar intensitatea
legăturii dintre cele două variabile se exprimă prin valoarea acestuia.
Este de reținut faptul că valorile lui r pot varia doar în intervalul [-1, +1]:
 O valoare pozitivă a lui r demonstrează o corelație pozitivă între variabile, iar o valoarea
negativă o corelație negativă;
 Cu cât valoarea absolută a lui r este mai mare (tinde către 1), cu atât legătura dintre
variabile este mai puternică:
 pentru | r | < 0,3 corelația este foarte slabă;
 pentru | r | = 0,3÷0,5 corelația este slabă;
 pentru | r | = 0,5÷0,7 corelația este moderată;

10
Statistică aplicată în inginerie

 pentru | r | = 0,7÷0,9 corelația este puternică;


 pentru | r | = 0,9÷1 corelația este foarte puternică.
 Dacă valoarea lui r este nulă, se spune că cele două variabile nu sunt corelate sau că
sunt necorelate.
Expresia coeficientului de corelație este:
n n n

 zx  zy   xi  x    yi  y  x  x   y  y 
i i
r i1
 i1
 i1
, (3.81)
n  xi  x    yi  y 
2 2 n

x  x    y  y 
n 2 2
n 
i1 n n i1
i i

unde: r este coeficientul de corelație pentru variabilele X și Y;


xi  x
zx  este scorul (valoarea normată) z al variabilei X;
sx

yi  y
zy  este scorul (valoarea normată) z al variabilei Y;
sy

n reprezintă volumul eșantionului.


Exemplul 3. În tabelul următor sunt date rezultatele obținute de un eșantion de 9 studenți la un test aplicat pe
parcurs, respectiv nota finală la examen.

1. Să se determine media, mediana, modulul, dispersia de selecție și abaterea medie pătratică de selecție ale
variabilei test, respectiv notă finală;

2. Să se afle dacă rezultatele obținute de cei 9 studenți la testul aplicat pe parcurs au influențat notele lor
finale la examen.

Nr. de puncte obținute la test Nota la examen


(variabila X) (variabila Y)
230 8
310 10
250 9
310 10
150 7
180 7
80 6
350 10
230 8

Pentru calculul medie folosiți funcția AVERAGE, al medianei funcția MEDIAN, al modulului funcția MODE, al
dispersiei de selecție funcția VAR și al abaterii medie pătratice de selecție cu funcția STDEV, al covarianței cu
funcția COVAR, al coeficientului de corelație cu funcția CORREL sau PEARSON, din aplicația Excel.

Rezultate

11
Statistică aplicată în inginerie

Concluzie: deoarece coeficientul de corelație r  0,974 se poate aprecia că între variabila X = Nr. puncte obținute
la test și variabila Y = Nota la examen există o foarte bună corelație, ceea ce înseamnă că punctele obținute la
testul aplicat pe parcurs au influențat notele finale la examen

3.12. TESTUL KOLMOGOROV PENTRU VERIFICAREA CORESPONDENȚEI DINTRE DISTRIBUȚIA


EMPIRICĂ ȘI CEA TEORETICĂ

 x1 ,x 2 ,...,x k 
Să presupunem că avem distribuția empirică   și se face ipoteza că variabila X are
 n1 ,n2 ,...,nk 
o distribuție a cărei funcție de frecvență este f(x) (normală, binomială sau Poisson etc.).
Pași:
1. Se calculează frecvențele relative cumulate, adică valorile funcției de distribuție
empirice:

Fn  x1  ,Fn  x2  ,...,Fn  xk  , (3.82)

n1  n2  ...  ni
unde: Fn  xi   . (3.83)
n
2. Se calculează valorile funcției de distribuție teoretice F(x) corespunzătoare valorilor xi ,
(i = 1, 2,…, k),

F  x1  ,F  x2  ,...,F  xk  , (3.84)
x

unde: F  x   P  X  x    f  x dx . (3.85)




12
Statistică aplicată în inginerie

3. Dacă caracteristica X urmează legea de distribuție f(x), atunci frecvențele relative


cumulate (valorile funcției de distribuție empirice) Fn  xi  au valori apropiate de
valorile corespunzătoare ale funcției de distribuție teoretice F  xi  , respectiv se
calculează diferențele:

Fn  x1   F  x1  ; Fn  x2   F  x2  ;...; Fn  xk   F  xk  , (3.86)

Se găsește maximul acestor diferențe.


4. Pentru un nivel de semnificație (risc) α = 0,05:
1,36
1. Dacă dn  max Fn  x   F  x   se acceptă ipoteza că variabila X urmează legea
n
de distribuție teoretică f(x);
1,36
2. Dacă dn  max Fn  x   F  x   se respinge ipoteza că variabila X urmează legea
n
de distribuție considerată f(x).
5. Pentru un nivel de semnificație (risc) α = 0,01:
1,63
1. Dacă dn  max Fn  x   F  x   se acceptă ipoteza că variabila X urmează legea
n
de distribuție teoretică f(x);
1,63
2. Dacă dn  max Fn  x   F  x   se respinge ipoteza că variabila X urmează legea
n
de distribuție considerată f(x).
Exemplul 4. S-a cercetat un lot de 130 de șarje de fontă maleabilă albă ( ] FR. ABS.
din punct de vedere al conținutului de carbon. 1,70 1,80 1
Rezultatele determinărilor, grupate în 11 clase sunt prezentate în 1,80 1,90 6
tabelul alăturat. 1,90 2,00 6
Să se verifice cu ajutorul criteriului lui Kolmogorov normalitatea 2,00 2,10 8
distribuției. 2,10 2,20 14
2,20 2,30 34
Rezolvare
2,30 2,40 28
Calculele s-au realizat în Excel (fișier CURS 7.xlsx). 2,40 2,50 19
2,50 2,60 9
2,60 2,70 4
2,70 2,80 1

13
Statistică aplicată în inginerie

BIBLIOGRAFIE

1. *** Probabilități și statistică, www.edumanager.ro


2. Bulgaru, M., Elemente de teoria probabilităților, www.cermi.utcluj.ro
3. Pop, M., ș.a., Probabilități și statistică-teorie și aplicații, Editura RISOPRINT, Cluj-Napoca,
2008
4. Rancu, N., Tovissi, L., Statistică matematică cu aplicații în producție, Editura Academiei
Române, 1963

14

S-ar putea să vă placă și