Documente Academic
Documente Profesional
Documente Cultură
CURS 7
Dacă în șirul de valori există rezultate extreme care sunt mult diferite față de marea
majoritate a celorlalte rezultate, este necesar să se analizeze oportunitatea eliminării acestora
în faza de prelucrare statistică. Aceasta operație se face pe baza unor teste care impun
alegerea unei probabilități funcție de care se ia decizia de păstrare sau eliminare a lor.
Verificarea șirurilor de date sau a eșantionului obținut poartă denumirea de analiză critică a
datelor, testele cele mai utilizate fiind testele GRUBBS, DIXON, ROMANOWSKI și IQR.
x x1 x x
g ; g n , (3.75)
s s
n
x i
în care: x i1
este media șirului de date,
n
n
x x
2
i
s i1
este abaterea medie pătratică de selecție.
n1
Dacă valoarea g calculată cu una din formulele (3.75) este mai mare decât valoarea critică gcritic
(din tabelul 1) pentru un nivel de risc α (uzual α=0,05), valoarea extremă considerată se
elimină din șirul de date.
În caz contrar, se impune concluzia că nu există motive suficiente pentru eliminarea valorii
respective.
Dacă valoarea a fost eliminată, se repetă algoritmul pentru cele n 1 valori rămase până
când nu mai sunt eliminate date ale șirului.
1
Statistică aplicată în inginerie
Tabelul 1
Riscul Riscul Riscul
n n n
α=0,05 α=0,01 α=0,05 α=0,01 α=0,05 α=0,01
3 1,1531 1,1546 15 2,4090 2,7049 80 3,1319 3,5208
4 1,4625 1,4925 16 2,4433 2,7470 90 3,1733 3,5632
5 1,6714 1,7489 17 2,4748 2,7854 100 3,2095 3,6002
6 1,8221 1,9442 18 2,5040 2,8208 120 3,2706 3,6619
7 1,9381 2,0973 19 2,5312 2,8535 140 3,3208 3,7121
8 2,0317 2,2208 20 2,5566 2,8838 160 3,3633 3,7542
9 2,1096 2,3231 25 2,6629 3,0086 180 3,4001 3,7904
10 2,1761 2,4097 30 2,7451 3,1029 200 3,4324 3,8220
11 2,2339 2,4843 40 2,8675 3,2395 300 3,5525 3,9385
12 2,2850 2,5494 50 2,9570 3,3366 400 3,6339 4,0166
13 2,3305 2,6070 60 3,0269 3,4111 500 3,6952 4,0749
14 2,3717 2,6585 70 3,0839 3,4710 600 3,7442 4,1214
x 2 x1 x x
q ; q n n1 , (3.76)
xn x1 xn x1
Dacă valoarea q calculată cu una din formulele (3.76) este mai mare decât valoarea critică
qcritic (din tabelul 2) pentru un nivel de risc α (uzual α=0,05), valoarea extremă considerată se
elimină din șirul de date.
În caz contrar, se impune concluzia că nu există motive suficiente pentru eliminarea valorii
testate.
Dacă valoarea a fost eliminată, se repetă algoritmul pentru cele n 1 valori rămase până
când nu mai sunt eliminate date ale șirului.
2
Statistică aplicată în inginerie
Tabelul 2
Riscul
n
α=0,05 α=0,04 α=0,02 α=0,01
3 0,970 0,976 0,988 0,994
4 0,829 0,846 0,889 0,926
5 0,710 0,729 0,780 0,821
6 0,625 0,644 0,698 0,740
7 0,568 0,586 0,637 0,680
8 0,526 0,543 0,590 0,634
9 0,493 0,510 0,555 0,598
10 0,466 0,483 0,527 0,568
x x1 x x Tabelul 3
t ; t n , (3.77)
n n
s s
n1 n1
n n1
xi x i
în care: x i 2
sau x i1
,
n1 n 1
n n1
xi x x x
2 2
i
s i 2
sau s i1
.
n2 n2
!!! din calculul mediei și abaterii standard se exclude valoarea
testată.
Dacă valoarea t calculată cu una din formulele (3.77) este mai mare
decât valoarea critică tcritic (din tabelul 3) pentru un nivel de risc α
(uzual α=0,05), valoarea extremă considerată se elimină din șirul de
date. În caz contrar, se impune concluzia că nu există motive
suficiente de eliminare a valorii testate.
3
Statistică aplicată în inginerie
Dacă valoarea a fost eliminată, se repetă algoritmul pentru cele n 1 valori rămase până
când nu mai sunt eliminate date ale șirului.
Conform definiției, mediana împarte volumul colectivității în două părți egale (valorile din șir
sunt ordonate crescător). Noțiunea de mediană poate fi extinsă. Astfel putem considera valorile
variabilei care împart volumul colectivității în patru părți egale (valorile variabilei care împart
volumul colectivității se numesc quantile). Există în acest caz trei valori ale căror numere de
n n 3 n
ordine sunt: ; ; .
4 2 4
n
Valoarea variabilei care are numărul de ordine egal cu poartă numele de quantilul 1 (Q1).
4
n
Valoarea variabilei care are numărul de ordine egal cu poartă numele de mediană (Me, Q2).
2
3 n
Valoarea variabilei care are numărul de ordine egal cu poartă numele de quantilul 3 (Q3).
4
Ca urmare a definiției, putem spune și că mediana este valoarea căreia îi corespunde o
frecvență relativă cumulată egală cu 0,5. Generalizând această observație, quantilul se poate
defini ca fiind valoarea variabilei căreia îi corespunde o frecvență relativă cumulată dată.
Astfel Q1 reprezintă valoarea variabilei căreia îi corespunde o frecvență relativă cumulată
egală cu 0,25, iar Q3 reprezintă valoarea variabilei căreia îi corespunde o frecvență relativă
cumulată egală cu 0,75.
Valorile mai mici de Q1 – 1,5·IQR, respectiv mai mari decât Q3 + 1,5·IQR se elimină din șirul de
date.
4
Statistică aplicată în inginerie
6,90; 6,90; 6,95; 7,00; 7,05; 7,05; 7,05; 7,10; 7,10; 7,15; 7,20; 7,20; 7,20; 7,20; 7,20; 7,20; 7,25; 7,25; 7,40; 7,40;
7,50; 7,65
4. se calculează statistica g:
xn x 7,65 7,177
g 2,52
s 0,1875
8. deoarece g 2,52 g 0 ,05;22 2,6 valoarea 7,65 nu se exclude din setul de date.
Testul IQR
6,90; 6,90; 6,95; 7,00; 7,05; 7,05; 7,05; 7,10; 7,10; 7,15; 7,20; 7,20; 7,20; 7,20; 7,20; 7,20; 7,25; 7,25; 7,40; 7,40;
7,50; 7,65
3. se calculează IQR
4. Q1 – 1,5·IQR = 7,05 – 1,5·0,20 = 6,75 (nu există valori mai mici de 6,85)
Q3 + 1,5·IQR = 7,25 + 1,5·0,20 = 7,55 deci se elimină ultima valoare din șir (7,65 > 7,55)
5
Statistică aplicată în inginerie
Adesea procesele studiate permit extragerea doar a unor selecții compuse dintr-un număr
relativ mic de unități. De aceea estimarea dispersiei generale 2 trebuie să se facă pe baza mai
multor dispersii de selecție si2 .
Fie s12 , s22 , …, sk 2 , k dispersii de selecție obținute pe baza datelor a k selecții compuse din
același număr de unități, n. Potrivit teoremei adunării pentru distribuția dispersiei, dispersia
generală 2 se poate calcula ca o medie a dispersiilor de selecție si2 ponderate cu numărul
gradelor de libertate respective fi numai dacă dispersiile de selecție sunt omogene, adică sunt
estimațiile uneia și aceleiași dispersii generale ( s12 s22 .... sk 2 2 ):
k
f s i i
2
2 s2 i1
k
(3.78)
f
i1
i
Testul (criteriul) lui Cochran se aplică indiferent de numărul de selecții (k) avut la dispoziție în
scopul eliminării dispersiei de selecție care diferă semnificativ de celelalte (testarea celei mai
mari dispersii).
Statistica de testare, c, se calculează cu formula:
max si2
c k
. (3.79)
s
i1
i
2
Se compară valoare statisticii c din datele cercetării cu valoarea lui cα corespunzătoare riscului
α = 0,05; f = n – 1 și k (tabelul 4), respectiv riscului α = 0,01; f = n – 1 și k (tabelul 5):
a) dacă c c0,05 se consideră că dispersia are valoarea mare datorită întâmplării și prin
urmare se utilizează la calculul dispersiei s 2 ;
b) dacă c0,05 c c0 ,01 se pune la îndoială faptul că valoarea mare a dispersiei ar fi
întâmplătoare; pentru mai multă siguranță este preferabil să se renunțe la această
dispersie, adică să nu fie utilizată la calculul dispersiei s 2 ;
c) dacă c c0,01 se consideră că dispersia are o valoare mare care nu se poate pune pe
seama întâmplării și ca atare se exclude de la calculul dispersiei s 2 .
6
Statistică aplicată în inginerie
Tabelul 4
Tabelul 5
7
Statistică aplicată în inginerie
Rezolvare
1. Mediile de selecție x i :
x ij
j 1
xi
n
2
2. Dispersiile de selecție si :
x
n
2
ij
xi
j 1
s i2
n1
Sel. 1 2 3 4 5 6 7 8 9 10 11 12
xi 48,825 50,275 49,338 49,538 49,938 49,100 46,613 49,938 51,125 49,463 51,413 50,675
s i2 1,4824 0,9234 1,0701 0,4419 3,1188 1,7343 0,8791 0,8239 0,7350 1,0060 0,4483 0,6106
fi 39 39 39 39 39 39 39 39 39 39 39 39
3. Calculul lui c 5
Din tabel observăm că cea mai mare dispersie este cea corespunzătoare selecției 5, adică s 5 3, 1188 .
2
2
s5 3,1188
c5 k
0,235
s i
2 13,2738
i 1
8
Statistică aplicată în inginerie
Deoarece c 0,235 calculat este mai mare decât c0 ,05 0,14 , dispersia s 5 3, 1188 se exclude.
2
4. Calculul lui c 6
Din tabel observăm că cea mai mare dintre dispersiile rămase este cea corespunzătoare selecției 6, adică
s 6 1, 7343 .
2
2
s6 1,7343
c6 0,171
s1 s2 ... sk
2 2 2
10,155
Deoarece c6 0,171 calculat este mai mare decât c0 ,05 0,15 , dispersia s6 2 1,7343 = se exclude.
5. Calculul lui c1
Din tabel observăm că cea mai mare dintre dispersiile rămase este cea corespunzătoare selecției 1, adică
s1 1, 4824 .
2
2
s1 1,4824
c1 0,176
s1 s2 ... sk
2 2 2
8,4207
Deoarece c1 0,176 calculat este mai mare decât c0 ,05 0,16 , dispersia s1 1, 4824 se exclude.
2
6. Calculul lui c 3
Din tabel observăm că cea mai mare dintre dispersiile rămase este cea corespunzătoare selecției 3, adică
s 3 1, 0701 .
2
2
s1 1,0701
c3 0,154
s 2 ... sk
2 2
6,9383
Deoarece c3 0,154 calculat este mai mic decât deci dispersia s 3 = 1,0701 nu diferă semnificativ de celelalte
2
dispersii.
7. În concluzie putem spune că cele 9 dispersii rămase sunt omogene și ca atare sunt estimații ale uneia și aceleași
dispersii generale , care va fi estimată ca media ponderată a acestora:
2
f s i i
2
39 9
6,9383
s
2 i 1
k
9 39
s i
2
0,7709
f i
i 1 9
i 1
s 0,7709
2 2
9
Statistică aplicată în inginerie
Covarianța oferă o măsură a gradului de corelație între două sau mai multe seturi de variabile
aleatorii. Covarianța pentru două variabile aleatorii X și Y, fiecare cu dimensiunea eșantionului
n, este definită de valoarea așteptărilor.
Se calculează cu relația:
n
x x y y
i i
cov(X,Y) i1
, (3.80)
n1
unde n reprezintă volumul eșantionului.
Pentru variabile necorelate covarianța este 0.
În cazul în care variabilele sunt corelate într-o oarecare măsură, covarianța lor va fi diferită de
zero:
Dacă cov(X,Y) > 0, atunci Y tinde să crească dacă crește X;
Dacă cov(X,Y) < 0, atunci Y tinde să descrească dacă X crește;
Dacă Y = X covarianța devine dispersie (varianță).
O posibilă corelație între două seturi de variabile aleatorii poate fi pusă în mai bine în evidență
prin coeficientul de corelație.
Coeficientul de corelație (Pearson) se utilizează atunci dorim să aflăm dacă între două variabile
din același eșantion există o corelație (relație) și care este intensitatea acesteia. Dacă corelația
există, se vor deosebi două feluri: pozitivă și negativă.
Corelația este pozitivă atunci când creșterea valorilor unei variabile determină
creșterea valorilor celeilalte variabile;
Corelație negativă apare atunci când creșterea valorilor unei variabile determină
scăderea valorilor pentru a doua variabilă;
Felul corelației se exprimă prin semnul coeficientului de corelație Pearson, r, iar intensitatea
legăturii dintre cele două variabile se exprimă prin valoarea acestuia.
Este de reținut faptul că valorile lui r pot varia doar în intervalul [-1, +1]:
O valoare pozitivă a lui r demonstrează o corelație pozitivă între variabile, iar o valoarea
negativă o corelație negativă;
Cu cât valoarea absolută a lui r este mai mare (tinde către 1), cu atât legătura dintre
variabile este mai puternică:
pentru | r | < 0,3 corelația este foarte slabă;
pentru | r | = 0,3÷0,5 corelația este slabă;
pentru | r | = 0,5÷0,7 corelația este moderată;
10
Statistică aplicată în inginerie
zx zy xi x yi y x x y y
i i
r i1
i1
i1
, (3.81)
n xi x yi y
2 2 n
x x y y
n 2 2
n
i1 n n i1
i i
yi y
zy este scorul (valoarea normată) z al variabilei Y;
sy
1. Să se determine media, mediana, modulul, dispersia de selecție și abaterea medie pătratică de selecție ale
variabilei test, respectiv notă finală;
2. Să se afle dacă rezultatele obținute de cei 9 studenți la testul aplicat pe parcurs au influențat notele lor
finale la examen.
Pentru calculul medie folosiți funcția AVERAGE, al medianei funcția MEDIAN, al modulului funcția MODE, al
dispersiei de selecție funcția VAR și al abaterii medie pătratice de selecție cu funcția STDEV, al covarianței cu
funcția COVAR, al coeficientului de corelație cu funcția CORREL sau PEARSON, din aplicația Excel.
Rezultate
11
Statistică aplicată în inginerie
Concluzie: deoarece coeficientul de corelație r 0,974 se poate aprecia că între variabila X = Nr. puncte obținute
la test și variabila Y = Nota la examen există o foarte bună corelație, ceea ce înseamnă că punctele obținute la
testul aplicat pe parcurs au influențat notele finale la examen
x1 ,x 2 ,...,x k
Să presupunem că avem distribuția empirică și se face ipoteza că variabila X are
n1 ,n2 ,...,nk
o distribuție a cărei funcție de frecvență este f(x) (normală, binomială sau Poisson etc.).
Pași:
1. Se calculează frecvențele relative cumulate, adică valorile funcției de distribuție
empirice:
n1 n2 ... ni
unde: Fn xi . (3.83)
n
2. Se calculează valorile funcției de distribuție teoretice F(x) corespunzătoare valorilor xi ,
(i = 1, 2,…, k),
F x1 ,F x2 ,...,F xk , (3.84)
x
12
Statistică aplicată în inginerie
Fn x1 F x1 ; Fn x2 F x2 ;...; Fn xk F xk , (3.86)
13
Statistică aplicată în inginerie
BIBLIOGRAFIE
14