Documente Academic
Documente Profesional
Documente Cultură
Capitolul 5
Prin efectuarea unor măsurări asupra unei mărimi, a cărei valoare adevărată
este m, acestea vor fi afectate cel puţin de erorile aleatoare zi, şi în consecinţă,
rezultatele măsurărilor xi = m + zi, vor avea o distribuţie aleatoare. Dacă se repetă
de un anumit număr de ori, în condiţii identice, măsurarea mărimii m, se constată
că rezultatele xi ale măsurării şi implicit, erorile aleatoare zi, posedă o serie de
proprietăţi, ce sunt considerate principii, după cum urmează:
• Principiul cauzal:
Erorile aleatoare zi mici, în valoare absolută, sunt mai frecvente decât erorile
aleatoare zi mari, în valoare absolută.
• Principiul limitativ:
Toate erorile aleatoare sunt mai mici decât un anumit nivel, care ar corespunde
erorii datorate tuturor cauzelor de erori.
• Principiul distributiv:
Dacă numărul măsurărilor n este suficient de mare, se constată că numărul
erorilor negative este egal cu numărul erorilor pozitive, suma algebrică a erorilor
aleatoare fiind foarte mică.
• Principiul probabilistic:
Probabilitatea să apară o anumită eroare aleatoare, prin efectuarea unei
măsurări, depinde numai de valoarea absolută a erorii.
Cele patru principii fundamentale proprii erorilor aleatoare sunt satisfăcute de o
funcţie specifică – densitatea de probabilitate a repartiţiei erorilor aleatoare, cu
următoarea formă analitică:
f x px
1
e xm /2σ
2 2
(5.1)
σ 2π
5
Gabriel Gorghiu, Laura Monica Gorghiu
f(x) f(x)
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
6
Prelucrări de date.Teorie şi aplicaţii.
• Testul 2 este testul statistic în care statistica folosită urmează repartiţia 2.
Acesta este folosit în mod special în următoarele cazuri:
• verificarea egalităţii dintre dispersia unei populaţii normale şi o valoare
specificată, pornind de la dispersia estimată pe un eşantion prelevat din această
populaţie;
• comparaţia între efectivele observate şi cele teoretice corespunzătoare unei
repartiţii specificate apriori sau definite pornind de la valorile observate;
• ca test de independenţă şi omogenitate.
• Testul Student (t) este testul statistic în care statistica folosită urmează o
repartiţie Student. Acest test este utilizat în mod special în următoarele cazuri:
• ca test de egalitate între media unei populaţii normale şi o valoare specificată,
pornind de la media observată pe un eşantion prelevat din această populaţie,
dispersia populaţiei fiind estimată pe acest eşantion;
• ca test de egalitate a mediilor a două populaţii normale de aceeaşi dispersie,
pornind de la mediile observate pe două eşantioane independente, prelevate din
aceste populaţii, dispersia comună fiind estimată pe aceste eşantioane;
• ca test asupra valorii unui coeficient de regresie liniară sau a unui coeficient
de corelaţie.
• Testul Fisher (F) este testul statistic în care statistica folosită urmează o
repartiţie Fisher. Acest test este utilizat în mod special în următoarele cazuri:
• compararea dispersiilor a două populaţii normale, pornind de la dispersiile
estimate pe două eşantioane independente, prelevate din aceste populaţii;
• ca test ce intervine în analiza dispersiilor.
7
Gabriel Gorghiu, Laura Monica Gorghiu
8
Prelucrări de date.Teorie şi aplicaţii.
9
Gabriel Gorghiu, Laura Monica Gorghiu
Criteriul Student se aplică în situaţia în care în urma măsurării s-a obţinut şirul
de n date cu valorile xi, şi se doreşte verficarea valorii x*, suspectă de a fi afectată
de erori aberante. În acest caz, după determinarea mediei x şi dispersiei s2 a
celorlalte n - 1 valori, se poate calcula:
x* x
t calc (5.3)
s
Valoarea tcalc se compară cu o valoare tabelată ttab,n,, care depinde de numărul
de valori din şir (n) şi de pragul de semnificaţie ales ().
Dacă tcalc > ttab, rezultă (cu o certitudine P = 1 - ), că rezultatul x* este afectat
de eroare aberantă şi trebuie eliminat, confirmându-se ipoteza de nul (H0). În caz
contrar, nu sunt suficiente motive pentru eliminarea valorii respective, deci ipoteza
alternativă (H1) este cea adevarată.
10
Prelucrări de date.Teorie şi aplicaţii.
În plus, testul 2 este cel mai important şi utilizat test statistic dintre cele
folosite la verificarea normalităţii repartiţiei datelor. Metodologia de calcul
parcursă de acest test este prezentată în continuare:
• se precizează ipoteza de nul, H0: distribuţia datelor nu este normală;
• se precizează ipoteza alternativă, H1: distribuţia datelor este normală;
• se grupează cele n date experimentale pe intervale de forma (xi–1, xi], astfel
încât intervalele să ocupe întreaga axă reală (–, +), iar în fiecare interval
numărul de date trebuie să fie suficient de mare (de regulă, mai mare de cinci);
• se stabileşte numărul ni de rezultate ale măsurării ce aparţin fiecărui interval
(xi–1, xi];
• se calculează probabilitatea pi de a aparţine intervalului (xi–1, xi], în ipoteza de
normalitate a repartiţiei:
pi φ i
x x x x
φ i 1
(5.4)
s s
în care x respectiv s reprezintă media aritmetică respectiv dispersia empirică
calculate pentru toate cele n măsurări; mărimea se numeşte probabilitate
integrală, iar relaţia de calcul împreună cu valorile tabelate sunt prezentate în
Anexa I;
• se calculează suma:
χ 2
I
ni Npi 2
calc (5.5)
Npi
i 1
în care I este numărul de intervale în care a fost împărţită axa reală;
• se compară 2calc cu 2tab; dacă 2calc > 2tab, în care 2tab se alege din Anexa II,
pentru un anumit prag de semnificaţie şi pentru un anumit număr de grade de
libertate k = I – 3; atunci, cu o siguranţă P = 1 - , se poate considera că funcţia de
repartiţie a rezultatelor măsurărilor diferă de cea normală, adică ipoteza de nul (H0)
se confirmă; în caz contrar, nu există suficiente argumente pentru o astfel de
concluzie şi se acceptă ipoteza alternativă (H1).
Totuşi, trebuie menţionate câteva observaţii referitoare la testul 2:
• Metodologia prezentată nu poate servi drept demonstraţie a normalităţii
repartiţiei, chiar dacă ipoteza că distribuţia datelor de măsurare nu diferă de cea
normală, se acceptă cu o anumită probabilitate.
• În general, cu cât numărul datelor este mai mare, certitudinea concluziei
formulată pe baza testului 2 creşte.
• Testul 2 are o mare putere de discriminare în cazul unor repartiţii intens
asimetrice şi este mai puţin eficient când repartiţia este simetrică, dar diferă de cea
normală.
11
Gabriel Gorghiu, Laura Monica Gorghiu
12
Prelucrări de date.Teorie şi aplicaţii.
măsurărilor nu depăşeşte cu mai mult de trei ori eroarea medie pătratică a acestei
valori medii. Conform acestei condiţii, siguranţa estimaţiei este fixată la valoarea
P=0,9973.
• Pentru a atinge un interval de încredere ce are amplitudinea e, ţinând cont de
faptul că se poate mări precizia estimaţiei prin mărirea numărului de măsurări,
chiar în condiţiile păstrării neschimbate a preciziei acestora, se poate estima
numărul necesar de măsurări, dacă se adoptă următoarea valoare a raportului:
e
q (5.11)
s
În acest caz, pentru un nivel de încredere = 1 – P ales şi pentru un q impus,
rezultă din tabele specifice (de exemplu, tabelul 5.1.) numărul necesar de măsurări
pentru atingerea intervalului de încredere cu amplitudinea e.
În practică, se aplică deseori regula prin care, păstrând precizia măsurărilor
constantă, pentru micşorarea intervalului de încredere de h ori, este necesară
mărirea numărului de măsurări de h2 ori.
În situaţia în care se efectuează măsurări în condiţii diferite (cu aparate sau prin
metode diferite etc.), apare problema comparării preciziei măsurărilor.
Pentru a rezolva această problemă se compară dispersiile empirice ale şirurilor
respective de date experimentale şi se precizează dacă acestea diferă sau nu
semnificativ. Repartiţia datelor în şirurile de măsurări trebuie să fie normală,
ipoteză ce se verifică în prealabil.
Fie două şiruri de date experimentale: x’1, x’2, ..., x’n1 şi respectiv x”1, x”2, ..., x”n2,
ale căror dispersii empirice sunt s21 şi s22.
13
Gabriel Gorghiu, Laura Monica Gorghiu
Dacă se presupune că s21 > s22, se poate calcula următorul raport (testul Fisher):
s12
Fcalc 2 (5.12)
s2
În acest caz, se poate specifica următoarea ipoteză de nul (H0): dispersiile
diferă semnificativ.
Din tabele adecvate se alege valoarea criteriului Fisher, Ftab, în funcţie de
numărul de grade de libertate 1 = n1 – 1 şi 2 = n2 – 1 şi în funcţie de pragul de
semnificaţie ales, . Valorile repartiţiei Fisher pentru diferite perechi de grade de
libertate şi praguri de semnificaţie sunt prezentate în Anexa IV.
În situaţia în care Fcalc > Ftab, cu o siguranţă a estimaţiei P = 1 - , se poate
afirma că diferenţa dintre cele două dispersii este semnificativă, deci se confirmă
ipoteza de nul (H0). În caz contrar, se consideră că diferenţa este nesemnificativă şi
ca atare, cele două metode de măsurare sau aparate au precizii comparabile.
dispersii, deci se confirmă ipoteza de nul (H0). În caz contrar, nu sunt suficiente
argumente pentru o astfel de afirmaţie, deci se acceptă ipoteza alternativă (H1).
14
Prelucrări de date.Teorie şi aplicaţii.
15
Gabriel Gorghiu, Laura Monica Gorghiu
16
Prelucrări de date.Teorie şi aplicaţii.
EFECT
Zgomot
x3 x1 x9 x20 x7 x14 x8 x5 x6
Factori influenţă, x
17
Gabriel Gorghiu, Laura Monica Gorghiu
18
Prelucrări de date.Teorie şi aplicaţii.
19
Gabriel Gorghiu, Laura Monica Gorghiu
20
Prelucrări de date.Teorie şi aplicaţii.
Q j 1 Q j 2
6 k
rs 1 3
2
(5.16)
k k j 1
în care: simbolul (1) se referă la datele din tabelul primar, iar simbolul (2) la
datele din tabelul secundar; Q j 1 1 este rangul atribuit factorului j (j = 1,...,k)
care în tabelul primar are suma A j minimă iar, Q j 1 2 , Q j 1 3 etc. sunt
rangurile atribuite factorilor următori, în ordinea crescătoare a valorilor A j . În mod
similar, sunt atribuite rangurile Q j 2 2 , Q j 2 3 etc., corespunzător tabelului
secundar cu date corectate.
Astfel, se compară ierarhizarea furnizată de tabelul primar cu cea furnizată de
tabelul secundar. Dacă valoarea lui rs este apropiată de 1, rezultatele (ierarhizarea)
tabelului secundar sunt în concordanţă cu cele ale tabelului primar. Dacă rs = 0,
atunci nu există concordanţă între rezultatele din cele două tabele. Dacă rs = -1,
rezultatele celor două tabele sunt contradictorii. În ultimele două situaţii,
experimentul trebuie reluat, prelucrarea rezultatelor neputându-se realiza în mod
corespunzător cu datele avute la dispoziţie.
Atunci cînd între rezultate există concordanţă, prelucrarea datelor se va face -
în continuare - numai folosind tabelul secundar.
5. Verificarea gradului de concordanţă între punctele de vedere exprimate de
specialişti. Această operaţie se realizează cu ajutorul coeficientului de consens, w,
exprimat cu următoarea relaţie:
k
Δ
j 1
2
j
w 12 (5.17)
m
m 2 k 3 k m Ti
i 1
în care:
m
1 k m
Δj aij aij (5.18)
i 1 k j 1 i 1
şi:
21
Gabriel Gorghiu, Laura Monica Gorghiu
k
T1 t 3j t j , i = 1,...,m (5.19)
j 1
În practică pot apare diferite situaţii calitativ diferite, ilustrate în figurile 5.3.,
5.4. şi 5.5.:
• histogramele de tipul prezentat în figura 5.3 favorizează gruparea factorilor
după influenţa exercitată şi eliminarea factorilor nesemnificativi;
• histogramele de tipul prezentat în figura 5.4 arată imposibilitatea specialiştilor
de a pune în evidenţă factorii semnificativi;
• histogramele de tipul prezentat în figura 5.5 sunt întâlnite în cazul proceselor
complexe, cu factori de influenţă apropiată sau insuficient cunoscută.
22
Prelucrări de date.Teorie şi aplicaţii.
23
Gabriel Gorghiu, Laura Monica Gorghiu
Acest tip de analiză se foloseşte pentru a testa influenţa unui singur factor, x,
asupra funcţiei de răspuns y, verificându-se dacă acesta este un factor tehnologic
(sistematic) sau un factor aleator.
Factorului x i se atribuie m nivele din domeniul său de reglare (x1, x2, …, xm),
pentru fiecare nivel efectuându-se n replici şi rezultând valorile măsurate yij. În
tabelul 5.4. este prezentată matricea-program a experimentului. În figura 5.6 este
ilustrată reprezentarea grafică a modelului experimentului matematic unifactorial,
în care se observă că fiecare valoare măsurată yij a funcţiei de răspuns prezintă
următoarele trei componente:
• - efectul global al tuturor încercărilor asupra valorii yij;
• i - efectul factorului x situat pe nivelul concret xi;
• ij – abaterea măsurării (eroarea aleatoare) faţă de centrul de grupare i;
Între componentele prezentate există următoarea relaţie:
yij μ αi εij (5.24)
24
Prelucrări de date.Teorie şi aplicaţii.
m
FUNCŢIE DE RĂSPUNS
ij
ij i Yij
x1 x2 xi xm
NIVEL FACTOR X
25
Gabriel Gorghiu, Laura Monica Gorghiu
26
Prelucrări de date.Teorie şi aplicaţii.
s2
Fcalc (5.30)
s02
S1 S 3
s 2 0 s0 2
s0
2
S1 S 3 υ0 mn 1 s0
2
Dispersia totală
0 0
În cazul în care Fcalc > Ftab, pentru un prag de semnificaţie = 0,05, şi număr
de grade de libertate = m – 1, respectiv 0 = m(n – 1), atunci se poate considera,
cu o siguranţă P=1– că ipoteza de nul (H0) se acceptă, deci factorul x are o
influenţă semnificativă asupra funcţiei de răspuns y. Dispersia corespunzătoare
acestui factor se determină cu relaţia:
s 2 s02
s x2 (5.31)
n
Dacă Fcalc Ftab, se consideră că factorul x are o influenţă nesemnificativă
asupra funcţiei de răspuns y. În această situaţie, dispersia reproductibilităţii este
caracterizată cel mai bine de mărimea s02. Valorile repartiţiei Fisher pentru diferite
perechi de grade de libertate şi praguri de semnificaţie sunt prezentate în Anexa IV.
Observaţiile care trebuie menţionate în legătură cu metoda dispersională
unifactorială sunt următoarele:
• s02 reprezintă media aritmetică a dispersiilor si2;
• întreg şirul de calcule s-a efectuat în ipoteza că dispersiile pe coloane si2, sunt
omogene; dacă nu există certitudine în această privinţă, ipoteza omogenităţii
dispersiilor trebuie verificată cu ajutorul criteriului Cochran, iar dacă această
ipoteză nu se verifică, vor trebui repetate determinările din coloana
corespunzătoare dispersiei maxime;
• analiza dispersională este aplicabilă (cu adaptări corespunzătoare ale relaţiilor
de calcul) şi atunci când numărul de replici este diferit pentru diversele nivele ale
factorului x.
• în cazul în care rezultatele analizei dispersionale concluzionează că factorul
analizat este un parametru tehnologic (Fcalc > Ftab), atunci trebuie precizat care
27
Gabriel Gorghiu, Laura Monica Gorghiu
nivele ale factorului x se deosebesc sau care dintre valorile medii yi diferă
semnificativ. Această testare se foloseşte la stabilirea intervalului de variaţie a
factorului x analizat.
Acest tip de analiză se utilizează pentru a testa simultan influenţa unui număr
mai mare de factori, în acest sens, programându-se un experiment, în care fiecare
dintre factorii consideraţi sunt modificaţi pe anumite nivele.
Dacă la fiecare combinaţie de nivele, se efectuează o singură determinare,
rezultatele măsurărilor pot fi prezentate într-o matrice de tipul prezentat în tabelul 5.7.
28
Prelucrări de date.Teorie şi aplicaţii.
29
Gabriel Gorghiu, Laura Monica Gorghiu
considerat s-a găsit pe un nivel dat (un exemplu este ilustrat în figura 5.7).
Graficul este util pentru a oferi o imagine intuitivă a influenţei factorilor şi pentru
a realiza selecţia vizuală a factorilor semnificativi.
Yi
Y X1,1 Y X i,3
DVX1 Y X1,2 Y X 2,2
Y X i,2
DVX2 Y X i,1 DVX3
Y X 2,3
Y X 2,1 Y X i, 4
Y X k ,2
FUNCŢIE DE RĂSPUNS
DVX4
Y X k,1
1 2 1 2 3 1 2 3 4 1 2
NIVELE
x1 x2 …………… xi …………… xk
FACTORI
Fig. 5.7 – Valorile funcţiei de răspuns pentru fiecare nivel al factorilor existenţi
30
Prelucrări de date.Teorie şi aplicaţii.
2 y x1, 2 y x 2,2 … y xj , 2 … y xk , 2
3 - y x 2,3 … y xj , 3 … -
4 - - … y xj , 4 … -
Domeniu DV x1 DVx2 … DV x j … DVxk
de variaţie
31
Gabriel Gorghiu, Laura Monica Gorghiu
5.10.1. Generalităţi
32
Prelucrări de date.Teorie şi aplicaţii.
33
Gabriel Gorghiu, Laura Monica Gorghiu
f f f
y f x; b10 ,..., bm 0
b1
b2 ... bm (5.42)
1 b b0
b 2 b b0
b b2 b b0
cu condiţia ca Δbk k 1,m să fie suficient de mici. Utilizând această
proprietate, regresia neliniară poate fi efectuată în acelaşi mod ca regresia liniară,
în cazul în care iniţial se cunoaşte sau se poate determina o estimaţie suficient de
bună a valorilor parametrilor modelului.
Folosind această proprietate, regresia neliniară poate fi efectuată în acelaşi mod
ca regresia liniară, în cazul în care iniţial se cunoaşte sau se poate determina o
estimaţie suficient de bună a valorilor parametrilor modelului.
De exemplu, în diverse analize chimice, se utilizează frecvent ca modele
monoparametrice neliniare următoarele funcţii:
• funcţii exponenţiale:
y b1expb2 x (5.43)
care descriu funcţiile de răspuns ale diverselor instrumente analitice după
aplicarea unui semnal în formă de treaptă;
• funcţii putere:
y b1 x b2 (5.44)
care descriu intensitatea liniilor spectrale în spectrometria de emisie;
• funcţii logaritmice:
y b1 b2 log x (5.45)
care descriu răspunsul electrozilor ioni selectivi;
• funcţii de tip Gauss:
y b1 exp [b2 x b3 ]
2
(5.46)
care descriu forma picurilor cromatografice;
• funcţii de tip Lorentz:
b1
y
1 b2 x b3
2 (5.47)
În această etapă trebuie interpretată într-un mod foarte clar relaţia 5.35,
stabilindu-se totodată şi numărul de parametri ai modelului (constantele bk). De
34
Prelucrări de date.Teorie şi aplicaţii.
multe ori, modelul matematic adoptat este sugerat de o serie de legi fizice
particulare cazului studiat.
Pentru identificarea tipurilor de interferenţe care afectează o anumită metodă
de analiză, se compară rezultatele obţinute cu metoda studiată (yi) cu rezultatele
obţinute, pentru aceleaşi probe, cu o metodă de referinţă considerată (xi). În aceste
cazuri este foarte probabil să se respecte un model liniar de forma (5.36).
Valorile estimate ale parametrilor furnizează următoarele informaţii:
• dacă b0 = 0 şi b1 = 1, metoda studiată este exactă;
• dacă b0 0 şi b1 = 1, metoda de analiză este afectată de o eroare sistematică
de tip aditiv, şi pentru obţinerea rezultatului corect, b0 trebuie scăzut din rezultatul
determinat;
• dacă b0 = 0 şi b1 1, metoda este afectată de o eroare de tip multiplicativ şi
pentru obţinerea rezultatului corect se poate aplica metoda adiţiilor standard;
• dacă b0 0 şi b1 1, metoda este afectată atât de erori de tip aditiv cât şi
multiplicativ.
Atunci când nu se cunoaşte relaţia dintre factorii de optimizat şi răspuns,
pentru optimizarea parametrilor de lucru se foloseşte modelarea empirică. Pentru a
putea utiliza regresia monovariabilă liniară, se presupun următoarele relaţii între
perechile de date experimentale, (y1, x1), (y2, x2), …, (yn, xn) măsurate în condiţii
reale:
y1 b0 b1 x1 e1
y b b x e
2 0 1 2 2
(5.48)
.......... .......... ........
y n b0 b1 x n en
Dacă se notează cu y, b, e şi X vectorii coloană ai măsurătorilor, parametrilor,
erorilor şi respectiv matricea variabilelor independente, sistemul (5.48) poate fi
scris în forma matriceală:
y Xb e (5.49)
unde:
y1 e1 1 x1
y2 b0 e2 1 x2
y ... ; b ; e ... ; X ... ... (5.50)
... b1
... ... ...
y e 1 x
n n n
35
Gabriel Gorghiu, Laura Monica Gorghiu
1 1 ... 1
X T (5.52)
x1 x2 ... xn
În analiza de regresie se aplică algebra matriceală deoarece prezintă avantajul
scrierii ecuaţiilor într-o formă generală aplicabilă tuturor problemelor şi uşor de
transpus într-un program de calcul.
36
Prelucrări de date.Teorie şi aplicaţii.
Ideea de bază a regresiei ponderate prin metoda celor mai mici pătrate este de a
atribui cea mai mare importanţă datelor măsurate cu cea mai mare precizie, acest
lucru însemnând practic că o problemă va fi dată de estimarea corectă a factorilor
de pondere, fiind necesar un număr mare de repetări ale experimentelor.
37
Gabriel Gorghiu, Laura Monica Gorghiu
y y y
38
Prelucrări de date.Teorie şi aplicaţii.
39
Gabriel Gorghiu, Laura Monica Gorghiu
F
q 1 (5.64)
SS R2
n q
Dacă F < Fn, N n , unde n şi N-n reprezintă gradele de libertate corespunzătoare,
iar este nivelul de semnificaţie al testului, atunci se poate admite, cu
probabilitatea P = 1 - , că modelul de regresie analizat exprimă corect relaţia
deterministă dintre variabilele dependente şi independente.
Pentru exemplificare, se prezintă analiza de varianţă – ANOVA în cazul analizei
de regresie liniară:
y b0 b1 x (5.65)
sau
y1 1 x1
y2 1 x2 0
b
Tabelul 5.11. Calculul sumelor de pătrate (SS) în analiza ANOVA completă pentru
cazul regresiei liniare
Formula de Grade de
Suma de pătrate Matricea de operare
calcul liberate
n
SST , totală yT y yi2 n
i 1
40
Prelucrări de date.Teorie şi aplicaţii.
Formula de Grade de
Suma de pătrate Matricea de operare
calcul liberate
n
SS fac , factorială y y T y y yi y 2 p-1
i 1
n
SS R , reziduală y y T y y yi yi 2 n-p
i 1
n
SSlof , lack-of-fit j y T j y yi yi 2 f-p
i 1
n
yi yi 2
SS pe , erori pur
y j T y j n–f
experimentale i 1
j - acest vector reprezintă media valorilor pentru fiecare punct i;
f - numărul diferitelor determinări a variabilelor independente;
n - numărul de măsurători;
p - numărul de parametri;
1 n
y yi - media totală.
n i 1
41
Gabriel Gorghiu, Laura Monica Gorghiu