Sunteți pe pagina 1din 38

Prelucrări de date.Teorie şi aplicaţii.

Capitolul 5

IPOTEZE STATISTICE ŞI VERIFICAREA ACESTORA.


METODE STATISTICE ÎN CERCETAREA
EXPERIMENTALĂ. IERARHIZAREA FACTORILOR
SEMNIFICATIVI AI UNUI EXPERIMENT

5.1. Ipoteze statistice

Prin efectuarea unor măsurări asupra unei mărimi, a cărei valoare adevărată
este m, acestea vor fi afectate cel puţin de erorile aleatoare zi, şi în consecinţă,
rezultatele măsurărilor xi = m + zi, vor avea o distribuţie aleatoare. Dacă se repetă
de un anumit număr de ori, în condiţii identice, măsurarea mărimii m, se constată
că rezultatele xi ale măsurării şi implicit, erorile aleatoare zi, posedă o serie de
proprietăţi, ce sunt considerate principii, după cum urmează:
• Principiul cauzal:
Erorile aleatoare zi mici, în valoare absolută, sunt mai frecvente decât erorile
aleatoare zi mari, în valoare absolută.
• Principiul limitativ:
Toate erorile aleatoare sunt mai mici decât un anumit nivel, care ar corespunde
erorii datorate tuturor cauzelor de erori.
• Principiul distributiv:
Dacă numărul măsurărilor n este suficient de mare, se constată că numărul
erorilor negative este egal cu numărul erorilor pozitive, suma algebrică a erorilor
aleatoare fiind foarte mică.
• Principiul probabilistic:
Probabilitatea să apară o anumită eroare aleatoare, prin efectuarea unei
măsurări, depinde numai de valoarea absolută a erorii.
Cele patru principii fundamentale proprii erorilor aleatoare sunt satisfăcute de o
funcţie specifică – densitatea de probabilitate a repartiţiei erorilor aleatoare, cu
următoarea formă analitică:
f x   px  
1
e  xm  /2σ
2 2

(5.1)
σ 2π

5
Gabriel Gorghiu, Laura Monica Gorghiu

Din punctul de vedere al reprezentării grafice, această funcţie are o formă


particulară (curbă Gauss sau curbă normală), ilustrată în figura 5.1.a.

f(x) f(x)

0,4 0,4

0,3 0,3
 
0,2 0,2

0,1 0,1

(m-3) (m-2) (m-) m (m+) (m+2) (m+3) 0 -3 -2 -1 0 1 2 3

Fig. 5.1 – Curba normală (a) şi curba normală normată (b)

Variabila aleatoare z, pentru care z = x – m = 0, şi  = 1, se numeşte variabilă


normală normată (sau variabilă Laplace), iar curba de repartiţie a erorilor
aleatoare normate (utilizată în calcule), are alura prezentată în figura 3.1.b.
Sub aspect calitativ, proprietăţile erorilor aleatoare, se regăsesc în forma
specifică a curbei de repartiţie, astfel:
• principiul distributiv este reliefat prin simetria curbei de repartiţie;
• principiul cauzal este ilustrat prin concentrarea valorilor în jurul mediei lor
aritmetice;
• principiul limitativ este concretizat prin regula celor 3 (probabilitatea ca
variabila aleatoare să depăşească limitele „de tip 3” este foarte mică (sub 0,0027),
ceea ce indică faptul că din punct de vedere practic, erorile aleatoare sunt mărginite
în valoare absolută de limita 3).
În practică, apar o serie de situaţii în care este necesar să se facă referire şi la
alte densităţi de probabilitate (repartiţii) ale datelor sau erorilor de măsurare, decât
cele prezentate (normală sau normală normată). Dintre acestea, cele mai frecvent
utilizate sunt: repartiţia 2, repartiţia Student (t) şi repartiţia Fisher-Snedecor (F).
Prelucrarea matematică a datelor de măsurare este strâns legată de
determinarea modelului statistic, adică de cunoaşterea sau de emiterea unei ipoteze
asupra legii care exprimă densitatea de probabilitate a repartiţiei datelor, pe baza
căreia se aplică efectiv aparatul teoretic aferent modelului considerat. Ulterior,
orice modificare a parametrului statistic care caracterizeazăă repartiţia teoretică
(medie, dispersie, densitate de probabilitate etc.), constituie un semnal de alarmă
asupra instabilităţii procesului de măsurare sau asupra preciziei estimaţiei.
Ipoteza statistică reprezintă orice aserţiune care poate fi sau nu adevărată,
asupra repartiţiei datelor sau populaţiei studiate. Ipotezele pot fi acceptate sau
respinse (eventual cu anumite probabilităţi de corectitudine a deciziei).

6
Prelucrări de date.Teorie şi aplicaţii.

Acceptarea unei ipoteze nu înseamnă că ea este adevărată, ci că nu există


motive de respingere; în schimb respingerea unei ipoteze înseamnă că ea este falsă.
Ipotezele statistice se împart în două categorii:
• ipoteza nulă (H0), reprezintă ipoteza statistică iniţială asupra repartiţiei
populaţiei studiate, care trebuie să fie acceptată sau respinsă pe baza rezultatului
oferit de un test statistic de verificare;
• ipoteza alternativă (H1), reprezintă ipoteza statistică opusă celei nule.

5.2. Teste statistice

Procedura de verificare a unei ipoteze statistice, respectiv procedura al cărei


obiect este de a decide respingerea sau acceptarea unei ipoteze statistice asupra
repartiţiei uneia sau mai multor populaţii se numeşte test statistic.
Cele mai utilizate teste statistice sunt 2, Student (t) şi Fisher (F).

• Testul 2 este testul statistic în care statistica folosită urmează repartiţia 2.
Acesta este folosit în mod special în următoarele cazuri:
• verificarea egalităţii dintre dispersia unei populaţii normale şi o valoare
specificată, pornind de la dispersia estimată pe un eşantion prelevat din această
populaţie;
• comparaţia între efectivele observate şi cele teoretice corespunzătoare unei
repartiţii specificate apriori sau definite pornind de la valorile observate;
• ca test de independenţă şi omogenitate.

• Testul Student (t) este testul statistic în care statistica folosită urmează o
repartiţie Student. Acest test este utilizat în mod special în următoarele cazuri:
• ca test de egalitate între media unei populaţii normale şi o valoare specificată,
pornind de la media observată pe un eşantion prelevat din această populaţie,
dispersia populaţiei fiind estimată pe acest eşantion;
• ca test de egalitate a mediilor a două populaţii normale de aceeaşi dispersie,
pornind de la mediile observate pe două eşantioane independente, prelevate din
aceste populaţii, dispersia comună fiind estimată pe aceste eşantioane;
• ca test asupra valorii unui coeficient de regresie liniară sau a unui coeficient
de corelaţie.

• Testul Fisher (F) este testul statistic în care statistica folosită urmează o
repartiţie Fisher. Acest test este utilizat în mod special în următoarele cazuri:
• compararea dispersiilor a două populaţii normale, pornind de la dispersiile
estimate pe două eşantioane independente, prelevate din aceste populaţii;
• ca test ce intervine în analiza dispersiilor.

7
Gabriel Gorghiu, Laura Monica Gorghiu

Etapele care se parcurg în situaţiile care implică verificarea ipotezelor


statistice, cu ajutorul testelor statistice sunt următoarele:
• se calculează mărimea Qcalc, care aparţine unei variabile aleatoare, de
distribuţie cunoscută, folosind datele experimentale avute la dispoziţie;
• se compară mărimea calculată Qcalc cu o mărime Qtab (critică), determinată pe
baza legii de distribuţie a variabilei aleatoare respective, în funcţie de pragul de
semnificaţie ales (practic, se ia în consideraţie mărimea riscului de a adopta o
decizie falsă, sau de a respinge o ipoteză justă);
• se acceptă sau se respinge ipoteza de nul (H0) pe baza comparaţiei realizate
anterior.
O serie de probleme întâlnite în practica experimentală necesită verificarea
ipotezelor statistice. În continuare sunt menţionate câteva dintre aceste situaţii,
menţionându-se şi testele statistice recomandate:
• identificarea şi eliminarea rezultatelor aberante (testul Student, testul Grubbs-
Smirnov etc.);
• verificarea normalităţii distribuţiei unui şir de date (testul 2);
• estimarea intervalelor de încredere (testul Student);
• compararea dispersiilor (testul Fisher, testul Cochran);
• compararea mediilor aritmetice (testul Student).

5.3. Identificarea şi eliminarea rezultatelor afectate de erori aberante

Înainte de a estima parametrii măsurandului (valorile medii, dispersiile,


incertitudinile de măsurare etc.), din şirul rezultatelor experimentale trebuie
eliminate valorile aberante (rezultatele afectate de erori aberante). Acest lucru este
absolut obligatoriu datorită faptului că prezenţa unor astfel de valori poate afecta
negativ estimaţiile, deciziile şi ipotezele care se fac în urma prelucrării datelor de
măsurare.
De la bun început, se presupune că toate măsurările sunt efectuate în condiţii
practic identice, fie repetat asupra aceluiaşi măsurand, pe o aceeaşi unitate
statistică, fie asupra aceluiaşi măsurand, pe un eşantion aleator de unităţi statistice.
Unitatea statistică poate fi un obiect, fenomen, proces (concret sau convenţional)
asupra căruia se poate face un ansamblu de observaţii.
Principiul metodei e constituit din următorii paşi:
• utilizând rezultatele obţinute în cadrul seriei de măsurări, se calculează
valorile unei funcţii aleatorii, corespunzătoare unei repartiţii statistice cunoscute;
• valorile calculate ale funcţiei respective se compară cu valorile limită ale
acesteia, corespunzătoare unor anumite nivele de încredere;
• în funcţie de rezultatul comparaţiei, se acceptă sau se respinge ipoteza privind
caracterul aberant al rezultatului respectiv, care, în consecinţă, se elimină sau se
păstrează în şirul de date.
În momentul aplicării metodei, trebuie să se ţină cont de următoarele condiţii:

8
Prelucrări de date.Teorie şi aplicaţii.

• metoda prezentată este satisfăcătoare numai în cazul în care măsurandul are o


repartiţie gaussiană (normală); ca urmare, înaintea aplicării metodei, este necesar să
se verifice dacă poate fi acceptată ipoteza repartiţiei normale a stărilor
măsurandului;
• metoda necesită o decizie statistică, afectată, în general, de erori de decizie;
astfel, se poate adopta decizia eronată de a elimina din şirul de date un rezultat care
nu este aberant şi invers, de a păstra în şirul de date un rezultat aberant; drept
urmare, la eliminarea sau la păstrarea unui rezultat în şirul de date, este necesar să
se manifeste prudenţă, analizându-se atent condiţiile în care a fost obţinut rezultatul
respectiv şi în primul rând, dacă se pot considera drept identice condiţiile de
măsurare;
• rezultatul prelucrării statistice a datelor va fi cu atât mai exact, cu cât volumul
informaţiei primare utilizate este mai mare; din această cauză, ori de câte ori sunt
cunoscute valorile mediei aritmetice şi ale abaterii medii pătratice ale populaţiei
din care provine şirul de date, se vor utiliza procedeele de aplicare a metodei bazate
pe valorile cunoscute ale acestor parametri şi nu procedeele bazate pe estimaţiile
parametrilor respectivi ( x şi respectiv s);
• în toate cazurile în care rezultatele măsurărilor sunt afectate de erori
sistematice determinabile, acestea se elimină din rezultatul brut al măsurării şi
numai apoi se aplică procedeul corespunzător de identificare a eventualelor
rezultate afectate de erori aberante.
În ceea ce urmează, se consideră că ipoteza de nul, H0, este aceeaşi pentru
ambele teste prezentate, iar x* reprezintă rezultatul aberant.

5.3.1. Testul Grubbs-Smirnov

Criteriul Grubbs-Smirnov se aplică în situaţia în care în urma măsurării s-a


obţinut un şir de n date având valorile xi, media aritmetică x şi dispersia empirică
s2 şi se doreşte verficarea unei valori x*, suspectă că ar fi afectată de erori aberante.
În acest caz, se poate calcula:
x*  x
GS calc  (5.2)
s
Valoarea GScalc se compară cu o valoare tabelată GStab,n,, care depinde de
numărul de valori din şir (n) şi de pragul de semnificaţie ales (), valorile tabelate
fiind calculate din condiţiile statistice de normalitate a repartiţiei datelor.
Dacă GScalc > GStab, rezultă (cu o certitudine P = 1 - ), că rezultatul x* este
afectat de eroare aberantă şi trebuie eliminat, deci ipoteza de nul (H0) se confirmă.
În caz contrar, nu există suficiente motive pentru eliminarea valorii respective, deci
este adevarată ipoteza alternativă (H1).

9
Gabriel Gorghiu, Laura Monica Gorghiu

5.3.2. Testul Student

Criteriul Student se aplică în situaţia în care în urma măsurării s-a obţinut şirul
de n date cu valorile xi, şi se doreşte verficarea valorii x*, suspectă de a fi afectată
de erori aberante. În acest caz, după determinarea mediei x şi dispersiei s2 a
celorlalte n - 1 valori, se poate calcula:
x*  x
t calc  (5.3)
s
Valoarea tcalc se compară cu o valoare tabelată ttab,n,, care depinde de numărul
de valori din şir (n) şi de pragul de semnificaţie ales ().
Dacă tcalc > ttab, rezultă (cu o certitudine P = 1 - ), că rezultatul x* este afectat
de eroare aberantă şi trebuie eliminat, confirmându-se ipoteza de nul (H0). În caz
contrar, nu sunt suficiente motive pentru eliminarea valorii respective, deci ipoteza
alternativă (H1) este cea adevarată.

5.4. Verificarea normalităţii repartiţiei datelor

Alegerea unui anumit model statistic are implicaţii profunde asupra


concluziilor şi predicţiilor care se fac asupra sistemului (obiect, proces sau
fenomen) care a generat şirul de date care se prelucrează.
Din punct de vedere statistico-matematic problema determinării unui anumit
model statistic constă în verificarea concordanţei dintre repartiţia empirică a datelor
experimentale şi o repartiţie teoretică presupusă adecvată pentru descrierea
acestora.
Verificarea concordanţei celor două repartiţii înseamnă de fapt verificarea unei
ipoteze statistice, acest lucru fiind însoţit de anumite riscuri pe care
experimentatorul este nevoit să şi le asume. În verificarea concordanţei, paradoxul
este acela că ar putea exista o ipoteză “mai bună” (“mai adevărată”) decât cea
considerată iniţial, adică o repartiţie care să descrie, şi care să reprezinte datele
experimentale mai bine decât repartiţia teoretică aleasă ca model. Pe baza
repartiţiei considerată drept “bună“ se efectuează estimaţii ale datelor
experimentale, care pot avea consecinţe practice. Din acest motiv alegerea
modelului teoretic este deosebit de importantă şi ea trebuie să ţină seama de
experienţa practică anterioară pentru situaţii similare. Deoarece uneori prezenţa
valorilor afectate de erori aberante în şirul datelor care se prelucrează poate
influenţa rezultatul testului de concordanţă a repartiţiilor, este necesară
reverificarea repartiţiei datelor, după aplicarea testelor de verificare prezentate
anterior.
Se apreciază că, în general, legea normală de repartiţie descrie suficient de bine
majoritatea situaţiilor întâlnite în practica prelucrării datelor.

10
Prelucrări de date.Teorie şi aplicaţii.

În plus, testul 2 este cel mai important şi utilizat test statistic dintre cele
folosite la verificarea normalităţii repartiţiei datelor. Metodologia de calcul
parcursă de acest test este prezentată în continuare:
• se precizează ipoteza de nul, H0: distribuţia datelor nu este normală;
• se precizează ipoteza alternativă, H1: distribuţia datelor este normală;
• se grupează cele n date experimentale pe intervale de forma (xi–1, xi], astfel
încât intervalele să ocupe întreaga axă reală (–, +), iar în fiecare interval
numărul de date trebuie să fie suficient de mare (de regulă, mai mare de cinci);
• se stabileşte numărul ni de rezultate ale măsurării ce aparţin fiecărui interval
(xi–1, xi];
• se calculează probabilitatea pi de a aparţine intervalului (xi–1, xi], în ipoteza de
normalitate a repartiţiei:

pi  φ i
x x  x x
 φ i 1
   (5.4)
s s
în care x respectiv s reprezintă media aritmetică respectiv dispersia empirică
calculate pentru toate cele n măsurări; mărimea  se numeşte probabilitate
integrală, iar relaţia de calcul împreună cu valorile tabelate sunt prezentate în
Anexa I;
• se calculează suma:

χ 2

I
ni  Npi 2
calc (5.5)
Npi
i 1
în care I este numărul de intervale în care a fost împărţită axa reală;
• se compară 2calc cu 2tab; dacă 2calc > 2tab, în care 2tab se alege din Anexa II,
pentru un anumit prag de semnificaţie  şi pentru un anumit număr de grade de
libertate k = I – 3; atunci, cu o siguranţă P = 1 - , se poate considera că funcţia de
repartiţie a rezultatelor măsurărilor diferă de cea normală, adică ipoteza de nul (H0)
se confirmă; în caz contrar, nu există suficiente argumente pentru o astfel de
concluzie şi se acceptă ipoteza alternativă (H1).
Totuşi, trebuie menţionate câteva observaţii referitoare la testul 2:
• Metodologia prezentată nu poate servi drept demonstraţie a normalităţii
repartiţiei, chiar dacă ipoteza că distribuţia datelor de măsurare nu diferă de cea
normală, se acceptă cu o anumită probabilitate.
• În general, cu cât numărul datelor este mai mare, certitudinea concluziei
formulată pe baza testului 2 creşte.
• Testul 2 are o mare putere de discriminare în cazul unor repartiţii intens
asimetrice şi este mai puţin eficient când repartiţia este simetrică, dar diferă de cea
normală.

11
Gabriel Gorghiu, Laura Monica Gorghiu

5.5. Estimări ale adevăratei valori a unei mărimi măsurate

Se consideră datele rezultate din n măsurări independente asupra unei anumite


mărimi. Se presupune că şirul x1, x2, …, xn al măsurărilor nu conţine valori afectate
de erori grosolane sau sistematice, iar datele sunt distribuite normal.
A estima adevărata valoare m a mărimii măsurate, înseamnă, în aceste
condiţii:
• determinarea unei funcţii f(x1, x2, ..., xn) dependente de rezultatele
măsurărilor, care să furnizeze o valoare suficient de apropiată de m;
• determinarea unui interval (f-e1, f+e2), care, cu o probabilitate dată, P = 1 - ,
să conţină adevărata valoare a mărimii măsurate m.
O astfel de estimaţie se numeşte estimaţie de încredere, probabilitatea P se
defineşte ca fiind nivel de încredere sau siguranţă a estimaţiei, intervalul (f-e1,
f+e2) reprezintă intervalul de încredere iar extremităţile lui limite de încredere.
În mod obişnuit, intervalele de încredere sunt simetrice (e1 = e2 = e), iar funcţia
f se consideră, de regulă, ca fiind media aritmetică, x , a celor n măsurări. În
această situaţie, cu probabilitatea P, mărimea m îndeplineşte relaţia:
xe  m  xe (5.6)
Mărimea e se determină fixându-se nivelul de încredere (siguranţa estimaţiei),
de regulă, la una din valorile: 0,9; 0,95; 0,99.
În condiţiile în care toate ipotezele prezentate mai sus sunt îndeplinite, rezultă:
s
et (5.7)
n
în care: s2 reprezintă dispersia empirică a celor n date, iar t valoarea criteriului
Student, pentru pragul de semnificaţie  = 1 – P şi n - 1 grade de libertate. Valorile
repartiţiei Student pentru diferite praguri de semnificaţie şi grade de libertate sunt
prezentate în Anexa III.
Incertitudinea de măsurare a rezultatului unei valori individuale se determină
cu relaţia:
I  ts (5.8)
în care t şi s au aceeaşi semnificaţie prezentată mai sus.
În concluzie, se poate menţiona că:
• rezultatul probabil al unei măsurări este:
xi  x  ts (5.9)
• rezultatul probabil al măsurării în ansamblul său este:
x  xe (5.10)
Se impun totuşi amintite câteva observaţii:
• Datorită faptului că alegerea siguranţei estimaţiei admite un anumit grad de
arbitrar, în practica prelucrării datelor s-a impus pe scară largă regula celor 3:
abaterea adevăratei valori a mărimii măsurate de la media aritmetică a rezultatelor

12
Prelucrări de date.Teorie şi aplicaţii.

măsurărilor nu depăşeşte cu mai mult de trei ori eroarea medie pătratică a acestei
valori medii. Conform acestei condiţii, siguranţa estimaţiei este fixată la valoarea
P=0,9973.
• Pentru a atinge un interval de încredere ce are amplitudinea e, ţinând cont de
faptul că se poate mări precizia estimaţiei prin mărirea numărului de măsurări,
chiar în condiţiile păstrării neschimbate a preciziei acestora, se poate estima
numărul necesar de măsurări, dacă se adoptă următoarea valoare a raportului:
e
q (5.11)
s
În acest caz, pentru un nivel de încredere  = 1 – P ales şi pentru un q impus,
rezultă din tabele specifice (de exemplu, tabelul 5.1.) numărul necesar de măsurări
pentru atingerea intervalului de încredere cu amplitudinea e.
În practică, se aplică deseori regula prin care, păstrând precizia măsurărilor
constantă, pentru micşorarea intervalului de încredere de h ori, este necesară
mărirea numărului de măsurări de h2 ori.

Tabelul 5.1. Numărul necesar de măsurări pentru atingerea intervalului de


încredere cu amplitudinea e.
P
0,90 0,95 0,98 0,99 0,999
q
1,0 5 7 9 11 17
0,5 13 18 25 31 50
0,4 19 27 37 46 74
0,3 32 46 64 78 127
0,2 70 99 139 171 277
0,1 273 387 545 668 1089
0,05 1084 1540 2168 2659 4338

5.6. Compararea dispersiilor

În situaţia în care se efectuează măsurări în condiţii diferite (cu aparate sau prin
metode diferite etc.), apare problema comparării preciziei măsurărilor.
Pentru a rezolva această problemă se compară dispersiile empirice ale şirurilor
respective de date experimentale şi se precizează dacă acestea diferă sau nu
semnificativ. Repartiţia datelor în şirurile de măsurări trebuie să fie normală,
ipoteză ce se verifică în prealabil.

5.6.1. Compararea a două dispersii

Fie două şiruri de date experimentale: x’1, x’2, ..., x’n1 şi respectiv x”1, x”2, ..., x”n2,
ale căror dispersii empirice sunt s21 şi s22.

13
Gabriel Gorghiu, Laura Monica Gorghiu

Dacă se presupune că s21 > s22, se poate calcula următorul raport (testul Fisher):
s12
Fcalc  2 (5.12)
s2
În acest caz, se poate specifica următoarea ipoteză de nul (H0): dispersiile
diferă semnificativ.
Din tabele adecvate se alege valoarea criteriului Fisher, Ftab, în funcţie de
numărul de grade de libertate 1 = n1 – 1 şi 2 = n2 – 1 şi în funcţie de pragul de
semnificaţie ales, . Valorile repartiţiei Fisher pentru diferite perechi de grade de
libertate şi praguri de semnificaţie sunt prezentate în Anexa IV.
În situaţia în care Fcalc > Ftab, cu o siguranţă a estimaţiei P = 1 - , se poate
afirma că diferenţa dintre cele două dispersii este semnificativă, deci se confirmă
ipoteza de nul (H0). În caz contrar, se consideră că diferenţa este nesemnificativă şi
ca atare, cele două metode de măsurare sau aparate au precizii comparabile.

5.6.2. Eliminarea dispersiei care diferă semnificativ de celelalte dispersii

Dacă printre k serii de măsurări (k metode / aparate / condiţii date) s-a


descoperit o serie de măsurări (un aparat) a cărei dispersie empirică, notată s21, este
în mod evident mai mare decât celelalte, se pune problema să se decidă dacă se
poate considera că deosebirea dintre această dispersie şi celelalte este semnificativă
sau nu.
Pentru a rezolva o astfel de problemă, se efectuează în fiecare dintre cele k
variante, acelaşi număr de măsurări n, determinându-se dispersiile empirice s21, s22,
…, s2k (unde: s21 > s2i, pentru orice i > 1).
Se calculează apoi următorul raport (testul Cochran):
s2
Gcalc  k 1
(5.13)
 si2
i 1
În acest caz, se poate specifica următoarea ipoteză de nul (H0): dispersia s21
diferă semnificativ de celelalte.
Se alege din tabele adecvate valoarea Gtab în funcţie de numărul de grade de
libertate  = n – 1, de numărul k de măsurări (aparate) şi de pragul de semnificaţie
ales, . Valorile repartiţiei Cochran pentru diferite perechi de grade de libertate şi
praguri de semnificaţie sunt prezentate în Anexa V.
Dacă Gcalc > Gtab, atunci cu o siguranţă P = 1 - , se poate afirma că dispersia
s1 (precizia metodei de măsurare, aparatului etc.) diferă semnificativ de celelalte
2

dispersii, deci se confirmă ipoteza de nul (H0). În caz contrar, nu sunt suficiente
argumente pentru o astfel de afirmaţie, deci se acceptă ipoteza alternativă (H1).

14
Prelucrări de date.Teorie şi aplicaţii.

5.7. Compararea valorilor medii aritmetice

De cele mai multe ori, scopul unui experiment constă în determinarea


existenţei unei diferenţe semnificative între valorile unui anumit parametru, pentru
două sisteme distinct cercetate.
De exemplu, pentru un material nou se constată că valoarea unuia dintre
parametrii acestuia diferă de valoarea aceluiaşi parametru al materialului similar
vechi, dar această diferenţă nu este concludentă. În această situaţie, se pune
problema suspiciunii dacă nu cumva această diferenţă se datorează doar erorilor
aleatoare ale experimentului. O problemă asemănătoare apare atunci când, în
condiţii diferite de fabricare a unui produs cu una şi aceeaşi valoare nominală a
unui anumit parametru, se constată o diferenţă între valorile medii ale acestor
parametri; totuşi, în această situaţie este important să se cunoască dacă există
calităţi diferite ale produsului sau există numai o abatere întâmplătoare.
În consecinţă, dacă divergenţa valorilor unui anumit parametru, x, este
întâmplătoare sau nu, se efectuează două serii de măsurări şi, pentru fiecare serie
de rezultate, se calculează media aritmetică a parametrului, x1 , respectiv x 2 .
La un moment dat, se pune problema de a decide, când se consideră că
diferenţa între aceste două medii este suficient de mare pentru ca să se poată afirma
faptul că deosebirile constatate în calitatea produselor nu sunt întâmplătoare
(măsurările se presupun independente şi, cel puţin în cadrul fiecărei serii, de egală
precizie, iar funcţia de repartiţie a erorilor de măsurare se presupune a fi normală).
Compararea mediilor se face numai în ipoteza suplimentară că dispersiile celor
două şiruri de date nu diferă semnificativ, ipoteză care sau se acceptă fără nici o
verificare, sau se verifică după metodologia prezentată anterior.
Se consideră deci, două serii de măsurări independente, de aceeaşi precizie,
prima serie cuprinzând n1 măsurări, cu media aritmetică x1 şi dispersia empirică
s21, iar a doua cuprinzând n2 măsurări, cu media aritmetică x 2 şi dispersia empirică
s22. În acest caz, se poate specifica următoarea ipoteză de nul (H0): diferenţa între
cele două medii aritmetice este semnificativă.
Pentru a oferi răspuns la întrebarea dacă între cele două medii există sau nu o
diferenţă întâmplătoare, se calculează valoarea tcalc:
x1  x2 n1n2
tcalc  (5.14)
sech n1  n2
în care:
2
sech 
n1  1s12  n2  1s22
(5.15)
n1  n2  2

15
Gabriel Gorghiu, Laura Monica Gorghiu

Dacă pentru un nivel de încredere P şi un număr de grade de libertate  = n1 +


n2 – 2, tcalc > ttab,P,, se poate considera cu siguranţa P că diferenţa valorilor medii
este semnificativă, deci se confirmă ipoteza de nul (H0). În caz contrar, diferenţa
poate fi privită ca fiind întâmplătoare şi se acceptă ipoteza alternativă (H1).

5.8. Metode statistice în cercetarea experimentală

În teoria matematică a experimentării, se operează cu două metodologii


statistice fundamentale:
• analiza dispersională;
• analiza regresională.

Analiza dispersională are ca obiectiv principal determinarea semnificaţiei


(importanţei) şi a gradului de interacţiune a unei mulţimi de factori xi (i = 1, …, n),
asupra unei funcţii de răspuns y a obiectului cercetării.
Analiza dispersională realizează:
• gruparea factorilor de influenţă în: semnificativi şi respectiv nesemnificativi,
în raport cu funcţia de răspuns y;
• ordonarea (ierarhizarea) factorilor semnificativi după gradul de influenţă
asupra funcţiei de răspuns.
Analiza dispersională nu îşi propune şi nici nu poate realiza modelul matematic
al sistemului cercetat y = f(xi).
Importanţa selectării şi ierarhizării factorilor este determinată de:
• necesitatea includerii tuturor factorilor semnificativi in cerceterea
experimentală;
• necesitatea determinării semnificaţiei statistice a influenţei fiecărui factor;
• necesitatea limitării volumului şi costului experimentării la valori minime.
În urma analizei dispersionale rezultă o distribuţie a factorilor de influenţă de
tipul celei din figura 5.2.
Asupra evoluţiei oricărui sistem acţionează simultan mai mulţi factori, aleatori
şi sistematici, fiecare având o anumită influenţă asupra performanţelor acestuia.
Prin analiza dispersională sunt separate efectele produse de variaţia factorilor
aleatori de efectele cauzate de factorii sistematici (factori de influenţă controlaţi),
separarea facându-se prin descompunerea dispersiei totale în dispersiile
componente şi estimarea acestora, apreciindu-se astfel caracterul şi gradul de
influenţă al fiecărui factor. Totuşi, selecţia şi ierarhizarea factorilor semnificativi se
poate face şi prin analiza regresională, dar volumul experimentului necesar este
mult mai mare şi creşte semnificativ odată cu creşterea numărului factorilor.

16
Prelucrări de date.Teorie şi aplicaţii.

EFECT

Zgomot

x3 x1 x9 x20 x7 x14 x8 x5 x6
Factori influenţă, x

Fig. 5.2 – Distribuţia factorilor de influenţă rezultaţi în urma analizei dispersionale

Analiza regresională are ca obiectiv principal elaborarea (construcţia)


modelului regresional (stohastic) al obiectului cercetării y = f(xi), care să descrie,
într-un mod adecvat, comportarea sistemului respectiv în domeniul dat al
experimentării. Acest model de regresie multiplă a factorilor include două
componente:
• funcţia valorilor medii (centrelor geometrice de grupare) din spaţiul
multifactorial;
• intervalul de împrăştiere a frecvenţelor în jurul centrelor de grupare singulare.
Modelele regresionale se pot utiliza la fel de bine ca şi modelele deterministe,
pentru identificarea stării şi prevederea comportamentului obiectului cercetării
(fenomen, obiect, proces), pentru optimizarea evoluţiei şi pentru conducerea sa în
spaţiu şi timp.
Scopurile analizei regresionale sunt următoarele:
• identificarea unui model matematic adecvat pentru descrierea obiectului
cercetării;
• studiul mecanismelor de iniţiere şi acţiune a funcţionalităţii sistemului
cercetat;
• analiza caracterului şi gradului de influenţă a diferiţilor factori cu ajutorul
modelului obţinut;
• definirea valorilor optime ale factorilor în raport cu funcţia de răspuns y sau
alte funcţii de optimizare ale obiectului cercetării şi conducerea optimală a
acestuia.

17
Gabriel Gorghiu, Laura Monica Gorghiu

5.9. Ierarhizarea factorilor semnificativi ai unui experiment

Există două cerinţe contradictorii care afectează conceperea raţională a


experimentării:
• luarea în consideraţie a tuturor factorilor care influenţează sistemul cercetat,
în situaţia în care se doreşte ca modelul matematic obţinut prin cercetare
experimentală să reflecte în mod fidel acest sistem;
• minimizarea numărului de încercări (sau optimizarea experimentului), în
vederea efectuării în condiţii convenabile a experimentului, din punct de vedere al
costului şi volumului de măsurări; în această situaţie este necesară o selecţie
preliminară a factorilor semnificativi, precum şi ordonarea acestora după influenţa
exercitată asupra sistemului studiat.
În acest sens, orice cercetare experimentală trebuie să înceapă cu inventarierea
factorilor de influenţă şi a funcţiilor de răspuns, folosind informaţiile preliminare
deţinute de către experimentator. Drept principale surse de informare preliminară se
pot aminti:
• literatura de specialitate (prin aspectele teoretice / datele experimentale la
obiect);
• cercetările anterioare asupra acţiunii de modelare a sistemului analizat;
• experimentările preliminare, de volum redus (experimentele suprasaturate).
Într-un tabel de sinteză se concentrează rezultatele documentării, precizându-se
numărul şi influenţa factorilor existenţi. Tabelul 5.2. propune un model sintetic al
rezultatelor documentării.

Tabelul 5.2. Tabel sintetic al rezultatelor documentării


Factori de influenţă Funcţii de răspuns
Unitate Domeniu Domeniu
Simbol de de de y1 y2 ... yn
măsură existenţă reglare
x1
x2
.
.
.
xk

În fiecare celulă a tabelului, se introduc ipotezele sau informaţiile confirmate, în


mod concluziv. Astfel, tabelul poate cuprinde ecuaţii teoretice sau empirice ce
privesc interacţiunea factori - funcţii, valori curente ale funcţiilor de răspuns,
informaţii calitative sau sensuri de variaţie ale funcţiei de răspuns la modificarea

18
Prelucrări de date.Teorie şi aplicaţii.

într-un anumit sens a valorilor factorului de influenţă etc. Se poate menţiona


inclusiv lipsa de informaţii pentru una sau mai multe combinaţii de tip factori de
influenţă - funcţii de răspuns.
În coloanele destinate factorilor de influenţă, se introduc domeniile de existenţă
şi de reglare (controlabilitate) a acestora, informaţii esenţiale pentru stabilirea
nivelelor factorilor în cadrul experimentului şi pentru realizarea efectivă a acestuia.
Deosebit de importante sunt şi informaţiile direct legate de erorile de măsurare
şi de reproductibilitate a factorilor de influenţă şi funcţiilor de răspuns. Numai în
situaţia în care precizia măsurării şi reglării factorilor de influenţă este cu cel puţin
un ordin de mărime mai mare faţă de precizia determinării funcţiilor de răspuns,
duce la eficientizarea cercetării experimentale.
Inventarierea completă a factorilor de influenţă şi a efectului acestora asupra
funcţiilor de răspuns este impusă de reflectarea cât mai fidelă a sistemului cercetat
prin modelul matematic, precum şi de optimizarea volumului şi costului
experimentării. După finalizarea operaţiei de inventariere, are loc evaluarea
semnificaţiei factorilor existenţi şi apoi ierarhizarea acestora, în ordinea
descrescătoare a influenţei exercitate asupra funcţiilor de răspuns, şi pe de altă
parte, excluderea din experiment a factorilor cu acţiune nesemnificativă. Aceste
operaţii se realizează utilizând mai multe metode practice, care presupun, de
regulă, prelucrarea statistică a datelor de măsurare. În acest sens, cele mai utilizate
metode sunt: metoda corelaţiei de rang, metoda analizei dispersionale şi metoda
balanţei aleatoare.

5.9.1. Metoda corelaţiei de rang

Metoda corelaţiei de rang (experiment psihologic, estimarea prin experţi) se


bazează pe prelucrarea statistică a opiniei unor specialişti, referitoare la ordonarea
factorilor, în funcţie de influenţa pe care aceştia o exercită asupra unei anumite
funcţii de răspuns. Ordonarea se realizează pe baza numerelor de ordine
(rangurilor) 1, 2, ... , k, atribuite de fiecare specialist factorilor analizaţi, în funcţie
de importanţa care se acordă respectivului factor în influenţa lui asupra funcţiei de
răspuns analizată. Rangurile cele mai mici se vor atribui acelor factori care sunt
consideraţi mai importanţi.
Metoda propune următoarele etape:
1. Întocmirea, difuzarea şi completarea de către specialişti a formularelor de
anchetă. În desfăşurarea acestei etape, se au în vedere o serie de elemente:
• ordinea specialiştilor şi a factorilor în formular este aleatoare;
• doi sau mai mulţi factori pot fi apreciaţi cu acelaşi rang;
• specialiştii pot adăuga factori noi, necuprinşi în formularul iniţial;
• rezultatele obţinute se centralizează într-un tabel primar (tabel cu date
primare), în care se precizează numărul de specialişti, m, şi numărul factorilor de
influenţă, k. Tabelul 5.3 oferă un model în acest sens.

19
Gabriel Gorghiu, Laura Monica Gorghiu

Tabelul 5.3. Tabel centralizator cu date primare


Experţi Rangurile factorilor de influenţă
x1 x2 … xi … xk
1. a11 a12 … a1 j … a1k
2. a21 a22 … a2 j … a2 k
… … … … … … …
i ai1 ai 2 … a ij … aik
… … … … .. … …
m am1 am 2 … amj … a mk
Sumă A j A1 A2 … Aj … Ak

2. Prelucrarea rezultatelor primare ale anchetei. Această operaţie se realizează


prin însumarea rangurilor atribuite fiecărui factor (suma pe coloane), rezultând
valorile A j . Pe baza acestor valori se realizează ierarhizarea primară a factorilor
de influenţă (cel mai important factor va fi cel pentru care suma A j are valoare
minimă).
3. Corectarea datelor tabelului primar prin cuplarea rangurior. Această
corecţie este necesară în situaţia în care cel puţin un specialist a acordat la cel puţin
doi factori acelaşi rang. Ea presupune parcurgerea tabelului primar linie cu linie
(specialist cu specialist) iar acolo unde apar cel puţin două ranguri identice, se va
calcula rangul corectat ca raport dintre suma numerelor de ordine ale locurilor
ocupate de factorii cu acelaşi rang şi numărul de factori cu acelaşi rang. Valorile
corectate vor completa un tabel similar cu primul (din punct de vedere al numărului
de linii şi de coloane), numit tabel secundar sau tabel cu date corectate, şi în care,
pe baza sumei A j pe coloane, se va face ierarhizarea factorilor de influenţă.
În exemplul de mai jos, se realizează corecţia unei linii de tabel, astfel:
• dacă linia i a unui tabel primar are următoarea formă:
Specialist x1 x2 x3 x4 x5 x6 x7
i 3 2 1 2 1 1 4
• se face observaţia că cel puţin un rang apare cel puţin de două ori (rangul 1 şi
rangul 2); în acest caz se trece la corecţia rezultatelor:
• pentru rangul 1, se calculează noul rang:
1 2  3
NoulRang(1)  2
111
• pentru rangul 2, se determină noul rang:
45
NoulRang(2)   4,5
11

20
Prelucrări de date.Teorie şi aplicaţii.

• pentru rangul 3, noul rang este 6;


• pentru rangul 4, noul rang este 7;
• în consecinţă, linia i a tabelului va avea următoarea formă:
Specialist x1 x2 x3 x4 x5 x6 x7
i 6 4,5 2 4,5 2 2 7
4. Verificarea adecvanţei datelor din tabelul primar cu datele din tabelul
secundar. Verificarea se face pe baza coeficientului de corelaţie, rs, determinat cu
următoarea relaţie:

 Q j 1  Q j 2
6 k
rs  1  3
2
(5.16)
k  k j 1
în care: simbolul (1) se referă la datele din tabelul primar, iar simbolul (2) la
datele din tabelul secundar; Q j 1  1 este rangul atribuit factorului j (j = 1,...,k)
care în tabelul primar are suma A j minimă iar, Q j 1  2 , Q j 1  3 etc. sunt
rangurile atribuite factorilor următori, în ordinea crescătoare a valorilor A j . În mod
similar, sunt atribuite rangurile Q j 2   2 , Q j 2   3 etc., corespunzător tabelului
secundar cu date corectate.
Astfel, se compară ierarhizarea furnizată de tabelul primar cu cea furnizată de
tabelul secundar. Dacă valoarea lui rs este apropiată de 1, rezultatele (ierarhizarea)
tabelului secundar sunt în concordanţă cu cele ale tabelului primar. Dacă rs = 0,
atunci nu există concordanţă între rezultatele din cele două tabele. Dacă rs = -1,
rezultatele celor două tabele sunt contradictorii. În ultimele două situaţii,
experimentul trebuie reluat, prelucrarea rezultatelor neputându-se realiza în mod
corespunzător cu datele avute la dispoziţie.
Atunci cînd între rezultate există concordanţă, prelucrarea datelor se va face -
în continuare - numai folosind tabelul secundar.
5. Verificarea gradului de concordanţă între punctele de vedere exprimate de
specialişti. Această operaţie se realizează cu ajutorul coeficientului de consens, w,
exprimat cu următoarea relaţie:
k

Δ
j 1
2
j

w  12 (5.17)
 
m
m 2 k 3  k  m Ti
i 1
în care:
m
1 k m
Δj   aij   aij (5.18)
i 1 k j 1 i 1
şi:

21
Gabriel Gorghiu, Laura Monica Gorghiu

 
k
T1   t 3j  t j , i = 1,...,m (5.19)
j 1

în care tj reprezintă numărul de ranguri identice atribuite de expertul i.


Valorile coeficientului w variază de la 0 (nu există concordanţă între părerile
experţilor), la 1 (concordanţa între părerile experţilor este deplină). Semnificaţia
coeficientului w se estimează astfel:
• pentru k  7, folosind criteriul Fisher, prin calcularea Fcalc cu formula:
1  m  1w 
Fcalc  ln 
2  1  w 
(5.20)

şi compararea Fcalc cu valoarea Ftab, pentru un prag de semnificaţie =0,05,


 
pentru v1  INT k  1  2 , respectiv v2  m  1v1 .
m
• pentru k  7, folosind criteriul 2, prin calcularea 2calc cu formula:
χcalc
2
 mk  1w (5.21)
şi compararea  calc cu  tab, pentru un prag de semnificaţie =0,05, respectiv
2 2

pentru un număr de grade de libertate v = k - 1.


Dacă Fcalc  Ftab, respectiv 2calc  2tab, atunci concordanţa între părerile
specialiştilor este semnificativă. În caz contrar, nu există concordanţă semnificativă
între părerile specialiştilor, şi în consecinţă, se încearcă o ponderare a punctajelor
acordate de specialişti, ţinând cont de calificarea, experienţa şi valoarea acestora.
6. Reprezentarea grafică a rezultatlor ordonării, sub forma histogramelor. În
general, drept mărimi de evaluare a semnificaţiei factorilor (indici de semnificaţie a
factorilor (ISF)), sunt considerate următoarele:
• suma rangurilor atribuite unui anumit factor, A j ;
• valoarea medie a rangului:
1
a j  Aj (5.22)
m
• coeficientul de pondere a factorului:
Aj
Mj  k
(5.23)
A
j 1
j

În practică pot apare diferite situaţii calitativ diferite, ilustrate în figurile 5.3.,
5.4. şi 5.5.:
• histogramele de tipul prezentat în figura 5.3 favorizează gruparea factorilor
după influenţa exercitată şi eliminarea factorilor nesemnificativi;
• histogramele de tipul prezentat în figura 5.4 arată imposibilitatea specialiştilor
de a pune în evidenţă factorii semnificativi;
• histogramele de tipul prezentat în figura 5.5 sunt întâlnite în cazul proceselor
complexe, cu factori de influenţă apropiată sau insuficient cunoscută.

22
Prelucrări de date.Teorie şi aplicaţii.

Indice de semnificaţie a factorilor

x7 x3 ... ... ...


Factori

Fig. 5.3 – Situaţie calitativă ilustrată de histograma ce favorizează gruparea


factorilor după influenţa exercitată şi eliminarea factorilor nesemnificativi
Indice de semnificaţie a factorilor

x7 x3 ... ... ...


Factori

Fig. 5.4 – Situaţie calitativă ilustrată de histograma care relevă imposibilitatea


specialiştilor de a pune în evidenţă factorii semnificativi

5.9.2. Metoda analizei dispersionale

Metoda analizei dispersionale se bazează pe separarea influenţei asupra


funcţiei de răspuns a factorilor aleatori de influenţă factorilor sistematici
(controlaţi). Separarea se realizează prin descompunerea dispersiei totale în
componentele sale iar apoi prin estimarea şi determinarea semnificaţiei acestor
componente.

23
Gabriel Gorghiu, Laura Monica Gorghiu

Indice de semnificaţie a factorilor

x7 x3 ... ... ...


Factori

Fig. 5.5 – Situaţie calitativă ilustrată de histograma întâlnită în cazul proceselor


complexe, cu factori de influenţă apropiată sau insuficient cunoscută

Metoda se foloseşte cu preponderenţă pentru determinarea semnificaţiei


influenţei unui număr mic de factori (k  4), inclusiv unul singur, asupra funcţiei de
răspuns.

5.9.2.1. Analiza dispersională unifactorială

Acest tip de analiză se foloseşte pentru a testa influenţa unui singur factor, x,
asupra funcţiei de răspuns y, verificându-se dacă acesta este un factor tehnologic
(sistematic) sau un factor aleator.
Factorului x i se atribuie m nivele din domeniul său de reglare (x1, x2, …, xm),
pentru fiecare nivel efectuându-se n replici şi rezultând valorile măsurate yij. În
tabelul 5.4. este prezentată matricea-program a experimentului. În figura 5.6 este
ilustrată reprezentarea grafică a modelului experimentului matematic unifactorial,
în care se observă că fiecare valoare măsurată yij a funcţiei de răspuns prezintă
următoarele trei componente:
•  - efectul global al tuturor încercărilor asupra valorii yij;
• i - efectul factorului x situat pe nivelul concret xi;
• ij – abaterea măsurării (eroarea aleatoare) faţă de centrul de grupare i;
Între componentele prezentate există următoarea relaţie:
yij  μ  αi  εij (5.24)

24
Prelucrări de date.Teorie şi aplicaţii.

Tabelul 5.4. Matricea-program pentru analiza dispersională unifactorială


Număr
Nivele ale factorului x
replică
x1 x2 … xi … xm
1. y11 y 21 … yi1 … y m1
2. y12 y22 … yi 2 … ym2
… … … … … … …
j y1 j y2 j … y ij … ymj
… … … … … … …
n y1n y2n … yin … y mn

m
FUNCŢIE DE RĂSPUNS

ij

 ij i Yij


x1 x2 xi xm
NIVEL FACTOR X

Fig. 5.6 – Modelul experimentului matematic unifactorial

Ipotezele luate în considerare la întocmirea programului experimental sunt


următoarele:
• ordinea de efectuare a replicilor este aleatoare;
• distribuţia rezultatelor măsurărilor este normală, în jurul centrelor de grupare:
μi  μ  α i (5.25)
Se poate specifica ipoteza de nul (H0) astfel: influenţa factorului x asupra
funcţiei de răspuns y este semnificativă.
Etapele cuprinse în metodica de lucru sunt:
• se calculează pentru fiecare nivel (coloană) i al factorului xi, suma Yi, media yi
şi dispersia empirică si2, rezultând o matrice de calcul de forma prezentată în
tabelul 5.5.

25
Gabriel Gorghiu, Laura Monica Gorghiu

• utilizând datele rezultate în tabelul 5.5, se calculează dispersiile: s02 (dispersia


reproductibilităţii, cauzată de factorii aleatori) şi s2=n sA2+ s02, în care sA2 este
dispersia provocată de factorul x analizat.

Tabelul 5.5. Matricea cu rezultate şi calcule


Număr
Nivele ale factorului x
replică
x1 x2 … xi … xm
1. y11 y 21 … yi1 … y m1
2. y12 y22 … yi 2 … ym2
… … … … … … …
j y1 j y2 j … y ij … ymj
… … … … … … …
n y1n y2n … yin … y mn
Suma Y1 Y2 … Yi … Ym
Media y1 y2 … yi … ym
2 2 2 2
Dispersia s1 s2 … si … sm

Pentru a simplifica calculele, se determină următoarele sume:


• suma pătratelor tuturor valorilor yij cuprinse în tabel:
m n
S1   yij2 (5.26)
i 1 j 1

• suma pătratelor mediilor aritmetice pe coloane (de n ori):


m
1 m 2
S 2  n  yi    Yi
2
(5.27)
i 1 n i 1
în care:
1 n 1
yi   yij  Yi , i = 1,...,m (5.28)
n j 1 n
• suma pătratelor valorilor obţinute prin înlocuirea tutror datelor din tabel cu
media lor aritmetică:
1 2
S 3  mnyT2  Y (5.29)
mn T
Toate calculele sunt centralizate într-o matrice centralizatoare de forma
tabelului 5.6.
• dispersiile s2 şi s02, se compară cu ajutorul criteriului Fisher. Astfel, se
determină:

26
Prelucrări de date.Teorie şi aplicaţii.

s2
Fcalc  (5.30)
s02

Tabelul 5.6. Matricea centralizatoare


Sursa dispersiei Numărul
Suma Componentele
rezultatelor gradelor de Dispersia
pătratelor dispersiei
experimentale libertate
Nivelele factorului - S 2  S3
S 2  S3 υ  m1 s2  s 2  nsx  s0
2 2
dispersia între coloane 
Măsurări replicate - S1  S 2
S1  S 2 υ0  mn  1 s 
2 2
0 s0
dispersia între rânduri υ0

S1  S 3
s 2   0 s0 2
s0 
2
S1  S 3 υ0  mn  1 s0 
2
Dispersia totală
0   0

În cazul în care Fcalc > Ftab, pentru un prag de semnificaţie  = 0,05, şi număr
de grade de libertate  = m – 1, respectiv 0 = m(n – 1), atunci se poate considera,
cu o siguranţă P=1– că ipoteza de nul (H0) se acceptă, deci factorul x are o
influenţă semnificativă asupra funcţiei de răspuns y. Dispersia corespunzătoare
acestui factor se determină cu relaţia:
s 2  s02
s x2  (5.31)
n
Dacă Fcalc  Ftab, se consideră că factorul x are o influenţă nesemnificativă
asupra funcţiei de răspuns y. În această situaţie, dispersia reproductibilităţii este
caracterizată cel mai bine de mărimea s02. Valorile repartiţiei Fisher pentru diferite
perechi de grade de libertate şi praguri de semnificaţie sunt prezentate în Anexa IV.
Observaţiile care trebuie menţionate în legătură cu metoda dispersională
unifactorială sunt următoarele:
• s02 reprezintă media aritmetică a dispersiilor si2;
• întreg şirul de calcule s-a efectuat în ipoteza că dispersiile pe coloane si2, sunt
omogene; dacă nu există certitudine în această privinţă, ipoteza omogenităţii
dispersiilor trebuie verificată cu ajutorul criteriului Cochran, iar dacă această
ipoteză nu se verifică, vor trebui repetate determinările din coloana
corespunzătoare dispersiei maxime;
• analiza dispersională este aplicabilă (cu adaptări corespunzătoare ale relaţiilor
de calcul) şi atunci când numărul de replici este diferit pentru diversele nivele ale
factorului x.
• în cazul în care rezultatele analizei dispersionale concluzionează că factorul
analizat este un parametru tehnologic (Fcalc > Ftab), atunci trebuie precizat care

27
Gabriel Gorghiu, Laura Monica Gorghiu

nivele ale factorului x se deosebesc sau care dintre valorile medii yi diferă
semnificativ. Această testare se foloseşte la stabilirea intervalului de variaţie a
factorului x analizat.

5.9.2.2. Analiza dispersională multifactorială

Acest tip de analiză se utilizează pentru a testa simultan influenţa unui număr
mai mare de factori, în acest sens, programându-se un experiment, în care fiecare
dintre factorii consideraţi sunt modificaţi pe anumite nivele.
Dacă la fiecare combinaţie de nivele, se efectuează o singură determinare,
rezultatele măsurărilor pot fi prezentate într-o matrice de tipul prezentat în tabelul 5.7.

Tabelul 5.7. Matricea model cu rezultatele măsurărilor


x1 x2 x3
1 2 m
x3 x3 … x3
1
1 x2 y111 y112 y11m
x1 m

x2 y1m1 y1m 2 y1mm
… … … … … …
1
m x2 y m11 y m12 y m1m
x1 m

x2 y mm1 y mm 2 ymmm

Pe baza acestor măsurări se pot calcula dispersiile corespunzătoare factorilor şi


a interacţiunilor lor, dispersia globală fiind descompusă în dispersiile componente.
Ulterior, se realizează selectarea factorilor şi a interacţiunilor semnificative
pentru obiectul, fenomenul sau procesul studiat.
Odată cu creşterea numărului de factori analizaţi creşte exponenţial şi volumul
calculelor, iar interpretarea rezultatelor devine tot mai greoaie, ceea ce face ca, în
general, această metodă să fie aplicată cu succes pentru un număr de factori de
influenţă k  4.

5.9.3. Metoda balanţei aleatoare

Metoda balanţei aleatoare constă în realizarea unui experiment preliminar pe


baza unui program factorial suprasaturat, caracterizat printr-un număr de încercări
N  k + 1, care nu permite calculul coeficienţilor de regresie din modelul
polinomial. În acest caz, numărul gradelor de libertate este negativ.
Aplicarea acestui program face deosebit de uşoară, rapidă şi economică
selectarea şi ierarhizarea factorilor semnificativi (eventual şi a interacţiunilor

28
Prelucrări de date.Teorie şi aplicaţii.

semnificative), restul factorilor fiind integraţi în zgomotul de fond al


experimentului.
Matricea-program a experimentului se poate construi în două moduri:
• prin distribuţia aleatoare a nivelelor factorilor în coloanele matricii;
• ca replică fracţionară a unui program factorial complet.
Prima variantă prezintă următoarea metodologie de lucru, sistematizată în
următoarele etape:
• se stabilesc funcţiile obiectiv şi factorii de influenţă. Fiecărui factor i se
atribuie un număr de nivele de variaţie (în general, între două şi patru nivele), cu
atât mai mare cu cât informaţiile particulare îl recomandă ca fiind mai important
pentru fenomenul, obiectul sau procesul studiat. Se recomandă ca intervalele de
variaţie să fie maxime.
• se determină volumul experimentării, N, ca fiind cel mai mic multiplu comun
(sau un multiplu al acestuia) al numărului de nivele al tuturor factorilor, deoarece
în matricea-program a experimentării, fiecare nivel al unui factor dat, trebuie să
intervină de acelaşi număr de ori.
• se construieşte matricea-program a experimentării, prin distribuţia aleatoare
a nivelelor factorilor în diferite încercări. Ordinea de efectuare a încercărilor
programate se stabileşte în mod aleatoriu, rezultând astfel o matrice-program de
forma celei prezentate în tabelul 5.8.

Tabelul 5.8. Exemplu de matrice-program pentru balanţa aleatoare


Valori ale
Numărul
Nivele factori de influenţă funcţiei de
încercării
răspuns
x1 x2 … xj … xk
1 1 3 … 4 … 2 y1
2 2 1 … 2 … 2 y2
3 1 1 … 1 … 1 y3
… … … … … … … …
i 2 2 … 3 … 1 yi
… … … … … … … …
N 1 3 … 1 … 2 yN

• se realizează experimentarea (de regulă, fără replici la nivelul încercărilor) şi


se determină valorile corespunzătoare ale funcţiei de răspuns pentru fiecare
încercare.
• se reprezintă grafic valorile funcţiei de răspuns pentru fiecare nivel al
factorilor existenţi, corespunzător valorilor obţinute în încercările în care factorul

29
Gabriel Gorghiu, Laura Monica Gorghiu

considerat s-a găsit pe un nivel dat (un exemplu este ilustrat în figura 5.7).
Graficul este util pentru a oferi o imagine intuitivă a influenţei factorilor şi pentru
a realiza selecţia vizuală a factorilor semnificativi.

Yi
Y X1,1 Y X i,3
DVX1 Y X1,2 Y X 2,2
Y X i,2
DVX2 Y X i,1 DVX3
Y X 2,3
Y X 2,1 Y X i, 4
Y X k ,2
FUNCŢIE DE RĂSPUNS

DVX4
Y X k,1

1 2 1 2 3 1 2 3 4 1 2
NIVELE
x1 x2 …………… xi …………… xk
FACTORI

Fig. 5.7 – Valorile funcţiei de răspuns pentru fiecare nivel al factorilor existenţi

• se calculează valorile medii ale funcţiei de răspuns pentru fiecare nivel al


factorilor existenţi, după cum urmează:
y  y3    y N y2    yi  
x1  y x1,1  1 , y
N/2 x1,2  N/2
  yi  
(5.32)
y 2  y3   y1    y N
x2  y x2,1  , y  , y 
N/3 x2,2 N/3 x2,3 N/3
Valorile determinate se înregistrează într-o matrice de forma celei prezentate în
tabelul 5.9.
• se calculează domeniile de variaţie ale funcţiei de răspuns, determinate de
variaţia factorilor existenţi pe nivelele de reglare programate:
DV
x
 
 y xj
max
 y xj
min
  (5.33)
j
ca diferenţă dintre valorile y maxime şi minime, obţinute pentru fiecare factor
de influenţă. În acest mod, domeniile de variaţie DV x j ale funcţiei de răspuns y,
devin o măsură a intensităţii (amplitudinii) influenţei factorilor.
• se ordonează factorii de influenţă în ordinea descrescătoare a domeniilor de
variaţie, reţinându-se factorul cu DVmax ca factor de primă importanţă pentru
funcţia de răspuns y analizată.

30
Prelucrări de date.Teorie şi aplicaţii.

Tabelul 5.9. Exemplu de tabel centralizator pentru balanţa aleatoare


Nivele de
variaţie Valori medii ale funcţiei de răspuns y
factori
x1 x2 … xj … xk
1 y x1,1 y x 2,1 … y xj ,1 … y xk ,1

2 y x1, 2 y x 2,2 … y xj , 2 … y xk , 2

3 - y x 2,3 … y xj , 3 … -

4 - - … y xj , 4 … -
Domeniu DV x1 DVx2 … DV x j … DVxk
de variaţie

• se corectează (se descarcă) rezultatele primare, măsurate, ale experimentării


în raport cu influenţa exercitată de factorul de primă importanţă.
În acest scop, se adaugă la valorile iniţiale individuale ale funcţiei de răspuns,
y1, …, yN, pentru fiecare nivel q dat al factorului de primă importanţă ximp,
diferenţa algebrică:
DA  y  y x ,q (5.34)
global imp
în care: y este media aritmetică a tuturor celor N valori y, iar y x ,q
global imp
sunt valorile corespunzătoare nivelului q (q=1,...,4), ale factorului x (cu
imp
DVmax) din tabelul 5.9.
• se obţine astfel o nouă matrice-program, care are (de această dată) k-1 factori
de influenţă şi o nouă coloană (corectată) cu valori y. Se reiterează etapele
parcurse la ultimele 4 puncte, determinându-se factorul de importanţă primară
între cei k - 1 factori rămaşi (de importanţă secundară, pentru experimentul luat ca
un întreg) şi efectuându-se corecţia funcţiei de răspuns în raport cu acest factor.
Rezultă un experiment cu k - 2 factori de influenţă, procesul continuând până în
momentul în care toţi factorii sunt ierarhizaţi.
În varianta descrisă, metoda balanţei aleatoare este o replică fracţionară de
structură aleatoare a unui program factorial complet. În raport cu acesta, balanţa
aleatoare are sensibilitate mai mică, dar capacitate de rezoluţie mai mare, reuşind
cu un volum minim de experimentări să realizeze ierarhizarea obiectivă a
factorilor de infuenţă consideraţi, în condiţii date.

31
Gabriel Gorghiu, Laura Monica Gorghiu

5.10. Analiza regresională

5.10.1. Generalităţi

Analiza de regresie reprezintă un instrument matematic foarte folosit în prelucrarea


datelor experimentale, care permite inclusiv modelarea datelor experimentale afectate de
erori. Prin funcţie de regresie se înţelege o expresie matematică, dedusă în urma
prelucrării unor date experimentale, care aproximează (estimează) dependenţele dintre
două sau mai multe variabile ale unui sistem sau proces. Determinarea unei funcţii de
regresie este necesară atunci când dependenţele dintre variabilele respective nu pot fi
stabilite suficient de precis pe cale teoretică.
Există o serie de aplicaţii ale analizei de regresie, în aproape toate domeniile de
activitate, de la domeniul economic la cel ingineresc. Ea este utilizată de fiecare dată
când este necesară găsirea unui model matematic care să descrie cât mai bine setul de
date experimentale de care se dispune.
Răspunsul unui sistem analitic (z), este influenţat de o serie de factori experimentali.
Deoarece se doreşte ca modelarea răspunsului să se facă în funcţie de un număr limitat
de factori, se variază sistematic factorii experimentali consideraţi la elaborarea
modelului – variabilele independente – şi se determină valoarea răspunsului – variabila
dependentă.
Din momentul cunoaşterii valorilor experimentale, se poate determina expresia
matematică simplă a unei suprafeţe în spaţiul cu n + 1 dimensiuni, astfel încât suprafaţa
respectivă să aproximeze optim, după un anumit criteriu, mulţimea de puncte
experimentale. Expresia rezultată – funcţia de regresie – nu va coincide cu cea teoretică,
dar o va aproxima pe aceasta suficient de precis pentru a permite utilizarea sa în aplicaţii
practice sau chiar ca ipoteză iniţială în cazul unor studii teoretice.
Metoda folosită pentru determinarea funcţiei de regresie, pornind de la valorile
coordonatelor punctelor experimentale se alege în funcţie de numărul n de variabile de
proces luate în considerare la efectuarea încercărilor experimentale, precum şi în funcţie
de posibilităţile de estimare a tipului de funcţie teoretică (reală) de dependenţă.
Astfel, pentru situaţiile în care relaţia studiată depinde de o singură variabilă de
proces şi se estimează că forma funcţiei de regresie ce urmează a fi determinată se
încadrează într-o anumită categorie, se poate folosi metoda celor mai mici pătrate
(Anexa VII). Dacă relaţia este dependentă de mai multe variabile, se poate obţine o
funcţie de regresie de formă polinomială, folosind metoda suprafeţelor de răspuns. În
situaţiile în care cele două metode amintite nu pot fi utilizate, se poate aplica una din
metodele iterative derivate din algoritmii de rezolvare a sistemelor de ecuaţii diferenţiale
(de exemplu, algoritmul Hooke-Jeeves, prezentat în Anexa VIII).
Unele dintre metodele mai sus menţionate sunt suficient de evoluate astfel încât să
nu se rezume la determinarea expresiei funcţiei de regresie, ci să permită şi obţinerea
unor concluzii referitoare la justeţea cu care au fost alese variabilele independente şi la
suficienţa preciziei cu care au fost efectuate măsurările în timpul experimentului.

32
Prelucrări de date.Teorie şi aplicaţii.

Relaţia analitică care oferă valoarea răspunsului obţinut în experimentul i are


următoarea formă:

yi  f x j i ; bk  ei  (5.35)
unde x ji reprezintă valorile obţinute în experimentul numărul i a factorilor
 
x j  j  1, m  ; bk - o constantă denumită parametrul modelului k  (0,m) ; f x j i ; bk -
reprezintă componenta deterministă a valorii răspunsului şi ei - componenta
aleatoare sau stohastică care modelează variabilitatea datelor analitice ca urmare a
variaţiilor condiţiilor experimentale.
Principalele tipuri de regresii întâlnite în prelucrarea datelor experimentale sunt:
• Regresia monovariabilă liniară:
y  b0  b1 x (5.36)
• Regresia monovariabilă polinomială:
m
y  b0   bk x k (5.37)
k 1
• Regresia monovariabilă neliniară:
y  f neliniara (x) (5.38)
• Regresia multivariabilă liniară:
m
y  b0   bi xi (5.39)
i 1
Regresia monovariabilă presupune existenţa unei singure variabile independente,
indiferent care este relaţia de dependenţă dintre aceasta şi variabila dependentă.
Regresia multivariabilă presupune că variabila dependentă este o funcţie de mai
multe variabile independente. În funcţie de forma matematică a modelului utilizat,
se poate face distincţie între metodele de regresie liniare şi cele neliniare. În cazul
regresiei liniare, variabila dependentă poate fi reprezentată printr-o combinaţie
liniară de operatori care sunt în funcţie de variabila independentă (sau variabilele
independente).
În cazul regresiei monovariabile, astfel de operatori au forma xc (unde c =
const.), log x, 1/x, sin x etc.
Ecuaţiile utilizate în cazul metodelor neliniare pot fi liniarizate, în anumite
condiţii, prin dezvoltări în serie. Dacă o funcţie ce depinde de mai mulţi parametri
(b1, b2, …, bm) are forma:
y  f x; b1 ,..., bm  (5.40)
aceasta poate fi aproximată în jurul unui punct din spaţiul parametrilor, b0,
definit prin vectorul de linie:

b0T  b10 , b20 ,..., bm 0 (5.41)
printr-o dezvoltare în serie Taylor din care se reţin termenii de ordinul 0 şi 1,
conform ecuaţiei:

33
Gabriel Gorghiu, Laura Monica Gorghiu

 f   f   f 
 
y  f x; b10 ,..., bm 0  

  b1  

  b2  ...     bm (5.42)
 1  b  b0
b  2  b  b0
b   b2  b  b0
cu condiţia ca Δbk k  1,m  să fie suficient de mici. Utilizând această
proprietate, regresia neliniară poate fi efectuată în acelaşi mod ca regresia liniară,
în cazul în care iniţial se cunoaşte sau se poate determina o estimaţie suficient de
bună a valorilor parametrilor modelului.
Folosind această proprietate, regresia neliniară poate fi efectuată în acelaşi mod
ca regresia liniară, în cazul în care iniţial se cunoaşte sau se poate determina o
estimaţie suficient de bună a valorilor parametrilor modelului.
De exemplu, în diverse analize chimice, se utilizează frecvent ca modele
monoparametrice neliniare următoarele funcţii:
• funcţii exponenţiale:
y  b1expb2 x  (5.43)
care descriu funcţiile de răspuns ale diverselor instrumente analitice după
aplicarea unui semnal în formă de treaptă;
• funcţii putere:
y  b1 x b2 (5.44)
care descriu intensitatea liniilor spectrale în spectrometria de emisie;
• funcţii logaritmice:
y  b1  b2 log x (5.45)
care descriu răspunsul electrozilor ioni selectivi;
• funcţii de tip Gauss:
y  b1 exp  [b2  x  b3  ]
2
(5.46)
care descriu forma picurilor cromatografice;
• funcţii de tip Lorentz:
b1
y
1  b2  x  b3 
2 (5.47)

care descriu forma picurilor de rezonanţă magnetică nucleară;

5.10.2. Etapele analizei de regresie

Analiza de regresie presupune parcurgerea unor etape specifice: definirea


modelului, estimarea parametrilor modelului (regresia propriu zisă), validarea
modelului şi calculul intervalelor de încredere a parametrilor.

5.10.2.1. Definirea modelului

În această etapă trebuie interpretată într-un mod foarte clar relaţia 5.35,
stabilindu-se totodată şi numărul de parametri ai modelului (constantele bk). De

34
Prelucrări de date.Teorie şi aplicaţii.

multe ori, modelul matematic adoptat este sugerat de o serie de legi fizice
particulare cazului studiat.
Pentru identificarea tipurilor de interferenţe care afectează o anumită metodă
de analiză, se compară rezultatele obţinute cu metoda studiată (yi) cu rezultatele
obţinute, pentru aceleaşi probe, cu o metodă de referinţă considerată (xi). În aceste
cazuri este foarte probabil să se respecte un model liniar de forma (5.36).
Valorile estimate ale parametrilor furnizează următoarele informaţii:
• dacă b0 = 0 şi b1 = 1, metoda studiată este exactă;
• dacă b0  0 şi b1 = 1, metoda de analiză este afectată de o eroare sistematică
de tip aditiv, şi pentru obţinerea rezultatului corect, b0 trebuie scăzut din rezultatul
determinat;
• dacă b0 = 0 şi b1  1, metoda este afectată de o eroare de tip multiplicativ şi
pentru obţinerea rezultatului corect se poate aplica metoda adiţiilor standard;
• dacă b0  0 şi b1  1, metoda este afectată atât de erori de tip aditiv cât şi
multiplicativ.
Atunci când nu se cunoaşte relaţia dintre factorii de optimizat şi răspuns,
pentru optimizarea parametrilor de lucru se foloseşte modelarea empirică. Pentru a
putea utiliza regresia monovariabilă liniară, se presupun următoarele relaţii între
perechile de date experimentale, (y1, x1), (y2, x2), …, (yn, xn) măsurate în condiţii
reale:
 y1  b0  b1 x1  e1
y  b  b x  e
 2 0 1 2 2
 (5.48)
 .......... .......... ........
 y n  b0  b1 x n  en
Dacă se notează cu y, b, e şi X vectorii coloană ai măsurătorilor, parametrilor,
erorilor şi respectiv matricea variabilelor independente, sistemul (5.48) poate fi
scris în forma matriceală:
y  Xb  e (5.49)
unde:
 y1   e1   1 x1 
     
 y2   b0   e2   1 x2 
 
y   ...  ; b    ; e   ...  ; X   ... ...  (5.50)
     
 ...   b1 
 ...   ... ... 
y  e  1 x 
 n  n  n 

Transpusa vectorilor coloană sau matricelor se reprezintă adăugând litera T în


dreapta simbolului. De exemplu, yT, reprezintă următorul vector linie:
yT   y1 y2 ... yn  (5.51)
iar

35
Gabriel Gorghiu, Laura Monica Gorghiu

 1 1 ... 1 
X T    (5.52)
 x1 x2 ... xn 
În analiza de regresie se aplică algebra matriceală deoarece prezintă avantajul
scrierii ecuaţiilor într-o formă generală aplicabilă tuturor problemelor şi uşor de
transpus într-un program de calcul.

5.10.2.2. Estimarea parametrilor modelului

Estimarea parametrilor modelului se referă la suprapunerea modelului peste


perechile de date experimentale şi calcularea valorilor necunoscute ale
parametrilor. Aceasta presupune minimalizarea unui criteriu matematic a cărui
expresie este funcţie de natura distribuţiei erorilor în setul de date. Dacă modelul
considerat aproximează suficient de bine dependenţa exprimată prin relaţia (5.35)
prin funcţia f pe tot domeniul de variaţie al factorilor, variaţiile  yi  yˆ i , ( ŷi
reprezintă estimarea mărimii yi) oferă o estimaţie a erorilor experimentale, ei.
Criteriul matematic, R, utilizat pentru estimarea corectă a valorilor parametrilor
modelului este dat de suma pătratelor abaterilor:
n n
R   ei2    yi  yˆ i 
2
(5.53)
i 1 i 1

cu condiţia ca erorile experimentale de determinare a răspunsului să reprezinte


variabile aleatoare care să îndeplinească următoarele condiţii:
• să fie distribuite normal cu media zero;
• să fie independente;
• să aibă aceeaşi varianţă;
Criteriul matematic, R, reprezintă norma vectorului reziduurilor, ( e ),
calculată, în termeni matriceali cu următoarea relaţie:
e  eT e   y  yˆ T  y  yˆ    y  Xb T  y  Xb  (5.54)
În practică se îndeplinesc în cvasitotalitate primele două proprietăţi ale erorilor
experimentale menţionate anterior. A treia proprietate, denumită
homoscedasticitate, nu este de obicei respectată într-un domeniu larg de variaţie al
factorilor. În acest caz, pentru fiecare pereche de valori a factorilor,
 
xiT  x1i , x 2i ,....., x mi , se repetă experimentul analitic şi se măsoară valorile
răspunsului, după care se calculează dispersiile şi se testează egalitatea acestora.
Regresiile prin metoda celor mai mici pătrate reprezintă estimarea parametrilor
modelului cel mai des utilizat.
În cazul multor tehnici (de exemplu, în chimia analitică - măsurători
radiometrice şi spectrometrice), variaţia erorilor experimentale este dependentă de

36
Prelucrări de date.Teorie şi aplicaţii.

valoarea răspunsului, yi, proprietatea aceasta numindu-se heteroscedasticitate.


Aceasta se datorează tipurilor specifice de zgomot care afectează măsurătorile.
În cazul heteroscedasticităţii nu se mai poate aplica metoda celor mai mici
pătrate şi, pentru efectuarea analizei de regresie, se apelează la una din următoarele
alternative: aplicarea metodei celor mai mici pătrate ponderate sau transformarea
variabilelor pentru obţinerea homoscedasticităţii.
Când se aplică metoda celor mai mici pătrate ponderată trebuie să se cunoască
dispersiile pentru valorile răspunsului, yi, pentru fiecare punct, xi, din domeniul
factorilor. Criteriul de optimizare, R, prezintă în acest caz, următoarea expresie:
n
R    wi ei     wi  yi  yˆ 
2 2
(5.55)
i 1

unde: wi reprezintă factorii de pondere ai reziduurilor:


1
wi  (5.56)
si
iar y i reprezintă media măsurătorilor individuale ale variabilei dependente
obţinute la aceleaşi valori ale variabilelor independente:
ni
yi   yil (5.57)
l 1

Ideea de bază a regresiei ponderate prin metoda celor mai mici pătrate este de a
atribui cea mai mare importanţă datelor măsurate cu cea mai mare precizie, acest
lucru însemnând practic că o problemă va fi dată de estimarea corectă a factorilor
de pondere, fiind necesar un număr mare de repetări ale experimentelor.

5.10.2.3. Validarea modelului

Validarea modelului se realizează prin testarea concordanţei dintre modelul


matematic obţinut anterior şi perechile de date experimentale. Pentru validarea
modelului se pot utiliza metode grafice sau metodele statisticii matematice.
Metodele grafice pornesc de la premisa că modelul este corect, dacă diferenţele
dintre datele experimentale şi cele calculate pe baza modelului sunt variabile
aleatoare cu caracteristici apropiate de cele ale erorilor experimentale care
afectează măsurarea valorilor răspunsului. De obicei, sunt preferate metodele
statistice deoarece sunt mai obiective.
Natura distribuţiei reziduurilor se poate testa fie grafic, prin reprezentarea
frecvenţelor de apariţie a acestora, fie statistic. Reziduurile calculate pot fi
reprezentate grafic în funcţie de valorile estimate (sau determinate experimental)
ale răspunsului ( y i sau ŷ i ), sau de valorile factorilor, analizându-se forma benzii
în care acestea sunt dispersate.
Cele mai întâlnite cazuri sunt următoarele (figura 5.8):

37
Gabriel Gorghiu, Laura Monica Gorghiu

• reziduurile se distribuie aleator într-o bandă cu media zero şi cu lărgime


constantă, situaţie care poate apare în caz de homoscedasticitate şi dacă modelul
este corect;
• reziduurile se distribuie aleatoriu într-o bandă cu media zero şi cu lărgime
variabilă; această situaţie poate descrie un caz de heteroscedasticitate, dacă
modelul este corect;
• reziduurile se distribuie aleator într-o bandă, a cărei medie, în unele porţiuni,
se depărtează sistematic de la valoarea zero, caz în care modelul va fi invalidat;
• majoritatea reziduurilor sunt distribuite într-o bandă de forma celor din figura
5.8 (primele două forme), cu excepţia unora care se situează mult în afara limitelor
benzii. Perechile de date care conduc la valori foarte mari ale reziduurilor pot fi
eliminate din setul de date iniţial, după care se recalculează valorile parametrilor.

  

y y y

Fig. 5.8 – Forme de distribuţie a reziduurilor

5.10.2.4. Analiza de varianţă – ANOVA

Analiza de varianţă – ANOVA – este cea mai riguroasă tehnică statistică de


analiză a măsurătorilor, aplicată pentru validarea sau invalidarea unui model, şi
depinde de mai mulţi factori care acţionează simultan în vederea estimării
importanţei şi efectelor fiecăruia.
Analiza de varianţă permite să se determine ce parte a variabilităţii unei
populaţii este cauzată de diverşi factori sistematici şi, respectiv de întâmplare.
În tabelul 5.10. sunt prezentate datele necesare pentru analiza de varianţă cu un
singur factor.
În vederea testării diferenţelor repetate dintre grupurile de măsurători, se
presupune că fiecare măsurătoare, y ij , este descrisă de media globală a valorilor
determinate, ytotal , media valorilor din fiecare grup, y j , şi eroarea întâmplătoare
reziduală, eij , conform relaţiei:
 
yij  ytotal  y j  ytotal  eij (5.58)
Tabelul 5.10. Date necesare pentru analiza de varianţă cu un singur factor

38
Prelucrări de date.Teorie şi aplicaţii.

Nr. de Grupul de măsurători


determinări
1 2 ... q
1 y11 y12 ... y1q
2 y21 y22 ... y2 q
… … … ... …
… y n11 y n2 2 ... ynqq
Media y1 y2 ... ytotal

Varianţa totală, exprimată ca suma de pătrate a variaţiilor faţă de medie, este


dată de variaţia dintre diferite grupuri şi în cadrul aceluiaşi grup. Aceasta înseamnă
2 , se obţine din suma de pătrate
că suma de pătrate totală corectată, SScor
corespunzătoare variaţiei valorilor dintre grupuri, SS 2fact , şi suma de pătrate

reziduală corespunzătoare variaţiei valorilor în grup, SS R2 :


2
SScor  SS 2fact  SS R2 (5.59)
unde:
q nj
2
SScor     yij  ytotal 2 (5.60)
j 1 i 1
q nj
SS 2fact   n j  y j  ytotal  2 şi y j  1  yij
n j i 1
(5.61)
j 1
q nj
SS R2     yij  y j 2 (5.62)
j 1 i 1
q nj
1
yˆ total    yij (5.63)
n j 1 i 1
unde:
q - numărul de grupuri;
nj - numărul de măsurători repetate pentru grupul j;
q
n - numărul total de măsurători (de exemplu, n   n j );
j 1

39
Gabriel Gorghiu, Laura Monica Gorghiu

Pentru validarea sau invalidarea modelului se utilizează testul statistic F,


valoarea calculată fiind dată de relaţia:
SS 2fact

F
q  1 (5.64)
SS R2
n  q 

Dacă F < Fn, N n , unde n şi N-n reprezintă gradele de libertate corespunzătoare,
iar  este nivelul de semnificaţie al testului, atunci se poate admite, cu
probabilitatea P = 1 -  , că modelul de regresie analizat exprimă corect relaţia
deterministă dintre variabilele dependente şi independente.
Pentru exemplificare, se prezintă analiza de varianţă – ANOVA în cazul analizei
de regresie liniară:
y  b0  b1 x (5.65)
sau
 y1   1 x1 
   
 y2   1 x2   0 
b

 ...  =  ... ...  *  


     b1  (5.66)
 ...   ... ... 
y   1 x 
 n  n 

iar valoarea parametrului b este dată de relaţia:



b  XT X 1 X T y (5.67)

În tabelul 5.11. se prezintă semnificaţia termenilor sumelor de pătrate (SS)


pentru analiza ANOVA completă în regresia liniară.

Tabelul 5.11. Calculul sumelor de pătrate (SS) în analiza ANOVA completă pentru
cazul regresiei liniare
Formula de Grade de
Suma de pătrate Matricea de operare
calcul liberate
n
SST , totală yT y  yi2 n
i 1

SSM , medie yT y ny2 1


n
SScor , corectată
 y  y T  y  y    yi  y 2 n-1
faţă de medie i 1

40
Prelucrări de date.Teorie şi aplicaţii.

Formula de Grade de
Suma de pătrate Matricea de operare
calcul liberate
n

SS fac , factorială  y  y T  y  y    yi  y 2 p-1
i 1
n

SS R , reziduală  y  y T  y  y    yi  yi 2 n-p
i 1
n

SSlof , lack-of-fit  j  y T  j  y    yi  yi 2 f-p
i 1
n
  yi  yi 2
SS pe , erori pur
 y  j T  y  j  n–f
experimentale i 1
j - acest vector reprezintă media valorilor pentru fiecare punct i;
f - numărul diferitelor determinări a variabilelor independente;
n - numărul de măsurători;
p - numărul de parametri;
1 n
y  yi - media totală.
n i 1

5.10.2.5. Calculul intervalelor de încredere

Informaţia necesară determinării intervalelor de încredere a parametrilor este


conţinută în matricea de varianţă – covarianţă, care poate fi exprimată în funcţie de
media sumelor de pătrate corespunzătoare erorilor pur experimentale, astfel:
C  MSS pe X T X 1 (5.68)
unde:
SS pe
MSS pe  (5.69)
n f
2
Pentru cazul în care SSlof are valori mici şi se foloseşte varianţa reziduală, s R ,
în locul varianţei datorate erorilor experimentale:
SS R
s R2  MSS R  (5.70)
np
iar matricea varianţă – covarianţă va avea expresia:

C  s R2 X T X 1 (5.71)

41
Gabriel Gorghiu, Laura Monica Gorghiu

Diagonala matricei varianţă – covarianţă constă din varianţa parametrilor


estimaţi iar ceilalţi termeni sunt daţi de covarianţa parametrilor.
În cazul modelului de regresie liniară, cu parametrii b0 şi b1, matricea
corespunzătoare este:
 Sb2 Sb20 ,b1 
C  20  (5.72)
 Sb ,b S 2 
 1 0 b 1 

S-ar putea să vă placă și