Sunteți pe pagina 1din 9

Anexe

ANEXA IV - Prelucrarea datelor experimentale


prin regresie

Activitatea unui inginer presupune lucrul cu numere, nu în sens abstract (ca


în matematică) sau virtual (ca în finanţe), ci având mărimi şi măsuri foarte bine
precizate (vezi Partea I). Valorile absolute ale mărimilor sunt mai importante ca în
fizică, de aceea se face raportarea permanentă la experimente. Datele numerice
manevrate de inginer sunt întotdeauna rezultatele unor experimente – uneori
proprii (măsurate într-o instalaţie de laborator, prototip sau pilot, vezi Preliminarii),
cel mai adesea însă preluate (adoptate) din literatură (reviste, enciclopedii, baze de
date). Extrem de puţine valori numerice (ale constantelor universale mai uzuale)
pot fi memorate (împreună cu unităţile lor), dar şi în aceste cazuri se recomandă
consultarea unor surse bibliografice, măcar pentru o eventuală precizie superioară
(vezi Anexele II şi III).
După prelevarea unor date experimentale, prima activitate ce trebuie
desfăşurată este prelucrarea primară, indispensabilă în cazul datelor proprii şi care
trebuie considerată efectuată deja de autori în cazul datelor preluate (din surse de
încredere!). Aici intră aplicarea unor metode de analiză numerică (statistică
matematică) – devenite clasice – în scopul corelării datelor (fitting), adică
verificării credibilităţii acestora şi eliminării eventualelor valori eronate (grosolan,
accidental, sistematic) din setul de determinări, astfel încât acesta să devină self-
consistent. Uneori, prelucrarea primară poate impune chiar necesitatea unor
determinări suplimentare (reluate sau extinse), după care întreaga procedură se reia
pentru noul set de date.
Prin corelare se înţelege stabilirea unei dependenţe funcţionale între
mărimile măsurate – cel mai simplu caz se referă la măsurarea a două caracteristici,
x şi y, în scopul găsirii funcţiei de legătură y = f(x). Această simplificare este
extremă deoarece nu există în natură fenomene care să fie descrise de numai două

231
Anexe
mărimi – întotdeauna vor exista şi alte influenţe (perturbaţii sau fluctuaţii), ca să nu
mai vorbim de imprecizii ale metodei, aparatelor sau chiar experimentatorului.
Considerând valabilă (la o anumită scală şi pe un anumit domeniu) dependenţa de
mai sus, să subliniem că există două cazuri, complet diferite din punct de vedere
fizic, tratate însă identic din punct de vedere statistic! În primul caz, forma funcţiei
f este cunoscută, eventual până la o constantă (coeficient, factor, exponent, termen
liber), din legile fizicii – există şi situaţia în care se doreşte chiar verificarea legii
(sau regulii) respective, deci f se cunoaşte în totalitate. Al doilea caz are în vedere
situaţia în care nu se cunoaşte nici măcar forma dependenţei y(x), corelarea datelor
neavând decât alternativa încercării unor dependenţe tipice din punct de vedere
matematic (polinom, putere, exponenţială, logaritmică, etc.). Statistic vorbind,
ambele cazuri vor fi tratate identic, pentru că legile fizicii respectă (în general)
acelaşi tip de dependenţe – mai mult, din diverse raţiuni (simplificări, neglijări,
generalizări), modelele din fizică se abat de la realitate (vezi cazul gazului ideal) şi
trebuie ”ajustate” oricum pentru corecţii de acelaşi tip (coeficienţi, exponenţi,
termeni liberi). Se obţin astfel relaţii empirice, bazate în totalitate pe analiza
numerică a datelor experimentale – corelate fără a şti vreo formă a dependenţei
y(x), respectiv semi-empirice (au la bază o lege fizică, ajustată astfel încât să
corespundă unui set de date experimentale). Trebuie subliniat că toate cantităţile
numerice obţinute astfel (aflarea funcţiei f se numeşte regresie) sunt dependente de
unităţile de măsură în care au fost introduse datele experimentale! Practic, aceste
constante sunt dimensionale (vezi Partea I, capitolul 3 şi Anexa III) şi trebuie
manevrate cu atenţie. Majoritatea lor (mai ales în cazul modelelor empirice) nu au
nici măcar un sens fizic!
Prezentăm mai jos principiile regresiei liniare şi multiliniare. Se va opera
cu termeni specifici statisticii, cum ar fi medii, dispersii (împrăştieri), abateri
(erori) relative sau absolute, coeficient de corelaţie, etc. Informaţii complete pot fi
găsite în orice carte de specialitate – s-au indicat câteva în Bibliografie. Cea mai
simplă metodă de regresie este cea liniară, numită şi ”metoda celor mai mici

232
Anexe
pătrate” (în acelaşi timp este şi cea mai veche!). Dacă se postulează (sau se ştie!)
dependenţa:
y  f ( x )  b 0  b1  x (A.1)
(adică ecuaţia unei drepte), găsirea ”formei” f înseamnă aflarea celor doi parametri,
ordonata la origine (b0), respectiv panta (coeficientul unghiular), b 1. Se aplică un
algoritm de optimizare, mai exact de minimizare a pătratelor abaterilor, exprimate
ca diferenţe între valorile calculate cu (A.1) şi notate y calc, respectiv cele măsurate,
notate yexp:
n
  yk ,exp  yk ,calc  2  min (A.2)
k 1

S-a notat cu n – numărul de (perechi de) valori determinate experimental. Datorită


ridicării la pătrat semnele diferenţelor dispar, astfel că nu contează ordinea din
expresia (A.2) şi nu poate interveni o ”compensare” a abaterilor pozitive cu cele
negative. În sens grafic, procedura echivalentă este de a ”duce o dreaptă printre
punctele experimentale”, astfel încât suma deviaţiilor să fie cât mai mică (minimă).
Analiza numerică are drept scop înlăturarea impreciziei şi subiectivismului (!),
inerente unui procedeu grafic.
Condiţia de minim din (A.2) este echivalentă cu anularea derivatelor parţiale de
ordinul I în raport cu necunoscutele, adică cei doi parametri ai regresiei, b 0 şi b1:

   n
 
  y k ,exp  b 0  b1  x k  2   0
 b 0  k 1  

   y 
n

 b1   k ,exp 0 1 k
b b x  2
0
  k  1 
 n
  2  
 y k,exp  b 0  b1  x k  0 
 k 1
 n
 2  x  y
 k k 
k ,exp  b 0  b1  x k  0 
1

233
Anexe
Se obţine un sistem de două ecuaţii ce poate fi scris în formă matriceală (după
simplificare, rearanjare şi introducerea sumelor în paranteze, deoarece ele
acţionează doar pentru xk şi yk):

b0 b1 
1  x k 
 y k,exp (A.3)
 x k  x 2k  x k  y k,exp
Se observă că determinantul sistemului este simetric faţă de prima diagonală,
precum şi faptul că, pentru rezolvarea sistemului prin metoda ştiută, trebuie
evaluate sumele ce joacă rol de coeficienţi. Dacă până nu demult se recomanda
întocmirea unui tabel şi efectuarea de sume pe coloane, astăzi se poate lucra în
Microsoft Excel, software ce cuprinde facilităţi pentru ambele aspecte (tabel şi
sumare). După obţinerea celor doi parametri, ecuaţia de regresie liniară trebuie
verificată! Subliniem că această etapă, de obicei trecută cu vederea, este la fel de
importantă ca celelalte – aici intră teste de semnificaţie ale coeficienţilor,
experimente repetate în acelaşi punct, etc. De regulă se calculează doar coeficientul
de corelaţie (aici liniară), după formula:
n   x k  y k ,exp   x k   y k ,exp

n   x    y k ,exp  2 
ry  x  (A.4)
   x k   n   y 2k ,exp 
2 2
k

Se observă că în (A.4) intervin aceleaşi sume care figurează şi în determinantul


sistemului (A.3) ori în termenii liberi (deci calculate deja!). Valorile acestui
coeficient de corelaţie sunt cuprinse între 0 şi 1 – deci altă mărime de tip fracţie! –
semnificaţia lui fiind apropierea relativă între linia (aici dreapta) de regresie şi
punctele experimentale. O corelaţie ”puternică” va calcula acest coeficient foarte
puţin subunitar, în vreme ce una ”slabă” va găsi valori mult subunitare, apropiate
chiar de zero! Explicaţia este simplă – forma ecuaţiei de regresie (aici dreapta) s-a
considerat a priori valabilă; dacă însă există influenţe necuantificate (adică sunt
variabile independente suplimentare!) în datele experimentale, punctele se vor
abate foarte mult (mai ales la marginile intervalului) de la ecuaţia propusă (practic,
graficul nu mai este o dreaptă!).

234
Anexe
În situaţia descrisă mai sus (când corelaţia liniară se dovedeşte
falimentară), echivalentă cunoaşterii a priori a unei dependenţe neliniare,
algoritmul descris aici poate fi generalizat la aşa-numita regresie multiliniară. De
exemplu, o funcţie liniară dependentă de două variabile independente care se
doreşte a fi găsită prin regresie are forma:
y  f ( x )  b 0  b1  x  b 2  z (A.5)
După un tratament absolut similar (abateri pătratice minimizate, sistem omogen
generat de anularea derivatelor parţiale), consecinţa apariţiei termenului
suplimentar este regăsită în ”bordarea” ecuaţiei matriceale (A.3) cu linii şi coloane
corespunzătoare noii variabile, forma elementelor fiind aceeaşi:

1  x k  zk  y k,exp
b0 b1 b2   x k  x k  zk  x k
2
  x k  y k ,exp
 z k  z k  x k  z 2k  z k  y k,exp
Determinantul sistemului a fost construit ţinând cont de simetria faţă de prima
diagonală, precum şi de scrierea liniilor 2 şi 3 pornind de la prima linie amplificată
pe rând cu xk, respectiv zk (valabil şi pentru coloana termenilor liberi). Devine
limpede procedura prin care se poate ”extinde” regresia la oricâte variabile
independente, forma ecuaţiei fiind în continuare liniară. Se complică doar
evaluarea determinanţilor – probabil că utilizarea computerelor devine
indispensabilă (vezi exemplul de mai jos). Absolut acelaşi lucru se obţine şi dacă se
doreşte o regresie pătratică (parabolică), sau, mai general, polinomială – dacă în
relaţia (A.5) se substituie variabila z cu x2 ecuaţia matriceală devine:

 x 0k  x1k  x 2k  x 0k  y k ,exp
b0 b1 b 2   x1k  x 2k  x 3k   x1k  y k ,exp
 x 2k  x 3k  x 4k  x 2k  y k ,exp
în care, pentru simetrie, s-a înlocuit 1 cu x 0. Este foarte clar procedeul prin care se
poate extinde regresia la ecuaţii cubice sau de orice ordin. Observaţi că forma

235
Anexe
elementelor determinantului se pretează perfect la utilizarea calculatorului, precum
şi faptul că sumele ce trebuie calculate suplimentar sunt tot mai puţine.

Aplicaţie.
Să se stabilească ecuaţia de regresie cubică pentru datele de mai jos:

Se utilizează pachetul software Microsoft Excel, în care se completează primele 3


coloane cu datele problemei. Se exploatează facilităţile de calcul funcţional şi
opţiunea Auto Fill pentru obţinerea celorlalte coloane şi a liniei de sumare de la
baza tabelului. Fiind în posesia tuturor elementelor din ecuaţia matriceală, se poate
rezolva sistemul şi afla coeficienţii regresiei cubice. Este recomandabil să utilizăm
tot Microsoft Excel – pe de o parte, calculul determinanţilor de rangul 4 este destul
de laborios, iar pe de altă parte, pachetul software are o secţiune destinată special
calculului de regresie! O primă variantă ar fi reprezentarea grafică (XY Scatter) a
punctelor (X, Yexp), după care se apelează (cu right click pe unul din puncte)
opţiunea Add Trendline, de unde alegem regresia dorită (aici polinomială, de gradul
3) şi bifăm opţiunile Display equation on chart, respectiv Display R-squared on
chart:

236
Anexe
astfel încât, împreună cu parametrii regresiei, obţinem şi confirmarea că ecuaţia
obţinută reprezintă foarte bine datele experimentale. Eventual, se pot încerca mai
multe regresii polinomiale (de diverse ordine) urmărind valorile parametrului r y-x în
scopul maximizării lui (acesta nefiind proporţional cu rangul polinomului!).
În sfârşit, procedura de regresie multiliniară poate fi extinsă la (aproape)
orice dependenţă y(x), cu condiţia liniarizării ei prealabile prin artificii matematice
(logaritmări, inversări ori combinări de variabile, etc.). De exemplu, aflarea
parametrilor cinetici din relaţia Arrhenius (I.11) presupune artificiul:

 E  1
ln k  ln k 0    Ga    
 R  T
astfel că identificarea cu relaţia (A.1) conduce la necesitatea logaritmării constantei
de viteză şi la inversarea temperaturii în vederea aplicării algoritmului (prelucrare
primară în raport cu regresia). Ulterior aflării constantelor, trebuie făcută
delogaritmarea lui b0 pentru aflarea lui k0, respectiv înmulţirea cu (– R G) pentru
calculul energiei de activare.

Aplicaţie.
Să se afle parametrii cinetici prin regresie pe următoarele date experimentale:

După prelucrările din coloanele 4 ÷ 6 se


face reprezentarea grafică, se adaugă
linia şi ecuaţia de regresie, calculând în

final k 0  4,73 108 min 1 , respectiv


(vezi Anexa II pentru valoarea lui R G)

E a  4,73  10 7 J / kmol .

237
Anexe
Un alt exemplu este aflarea coeficienţilor din ecuaţia Antoine (vezi Partea a II-a,
capitolul 2) din date experimentale de presiuni de vapori funcţie de temperatură
B0
ln pV  B1 
B2  T
Forma relaţiei reclamă în cadrul prelucrării primare atât logaritmarea presiunii (cu
logaritm natural sau zecimal), cât şi aducerea expresiei în forma:
T  ln p V  B1  B 2  B0  B1  T  B 2  ln p V

Deoarece dependenţa are forma (A.5), se poate aplica regresia multiliniară –


observaţi combinarea variabilelor şi a constantelor! Desigur că sunt necesare şi
calcule suplimentare pentru ”revenirea” la constantele iniţiale (aici pentru B 0).
Nu este indispensabilă reprezentarea grafică pentru calculul şi afişarea
ecuaţiei de regresie liniară în Microsoft Excel. Alternativa o constituie utilizarea
funcţiilor pre-definite din grupul Statistical: panta şi ordonata la origine pot fi
calculate direct din tabelul de date primare cu slope, respectiv intercept; dacă nu
interesează constantele din ecuaţia de regresie liniară, ci utilizarea datelor
respective pentru prezicerea unei valori a variabilei dependente, se poate apela o
altă funcţie, forecast (această funcţie poate fi utilizată şi pentru calculul valorilor
ycalc în vederea estimării erorilor absolute şi relative, ca în exemplul de mai jos).

Aplicaţie.
Într-un experiment de filtrare s-au obţinut următoarele perechi de date (volum
filtrat, în cm3 – timp de colectare, în min):

238
Anexe
Ordonata la origine b0, respectiv panta b1, din ecuaţia de regresie liniară (A.1) se
calculează cu funcţiile amintite (intercept şi slope) în extremitatea dreaptă a
tabelului; cu ajutorul lor putem calcula apoi datele din ultima coloană, V calc.
Utilizarea funcţiei forecast este ilustrată în tabel prin calculul ”derivatelor” (de
fapt, a rapoartelor de diferenţe) din coloana (dt / dV) calc – pentru comparaţie, se
reprezintă grafic şi valorile experimentale ale acestui raport, utilizate de altfel ca
argumente în funcţia respectivă, împreună cu volumele corespunzătoare:

A doua etapă majoră de prelucrare a datelor experimentale (atât proprii cât


şi adoptate) o reprezintă reconcilierea. Cu foarte puţine excepţii, măsurătorile care
au produs setul de determinări (self-consistent) s-au mai făcut, chiar dacă în
condiţii diferite şi/sau instalaţii diferite (principial sau constructiv), ori au fost
efectuate mai mult sau mai puţin similar, însă au fost prelucrate (primar) cu alte
tehnici! Trebuie avut în vedere faptul că toate datele publicate (disponibile!) au
suferit (în principiu) o prelucrare primară, eventual şi reconcilieri cu determinări
mai vechi. La ora actuală, accesul la o bază de date simplifică mult lucrurile, pentru
că toate aceste eforturi au fost făcute deja... însă costul acestui acces poate fi destul
de ridicat (fie că este vorba de baze de date mici, ”portabile”, incluse în pachete
software de simulare, cum ar fi HYSYS, fie că se are în vedere accesul prin
Internet la baze de date uriaşe, tip DECHEMA). Trebuie considerată deci şi această
fază, a verificării corelaţiilor obţinute pe seturi de date mici (proprii sau preluate)
în raport cu alte corelaţii (mai mult sau mai puţin) asemănătoare disponibile (ori
testarea lor pe alte seturi de date).

239