Modelarea Matematica. Analiza de Regresie

1.
Despre modelarea matematică
Modelarea matematică se realizează în cadrul unui sistem filozofic numit pozitivism, sistem
introdus de matematicianul şi filozoful francez August Compte, dar cu rădăcini în operele
filozofilor: englez David Hume, francez Saint Simon şi german Immanuel Kant. Pozitivismul
se bazează pe experienţă şi cunoaşterea empirică a fenomenelor naturale şi priveşte ca
inadecvată şi imperfectă cunoaşterea prin metafizică sau teologie. Consideră că prin
cunoaşterea ştiinţifică forţele naturii pot fi controlate. Între anii 1920 – 1930, Şcoala de la
Viena a introdus pozitivismul logic, care postula că orice acţiune care nu poate fi confirmată
de experienţă nu este semnificativă. Descoperirile ştiinţifice importante de la începutul acestui
secol, au relaxat principiile rigide ale Şcolii de la Viena şi au determinat prin lucrările
filozofului englez W. N. O. Quine să se admită ca instrumente principale de lucru pentru un
cercetător în ştiinţe aplicate: logica, matematica şi observaţia experimentală, instrumente care
poate fi orientate de teorie.
Modelarea matematică utilizează reprezentări matematice simplificate ale sistemelor lumii

reale, ale proceselor sau ale teoriilor. Modelele matematice sunt create cu scopul de a facilita
înţelegerea, prezicerea şi controlul unui sistem.
Un model matematic este simbolic şi se utilizează pentru a exprima idei şi a clarifica

probleme. Un model bun reprezintă o replică fidelă a realităţii. Validarea modelului presupune
confirmarea ipotezelor simplificatoare de lucru, a calităţii datelor experimentale prin
rezultatele obţinute şi concluziile desprinse.
Modelarea matematică se utilizează cu succes în situaţii limită, când experimentarea este prea
scumpă, prea periculoasă sau practic imposibilă. Sinteza unui experiment într-un model
matematic şi utilizarea lui în locul experimentului constituie adevăratul succes al acestei
activităţi.
Aşa cum sugerează figura 1.1 schematizarea fenomenului real face posibilă descrierea
matematică. Reprezentarea mentală schematică se numeşte model fizic, iar reprezentarea
matematică model matematic.
Modelul matematic constituie un instrument de lucru fundamental pentru un inginer. Este

alcătuit dintr-un ansamblu de relaţii matematice apte să descrie corect interdependenţa
variabilelor procesului. Prin relaţii matematice se înţelege orice mijloc abstract capabil să
descrie cantitativ interdependenţa variabilelor cum ar fi: ecuaţii, inecuaţii, tabele, diagrame,
ecuaţii chimice, subrutine de calcul sau chiar programe de calcul.
Modelele matematice pot fi statice sau dinamice, pot fi locale sau globale, pot fi deterministe
sau statistice.
-1-
Figura 1.1 – Schematizarea pe care o suportă
un obiect real prin reprezentare într-un model fizic /14/.
Modele deterministe sunt alcătuite din ecuaţii de conservare de proprietate la care se

ataşează ecuaţiile constitutive şi ecuaţiile specifice fenomenului şi termenilor ecuaţiilor.
Complexitatea acestor modele şi dificultăţile practic insurmontabile în soluţionare le limitează
aplicabilitatea. Dezvoltarea tehnicii de calcul şi a metodelor numerice de soluţionare a
sistemelor de ecuaţii diferenţiale, reprezentative pentru acest tip de modelele, sintetizate în
algoritmi de calcul performanţi oferă, în principal, caracter de predicţie acestor modele.
Modelele statistice sunt modele cu exprimare matematică simplă, fapt care explică utilizarea
lor cu succes în practică. Reprezintă sinteza matematică a unei experiment practic şi din acest
motiv utilizarea lor se face numai în cadrul limitelor în care s-a desfăşurat experimentul. Orice
extrapolare nu este recomandată.
Utilizarea preponderentă în practică a modelelor statistice, i-a determinat pe filozofi să afirme
că la sfârşitul secolului XX “Ingineria se apropie mai mult de artă decât de ştiinţă”.
 Modelul matematic este o descriere cantitativă, idealizată a unui fenomen real

schematizat într-un model fizic.
 Modelele statistice sau empirice constituie principalul instrument de lucru al
inginerului.
2. Despre analiza de regresie
Activitatea desfăşurată pentru obţinerea unui model statistic se numeşte analiză de regresie.
Scopul principal al acestei activităţi este de a identifica relaţia matematică dintre o variabilă
dependentă şi una sau mai multe variabile independente. O dată identificată, această relaţie se
poate utiliza la calculul variabilei dependente în funcţie de valori cunoscute ale variabilelor
independente. Etapele principale ale analizei de regresie sunt /11, 12/:
-2-
1. Listarea variabilelor care influenţează fenomenul.
2. Propunerea formei matematice a modelului.
3. Obţinerea datelor experimentale.
4. Determinarea coeficienţilor modelului.
5. Analiza calităţii modelului.
Dacă modelul matematic nu trece testele de calitate se reia activitatea de la punctul 1, dacă se
constată că s-au omis variabile care pot influenţa procesul şi de la punctul 2, dacă se constată
că forma modelului propus nu este corespunzătoare.
În cazul în care se corelează date experimentale care descriu un fenomen cunoscut, cazul cel
mai des întâlnit în activitatea din laborator, analiza de regresie începe cu etapa a doua sau
chiar a treia.
În continuare se vor prezenta principalele activităţi desfăşurate în cadrul fiecărei etape.
1. Este o etapă importantă, deoarece eventualele greşeli în formularea ei pot compromite

întreaga activitate. Se realizează pe baza informaţiilor culese din literatura de specialitate,
prin analogie cu alte fenomene sau pe baza experienţei proprii. Se vor lista numai
variabilele semnificative.
2. Alegerea formei modelului impune stabilirea numărului de ecuaţii independente şi

formei acestora. Pe lângă sursele prezentate la punctul 1, se poate utiliza teorema . Dacă
se urmăreşte corelarea unor date experimentale alcătuite dintr-o variabilă independentă şi
una dependentă într-un model matematic, forma acestuia se poate stabili prin compararea
curbelor obţinute prin reprezentarea grafică a datelor experimentale cu reprezentările unor
funcţii matematice tip prezentate în tabelul 1 din anexă.
Se utilizează modele polinomiale de diferite grade:
- polinom de gradul unu: y  b 0  b 1 x1  b 2 x 2 (2.1)

- polinom de gradul doi:
y  b 0  b 1 x 1  b 2 x 2  b 11 x 12  b 22 x 22  b 12 x 1 x 2 (2.2)
- ecuaţii produs care se pot liniariza prin logaritmare:
k b
y  b0  x j j (2.3)
j1
Aceste două etape reprezintă “partea intelectuală” forte a activităţii de regresie şi din acest
motiv va depinde în mare parte de “gradul de educaţie”, flerul şi experienţa rezolvitorului.
-3-
Un caz particular îl constituie modelele a căror variabile au caracter calitativ. De exemplu
se urmăreşte să se stabilească care variantă este preferată de piaţa liberă pentru stocarea
reziduurilor menajere: în pungi de plastic sau în containere. Modelul matematic va corela
cifra vânzărilor în funcţie de o variabilă fictivă x, care va lua valoarea 1 pentru pungi de
plastic şi 0 pentru containere. Numărul variabilelor fictive este egal cu jumătate din
numărul variabilelor calitative, dacă numărul acestora este par şi cu jumătate plus unu
pentru un număr impar.
3. Obţinerea datelor experimentale reprezintă partea cea mai laborioasă a analizei de

regresie. Pentru reducerea volumul de muncă şi costului activităţii se recomandă, atunci
când este posibil, să se efectueze experienţele în regim programat. Acest subiect este tratat
în secţiunea 6 a lucrării.
Calitatea datelor experimentale se apreciază cu mărimi statistice a căror utilizare este
reglementată prin standarde; vor fi prezentate în secţiunea 7 a lucrării. Acestea confirmă
trei condiţii pe care trebuie să le îndeplinească datele experimentale:
- să fie suficiente
- să acopere întreg domeniul de variaţie al variabilelor
- să fie reproductibile
În cazul în care se urmăreşte obţinerea unei ecuaţii de corelarea a unui set de date
experimentale format dintr-o variabilă independentă şi una dependentă se impune examinarea
graficului care reprezintă câmpul de distribuţie al celor două mărimi, pentru a aprecia dacă
între acestea există o dependenţă oarecare. Se procedează astfel:
 Dacă perechile de valori y, x se situează pe o fâşie care se poate asocia unei curbe
determinată, se apreciază că între mărimile respective există o relaţie funcţională – vezi
figura 2.2.
 Dacă nu se poate depista o dependenţă funcţională strictă între variabile – vezi figura 2.3,
deoarece punctele câmpului de distribuţie sunt repartizate destul de dezordonat, dar se
poate întrevedea o tendinţă ca valorile lui y să depindă de x, se poate afirma că între y şi x
există o relaţie corelaţională.
 Dacă nu se poate depista nici o legătură între y şi x, câmpul de distribuţie se va prezenta în

mod asemănător cu cel din figura 2.4.
Ultimele două cazuri se tratează în continuare astfel: se examinează tabelele cu perechi de

   
date experimentale (xi, y ) şi ( x i , yi). Dacă se ajunge la concluzia că între x şi y sau x şi y
i
apare o relaţie de dependenţă, adică perechile de valori sunt uniform crescătoare sau
descrescătoare, se poate aprecia că între x şi y există o dependenţă corelaţională. Cu alte
-4-
cuvinte între mărimile aleatoare x şi y există o dependenţă corelaţională dacă fiecărei mărimi

x îi corespunde o cantitate nedefinită de valori y, dar media aritmetică a valorilor lui y
depinde de valorile lui x.
25
20
15
Y
10
-5
0 5 10 15 20
X
Figura 2.2 – Set de date între care este o relaţie funcţională
10
6
Y
1 2 3 4 5
X
Figura 2.3 – Set de date între care există o relaţie corelaţională
-5-
3.5
3.0
2.5
Y 2.0
1.5
1.0
1.0 1.2 1.4 1.6 1.8 2.0

X
Figura 2.4 – Set de date între care nu există nici o relaţie corelaţională /13/.
14
12
10
Y 8
2
3 4 5 6 7 8 9
X

Figura 2.5 – Reprezentarea grafică din figura 4 în coordonate (x, y )
-6-
12
10
8
Y
2
3 4 5 6 7 8
X

Figura 2.6 - Reprezentarea grafică din figura 4 în coordonate (x, y ) după eliminarea
măsurătorilor considerate anormale.
O problemă dificilă o constituie situaţia în care mai multe modelele pot corela datele
experimentale. În figura 2.7 este prezentat un exemplu în care datele experimentale pot fi
corelate fie printr-un model liniar , fir printr-un model neliniar. “Concurenţa” dintre aceste

modele se soluţionează în cazul prezentat în figura 2.7 prin înlocuirea Y cu Y (punctele
încercuite). Se constată că dependenţa dintre variabile este neliniară.
În concluzie:
 Dependenţa corelaţională se poate transforma în dependenţă funcţională, doar în cazul

particular, în care prin reprezentare grafică punctele experimentale se aşeză pe o curbă,
eventual pe o dreaptă.
 Dependenţa corelaţională se abate mai mult sau mai puţin de la dependenţa funcţională,
iar măsura acestei abateri se poate determina pe cale numerică.
-7-
Figura 2.7 – Exemplu de confuzie între un model liniar şi unul neliniar de corelare a unui set
de date experimentale /9/.
Pentru aprecierea cantitativă a gradului de corelaţie al datelor experimentale se utilizează

covarianţa (x, y). Aceasta este o unitate de măsură a gradului de legătură dintre două variabile
individuale şi se defineşte astfel:
cov( x, y ) 
 
 xi  x y i  y  (2.4)
N 1
S-a notat cu N numărul determinărilor experimentale.
Valoarea zero a covarianţei arată că variabilele procesului nu se corelează, iar valorile pozitive
sau negative ale acesteia indică existenţa unei corelaţii. În cazul datelor experimentale
prezentate în figura 2.4 covarianţa este 1,69, valoare care confirmă reprezentarea grafică din
figura 2.5 şi anume că datele experimentale se pot corela printr-un model liniar.
4. Determinarea coeficienţilor modelului matematic liniar sau liniarizabil.
Coeficienţii modelelor liniare se determină cu următoarele metode:
 metoda grafică
 metoda mediilor
 metoda celor mai mici pătrate
-8-
Metoda grafică se utilizează pentru modelele cu doi coeficienţii şi oferă rezultate cu o clasă de
precizie redusă.
Metoda mediilor constă în soluţionarea sistemului de ecuaţii liniar, rezultat în urma înlocuirii
a două seturi de valori ale mediilor aritmetice ale datelor experimentale. Este o metodă a cărei
soluţie depinde de asocierea în cele două seturi ale variabilelor.
Cea mai utilizată este metoda celor mai mici pătrate, deoarece calculează coeficienţii
modelului care corelează datele experimentale cu abatere pătratică minimă. După cum
sugerează figura 2.2, dreapta de regresie exprimă tendinţa de evoluţie a unor măsurători
experimentale.
Pentru un model cu o variabilă dependentă şi una independentă modelul este de următoarea

formă:
y   0  1 x   (2.5)
S-au notat cu  0 şi  1 coeficienţii modelului şi cu , eroarea absolută cu care y nu poate

descrie expresia liniară în funcţie de x. Dacă  este egală cu zero, modelul este determinist şi
în acest caz cunoaşterea lui x este suficientă pentru calcularea lui y. În mod analog,
consideraţiile anterioare se extind asupra unui model liniar cu n variabile independente a cărui
ecuaţie de corelare este de următoarea formă:
y   0   1 x 1   2 x 2  ....   n x n   (2.6)
Metoda celor mai mici pătrate înlocuieşte ecuaţiile (2.5) şi (2.6) cu următoarele expresii:
^
y  b 0  b1 x (2.7)
respectiv:
^
y  b 0  b1x1  b 2x 2  ....  bn xn (2.8)
^
În figura 2.2, perechile de valori y şi x se găsesc pe dreapta de regresie în timp ce perechile
^
y şi x sunt reprezentate de punctele experimentale. Diferenţa dintre valorile y şi y este
cunoscută sub denumirea de abatere sau reziduală.
-9-
Dacă se notează cu yj şi xij un set j de date experimentale, j = 1..M, se propune ca modelul
matematic să coreleze cu abatere pătratică minimă, S, datele experimentale:
2 2
M  M n 
^
minS yjyj yjb0bixij (2.9)
j1  j1 i1 

Pentru un model cu o variabilă independentă şi ca urmare cu doi coeficienţi, soluţia sistemului
obţinut prin derivare reprezintă minimul următorului sistem:
S M
 2   y i  b 0  b 1 x 1i   0 (2.10.1)
b 0 i 1
S M
 2   y i  b 0  b 1 x 1i x 1i  0 (2.10.2)
b 1 i 1
După rezolvarea sistemului se obţine:
M  x 12i  y i   x 1i  x 1i y i
b0  (2.11.1)
M  x 12i    x 1i 
2
M  x 1i y i   x 1i  y i
b1  (2.11.2)
M  x 12i    x 1i 
2
În cazul în care dependenţa dintre variabilele procesului este neliniară şi neliniarizabilă,

problema se soluţionează prin minimizarea sumei rezidualei prin metode de optimizare
specifice, iar activitatea se numeşte analiză de regresie neliniară.
Regresia liniară se poate extinde şi modelelor exprimate printr-o ecuaţie parabolică de
următoarea formă:
y  b 0  b1 x  b 2 x 2 (2.12)
Sistem obţinut prin derivare în raport cu necunoscutele problemei, coeficienţii de tip b, este,
după cum se observă, liniar:
- 10 -
 y i  Mb 0  b 1  x i  b 2  x i2
 2 3
 x i y i  b 0  x i  b 1  x i  b 2  x i (2.13)
 2 2 3 4
 y i x i  b 0  x i  b 1  x i  b 2  x i
Observaţie: Calculul coeficienţilor modelului este o problemă de optimizare. Ca orice

problemă de optimizare, soluţia acesteia depinde de criteriul de selecţie ales. În acest caz,
soluţia obţinută corespunde sumei minime a pătratelor rezidualelor, care constituie criteriul de
selecţie cel mai utilizat, deoarece prin formulare se introduce gradul de neliniaritate necesar
soluţionării unei astfel de probleme. În cazul modelelor neliniare, criteriul de selecţie se
modifică, deoarece nu mai este necesar să fie exprimat printr-o relaţie neliniară.
5. Analiza calităţii modelului impune apelarea la un set de teste statistice pentru a aprecia
cantitativ adecvanţa modelului matematic sau gradul în care ecuaţia de corelare reprezintă
datele experimentale. Se utilizează:
 coeficientul de determinare;
 coeficientul de corelaţie;
 testul Fisher.
 Coeficientul de determinare, r2y,x, reprezintă coeficientul cel mai utilizat pentru aprecierea
calităţii ecuaţiei de regresie. Se defineşte ca raportul dintre:
- 11 -
2
n mi   
  yij  yi 
2 i1j1 
r
yx 2
(2.14)
n mi  ^
  yij  yi 
i1 j  
S-au notat cu:
^
- yi - valoarea furnizată de model în punctul i,

- y i - valoarea mediei aritmetice a replicatelor în punctul i,
- yij – valoarea unei replicate în punctul ij,
- i = 1..n, contorul celor n puncte distincte în care s-au făcut măsurători experimentale,
- j = 1..mi, contorul replicatelor executate într-un punct distinct i; în fiecare punct se
efectuează mi replicate.
Coeficientul de determinare ia valori cuprinse între 0 şi 1. Valoarea 1 semnifică o corelare

foarte bună între datele experimentale şi model. Valoarea 0 atrage atenţia că datele
experimentale nu se corelează printr-un model liniar. Pentru calculele ştiinţifice o valoare mai
mare de 0,6 confirmă corelarea de tip liniar. Exprimat în procente, coeficientul de determinare
reprezintă procentul din datele experimentale care se corelează printr-o relaţie liniară.
 Coeficientul de corelaţie, ry,x este o măsură a legăturii de tip liniar care există între
variabile. Se defineşte astfel:
ry ,x 

 xi  x y i  y  
(2.15)

 xi  x  y i  y  
2
 2
- 12 -
Valoarea coeficientului de corelaţie variază în intervalul (-1; 1); valoarea +1 confirmă că
variabilele se corelează perfect printr-o dreaptă în care variabilele sunt direct proporţionale,
iar valoarea –1 are aceeaşi semnificaţie cu deosebirea că indică un raport invers proporţional
între variabile. Valoarea zero semnalează că variabile nu se pot corela printr-un model liniar.
Dacă coeficientul de corelaţie se calculează din coeficientul de determinare, i se atribuie
semnul coeficientului b1 din ecuaţia de regresie, adică a coeficientului aferent variabilei x1.
 Testului Fisher, Fc, se defineşte ca raportul dintre dispersia datelor experimentale şi

dispersia datelor experimentale faţă de valorile calculate pe baza modelului matematic:
s 12
Fc  (2.16)
s 22
Pentru obţinerea dispersiei datorată erorilor experimentale, s 12 sunt necesare experienţe cu

replicate. Se defineşte astfel:
i 1
n

 y' i  y  2
(2.17)
s 12 
n'1
unde y reprezintă media aritmetică a răspunsurilor celor n’ replicate.
Dispersia faţă de modelul matematic, s 22 este:
2
N ^ 
yiyi 
2 1 
(2.18)
s2 
Nn"
- 13 -
^
unde yi reprezintă valoarea calculată cu modelul matematic, yi valorile experimentale, N
numărul de determinări experimentale, n’ numărul constantelor din model plus o unitate (N-
n’’, n’-1 reprezintă gradele de libertate ale dispersiilor s 12 şi s 22 ).
Valorile calculate pentru testul Fisher rezultate din raportul celor două dispersii se compară cu
cele tabelate; dacă Fc  F se poate considera că modelul matematic reprezintă datele
experimentale. În tabelul 8 din anexă sunt date valorile testului Fisher Pentru modelele liniare
cu mai multe variabile independente se utilizează testul G ale cărui valori sunt date în tabelul
9 din anexă, iar definiţia este prezentată în secţiunea 7 a lucrării.
Analiza rezidualelor joacă un rol important în validarea unui model. Se presupune că

reziduala – diferenţa dintre previziunea modelului şi măsurătoarea experimentală, satisface
următoarele ipoteze:
- este o variabilă aleatoare a cărei valoare se doreşte să fie zero,

- legea de variaţie a rezidualei este aceeaşi cu a variabilei x,
- valorile rezidualei sunt independente,
- reziduala este normal distribuită.
^
Reprezentarea grafică a rezidualei în funcţie de y i , pentru toate punctele experimentale, este
o bandă orizontală de puncte pentru un model cu un coeficient de determinare mare. Abateri
de la această bandă sugerează adesea căile prin care modelul poate fi îmbunătăţit.
Analiza de regresie exprimă o relaţie de tip cauză – efect între variabile, iar coeficientul de
corelaţie gradul în care variabilele se asociază unui model liniar. Orice concluzie asupra
rezultatelor obţinute, se recomandă să se efectueze cu mare prudenţă şi numai după o judecată
analitică a fenomenului fizic studiat.
 Analiza de regresie este activitatea de identificare şi obţinere a unui model

matematic statistic
 Calitatea modelului se apreciază cu teste statistice
- 14 -

Modelarea Matematica. Analiza de Regresie

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelarea Matematica. Analiza de Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

1.

Despre modelarea matematică

Modelarea matematică utilizează reprezentări matematice simplificate ale sistemelor lumii

Un model matematic este simbolic şi se utilizează pentru a exprima idei şi a clarifica

Modelul matematic constituie un instrument de lucru fundamental pentru un inginer. Este

Modele deterministe sunt alcătuite din ecuaţii de conservare de proprietate la care se

 Modelul matematic este o descriere cantitativă, idealizată a unui fenomen real

2. Despre analiza de regresie

În continuare se vor prezenta principalele activităţi desfăşurate în cadrul fiecărei etape.

1. Este o etapă importantă, deoarece eventualele greşeli în formularea ei pot compromite

2. Alegerea formei modelului impune stabilirea numărului de ecuaţii independente şi

Se utilizează modele polinomiale de diferite grade:

- polinom de gradul unu: y  b 0  b 1 x1  b 2 x 2 (2.1)

- ecuaţii produs care se pot liniariza prin logaritmare:

3. Obţinerea datelor experimentale reprezintă partea cea mai laborioasă a analizei de

 Dacă nu se poate depista nici o legătură între y şi x, câmpul de distribuţie se va prezenta în

Ultimele două cazuri se tratează în continuare astfel: se examinează tabelele cu perechi de

Figura 2.2 – Set de date între care este o relaţie funcţională

Figura 2.3 – Set de date între care există o relaţie corelaţională

1.0 1.2 1.4 1.6 1.8 2.0

 Dependenţa corelaţională se poate transforma în dependenţă funcţională, doar în cazul

Pentru aprecierea cantitativă a gradului de corelaţie al datelor experimentale se utilizează

S-a notat cu N numărul determinărilor experimentale.

4. Determinarea coeficienţilor modelului matematic liniar sau liniarizabil.

Coeficienţii modelelor liniare se determină cu următoarele metode:

Pentru un model cu o variabilă dependentă şi una independentă modelul este de următoarea

S-au notat cu  0 şi  1 coeficienţii modelului şi cu , eroarea absolută cu care y nu poate

j1  j1 i1 

După rezolvarea sistemului se obţine:

În cazul în care dependenţa dintre variabilele procesului este neliniară şi neliniarizabilă,

Observaţie: Calculul coeficienţilor modelului este o problemă de optimizare. Ca orice

Coeficientul de determinare ia valori cuprinse între 0 şi 1. Valoarea 1 semnifică o corelare

 Testului Fisher, Fc, se defineşte ca raportul dintre dispersia datelor experimentale şi

Pentru obţinerea dispersiei datorată erorilor experimentale, s 12 sunt necesare experienţe cu

unde y reprezintă media aritmetică a răspunsurilor celor n’ replicate.

Dispersia faţă de modelul matematic, s 22 este:

Analiza rezidualelor joacă un rol important în validarea unui model. Se presupune că

- este o variabilă aleatoare a cărei valoare se doreşte să fie zero,

 Analiza de regresie este activitatea de identificare şi obţinere a unui model

S-ar putea să vă placă și