Documente Academic
Documente Profesional
Documente Cultură
Modelarea Matematica. Analiza de Regresie
Modelarea Matematica. Analiza de Regresie
Modelarea matematică se realizează în cadrul unui sistem filozofic numit pozitivism, sistem
introdus de matematicianul şi filozoful francez August Compte, dar cu rădăcini în operele
filozofilor: englez David Hume, francez Saint Simon şi german Immanuel Kant. Pozitivismul
se bazează pe experienţă şi cunoaşterea empirică a fenomenelor naturale şi priveşte ca
inadecvată şi imperfectă cunoaşterea prin metafizică sau teologie. Consideră că prin
cunoaşterea ştiinţifică forţele naturii pot fi controlate. Între anii 1920 – 1930, Şcoala de la
Viena a introdus pozitivismul logic, care postula că orice acţiune care nu poate fi confirmată
de experienţă nu este semnificativă. Descoperirile ştiinţifice importante de la începutul acestui
secol, au relaxat principiile rigide ale Şcolii de la Viena şi au determinat prin lucrările
filozofului englez W. N. O. Quine să se admită ca instrumente principale de lucru pentru un
cercetător în ştiinţe aplicate: logica, matematica şi observaţia experimentală, instrumente care
poate fi orientate de teorie.
Aşa cum sugerează figura 1.1 schematizarea fenomenului real face posibilă descrierea
matematică. Reprezentarea mentală schematică se numeşte model fizic, iar reprezentarea
matematică model matematic.
-1-
Figura 1.1 – Schematizarea pe care o suportă
un obiect real prin reprezentare într-un model fizic /14/.
Activitatea desfăşurată pentru obţinerea unui model statistic se numeşte analiză de regresie.
Scopul principal al acestei activităţi este de a identifica relaţia matematică dintre o variabilă
dependentă şi una sau mai multe variabile independente. O dată identificată, această relaţie se
poate utiliza la calculul variabilei dependente în funcţie de valori cunoscute ale variabilelor
independente. Etapele principale ale analizei de regresie sunt /11, 12/:
-2-
1. Listarea variabilelor care influenţează fenomenul.
2. Propunerea formei matematice a modelului.
3. Obţinerea datelor experimentale.
4. Determinarea coeficienţilor modelului.
5. Analiza calităţii modelului.
Dacă modelul matematic nu trece testele de calitate se reia activitatea de la punctul 1, dacă se
constată că s-au omis variabile care pot influenţa procesul şi de la punctul 2, dacă se constată
că forma modelului propus nu este corespunzătoare.
În cazul în care se corelează date experimentale care descriu un fenomen cunoscut, cazul cel
mai des întâlnit în activitatea din laborator, analiza de regresie începe cu etapa a doua sau
chiar a treia.
y b 0 b 1 x 1 b 2 x 2 b 11 x 12 b 22 x 22 b 12 x 1 x 2 (2.2)
k b
y b0 x j j (2.3)
j1
Aceste două etape reprezintă “partea intelectuală” forte a activităţii de regresie şi din acest
motiv va depinde în mare parte de “gradul de educaţie”, flerul şi experienţa rezolvitorului.
-3-
Un caz particular îl constituie modelele a căror variabile au caracter calitativ. De exemplu
se urmăreşte să se stabilească care variantă este preferată de piaţa liberă pentru stocarea
reziduurilor menajere: în pungi de plastic sau în containere. Modelul matematic va corela
cifra vânzărilor în funcţie de o variabilă fictivă x, care va lua valoarea 1 pentru pungi de
plastic şi 0 pentru containere. Numărul variabilelor fictive este egal cu jumătate din
numărul variabilelor calitative, dacă numărul acestora este par şi cu jumătate plus unu
pentru un număr impar.
- să fie suficiente
- să acopere întreg domeniul de variaţie al variabilelor
- să fie reproductibile
În cazul în care se urmăreşte obţinerea unei ecuaţii de corelarea a unui set de date
experimentale format dintr-o variabilă independentă şi una dependentă se impune examinarea
graficului care reprezintă câmpul de distribuţie al celor două mărimi, pentru a aprecia dacă
între acestea există o dependenţă oarecare. Se procedează astfel:
Dacă perechile de valori y, x se situează pe o fâşie care se poate asocia unei curbe
determinată, se apreciază că între mărimile respective există o relaţie funcţională – vezi
figura 2.2.
Dacă nu se poate depista o dependenţă funcţională strictă între variabile – vezi figura 2.3,
deoarece punctele câmpului de distribuţie sunt repartizate destul de dezordonat, dar se
poate întrevedea o tendinţă ca valorile lui y să depindă de x, se poate afirma că între y şi x
există o relaţie corelaţională.
25
20
15
Y
10
-5
0 5 10 15 20
X
10
6
Y
1 2 3 4 5
X
-5-
3.5
3.0
2.5
Y 2.0
1.5
1.0
Figura 2.4 – Set de date între care nu există nici o relaţie corelaţională /13/.
14
12
10
Y 8
2
3 4 5 6 7 8 9
X
Figura 2.5 – Reprezentarea grafică din figura 4 în coordonate (x, y )
-6-
12
10
8
Y
2
3 4 5 6 7 8
X
Figura 2.6 - Reprezentarea grafică din figura 4 în coordonate (x, y ) după eliminarea
măsurătorilor considerate anormale.
O problemă dificilă o constituie situaţia în care mai multe modelele pot corela datele
experimentale. În figura 2.7 este prezentat un exemplu în care datele experimentale pot fi
corelate fie printr-un model liniar , fir printr-un model neliniar. “Concurenţa” dintre aceste
modele se soluţionează în cazul prezentat în figura 2.7 prin înlocuirea Y cu Y (punctele
încercuite). Se constată că dependenţa dintre variabile este neliniară.
În concluzie:
Dependenţa corelaţională se abate mai mult sau mai puţin de la dependenţa funcţională,
iar măsura acestei abateri se poate determina pe cale numerică.
-7-
Figura 2.7 – Exemplu de confuzie între un model liniar şi unul neliniar de corelare a unui set
de date experimentale /9/.
cov( x, y )
xi x y i y (2.4)
N 1
Valoarea zero a covarianţei arată că variabilele procesului nu se corelează, iar valorile pozitive
sau negative ale acesteia indică existenţa unei corelaţii. În cazul datelor experimentale
prezentate în figura 2.4 covarianţa este 1,69, valoare care confirmă reprezentarea grafică din
figura 2.5 şi anume că datele experimentale se pot corela printr-un model liniar.
metoda grafică
metoda mediilor
metoda celor mai mici pătrate
-8-
Metoda grafică se utilizează pentru modelele cu doi coeficienţii şi oferă rezultate cu o clasă de
precizie redusă.
Metoda mediilor constă în soluţionarea sistemului de ecuaţii liniar, rezultat în urma înlocuirii
a două seturi de valori ale mediilor aritmetice ale datelor experimentale. Este o metodă a cărei
soluţie depinde de asocierea în cele două seturi ale variabilelor.
Cea mai utilizată este metoda celor mai mici pătrate, deoarece calculează coeficienţii
modelului care corelează datele experimentale cu abatere pătratică minimă. După cum
sugerează figura 2.2, dreapta de regresie exprimă tendinţa de evoluţie a unor măsurători
experimentale.
y 0 1 x (2.5)
y 0 1 x 1 2 x 2 .... n x n (2.6)
Metoda celor mai mici pătrate înlocuieşte ecuaţiile (2.5) şi (2.6) cu următoarele expresii:
^
y b 0 b1 x (2.7)
respectiv:
^
y b 0 b1x1 b 2x 2 .... bn xn (2.8)
^
În figura 2.2, perechile de valori y şi x se găsesc pe dreapta de regresie în timp ce perechile
^
y şi x sunt reprezentate de punctele experimentale. Diferenţa dintre valorile y şi y este
cunoscută sub denumirea de abatere sau reziduală.
-9-
Dacă se notează cu yj şi xij un set j de date experimentale, j = 1..M, se propune ca modelul
matematic să coreleze cu abatere pătratică minimă, S, datele experimentale:
2 2
M M n
^
minS yjyj yjb0bixij (2.9)
S M
2 y i b 0 b 1 x 1i 0 (2.10.1)
b 0 i 1
S M
2 y i b 0 b 1 x 1i x 1i 0 (2.10.2)
b 1 i 1
M x 12i y i x 1i x 1i y i
b0 (2.11.1)
M x 12i x 1i
2
M x 1i y i x 1i y i
b1 (2.11.2)
M x 12i x 1i
2
y b 0 b1 x b 2 x 2 (2.12)
Sistem obţinut prin derivare în raport cu necunoscutele problemei, coeficienţii de tip b, este,
după cum se observă, liniar:
- 10 -
y i Mb 0 b 1 x i b 2 x i2
2 3
x i y i b 0 x i b 1 x i b 2 x i (2.13)
2 2 3 4
y i x i b 0 x i b 1 x i b 2 x i
5. Analiza calităţii modelului impune apelarea la un set de teste statistice pentru a aprecia
cantitativ adecvanţa modelului matematic sau gradul în care ecuaţia de corelare reprezintă
datele experimentale. Se utilizează:
coeficientul de determinare;
coeficientul de corelaţie;
testul Fisher.
Coeficientul de determinare, r2y,x, reprezintă coeficientul cel mai utilizat pentru aprecierea
calităţii ecuaţiei de regresie. Se defineşte ca raportul dintre:
- 11 -
2
n mi
yij yi
2 i1j1
r
yx 2
(2.14)
n mi ^
yij yi
i1 j
S-au notat cu:
^
- yi - valoarea furnizată de model în punctul i,
- y i - valoarea mediei aritmetice a replicatelor în punctul i,
- yij – valoarea unei replicate în punctul ij,
- i = 1..n, contorul celor n puncte distincte în care s-au făcut măsurători experimentale,
- j = 1..mi, contorul replicatelor executate într-un punct distinct i; în fiecare punct se
efectuează mi replicate.
Coeficientul de corelaţie, ry,x este o măsură a legăturii de tip liniar care există între
variabile. Se defineşte astfel:
ry ,x
xi x y i y
(2.15)
xi x y i y
2
2
- 12 -
Valoarea coeficientului de corelaţie variază în intervalul (-1; 1); valoarea +1 confirmă că
variabilele se corelează perfect printr-o dreaptă în care variabilele sunt direct proporţionale,
iar valoarea –1 are aceeaşi semnificaţie cu deosebirea că indică un raport invers proporţional
între variabile. Valoarea zero semnalează că variabile nu se pot corela printr-un model liniar.
Dacă coeficientul de corelaţie se calculează din coeficientul de determinare, i se atribuie
semnul coeficientului b1 din ecuaţia de regresie, adică a coeficientului aferent variabilei x1.
s 12
Fc (2.16)
s 22
i 1
n
y' i y 2
(2.17)
s 12
n'1
2
N ^
yiyi
2 1
(2.18)
s2
Nn"
- 13 -
^
unde yi reprezintă valoarea calculată cu modelul matematic, yi valorile experimentale, N
numărul de determinări experimentale, n’ numărul constantelor din model plus o unitate (N-
n’’, n’-1 reprezintă gradele de libertate ale dispersiilor s 12 şi s 22 ).
Valorile calculate pentru testul Fisher rezultate din raportul celor două dispersii se compară cu
cele tabelate; dacă Fc F se poate considera că modelul matematic reprezintă datele
experimentale. În tabelul 8 din anexă sunt date valorile testului Fisher Pentru modelele liniare
cu mai multe variabile independente se utilizează testul G ale cărui valori sunt date în tabelul
9 din anexă, iar definiţia este prezentată în secţiunea 7 a lucrării.
^
Reprezentarea grafică a rezidualei în funcţie de y i , pentru toate punctele experimentale, este
o bandă orizontală de puncte pentru un model cu un coeficient de determinare mare. Abateri
de la această bandă sugerează adesea căile prin care modelul poate fi îmbunătăţit.
Analiza de regresie exprimă o relaţie de tip cauză – efect între variabile, iar coeficientul de
corelaţie gradul în care variabilele se asociază unui model liniar. Orice concluzie asupra
rezultatelor obţinute, se recomandă să se efectueze cu mare prudenţă şi numai după o judecată
analitică a fenomenului fizic studiat.
- 14 -