Documente Academic
Documente Profesional
Documente Cultură
Regresie
Regresie
A. Scopul lucrarii:
Se urmareste realizarea urmatoarelor obiective:
- prezentarea notiunilor generale legate de formele de prezentare a rezultatelor;
- prezentarea formei relaţiilor matematice pentru reprezentarea rezultatelor;
- prezentarea unor metode pentru determinarea legilor de variaţie care sa descrie
cat mai precis un set de valori;
- prezentarea unei aplicaţii;
B. Notiuni de baza:
In practica este deseori intalnita situaţia masurarii unei variabile dependente Y de mai multe
valori stabilite ale unei alte variabile X. Rezultatele pot fi prezentate sub forma de tabele,
grafice sau ecuatii Graficele pot fi utilizate pentru reprezentarea datelor in etape intermediare
şi finale a procesului de prelucrare a rezultatelor cercetărilor experimentale. Motivatia
utilizarii graficelor este data de:
- reprezentarea grafica permite observarea cu usurinta a prezentei minimelor, maximelor,
a punctelor de inflexiune, caracteristicile periodice sau de alta natura;
- diagrama care se obtine ofera vizualizarea simpla a dependentei functionale studiate,
avand posibilitatea sa concentreze intr-un spatiu minim o mare cantitate de informatii;
- prin trasarea curbei de dependenta se simplifica operatiile ulterioare de stabilire a unor
valori care nu au fost masurate, in interiorul intervalului studiat (interpolare), sau in afara
lui (extrapolare);
- forma graficului obtinut sugereaza forma dependentei functionale a variabilei y fata de x
(putandu-se deriva sau integra o variabila in raport cu alta, direct din grafic, fara a se
stabili forma matematica);
Ecuatiile (formulele) redau relatiile care exista intre variabilele indicate in grafice sau tabele,
acest mod de reprezentare fiind mai convenabil şi avand un grad de generalizare mult mai
mare decât celelalte reprezentari, putand fii utilizat cu usurinta in operatii de derivare,
integrare sau interpolare. Acestea pot fii:
- ecuatii rationale, adică deduse in mod teoretic, pe baza unor legi şi teorii cunoscute,
valorile constantelor ce le contin fiind determinate in urma prelucrarii datelor observate;
- ecuatii empirice, acestea stabilindu-se pe baza experimentala, efectuandu-se o serie de
masurari asupra variabilei dependente (functiei) y pentru diverse valori ale variabilei
independente x. In acest caz, gasirea reprezentarii analitice a dependentei functionale,
implica doua etape şi anume: stabilirea formei dependentei analitice (ecuatiei, formulei) şi
apoi determinarea valorilor adecvate ale constantelor arbitrare.
In unele cazuri, este suficient sa se traseze o curba de aproximare vizuala, aceasta fiind
procedeul cel mai simplu şi mai expeditiv, care se poate considera satisfacator in masura in
care punctele studiate sunt suficient de apropiate de curba. Metoda se numeste regresie si
118 Lucrarea 6
este tehnica generala de a ajusta, cat mai bine posibil, datele observate la o curba teoretica
data.
Exista insa situatii, şi nu putine, cand intre anumite marimi teoria nu poate stabili nici o relatie
de legatura, astfel ca in functie de tipul de dependenta dintre cele doua variabile, legatura
poate fii stabilita fie prin prin corelatie, fie prin metoda ANOVA. 1.
Alegerea formulelor empirice pentru reprezentarea datelor
Efectuandu-se o serie de masurari asupra variabilei Y pentru diverse valori ale variabilei X,
repetandu-se determinarile de un numar oarecare de ori pentru fiecare valoare a lui xi , se
pune problema sa se gaseasca forma dependentei functionale:
y = f ( x , a , b, L , q ) (6.1)
La rezolvarea acestei probleme este necesar sa se aiba in vedere ca functia cautata sa
reprezinte cat mai exact datele studiate şi sa aiba totodata un numar cat mai mic posibil de
constante arbitrare (in general maxim patru constante).
In general, pasii parcursi pentru gasirea unei astfel de functii sunt:
1- se realizează reprezentarea grafica a datelor observate, de obicei in coordonate x, y
obtinand un numar de n puncte, egal cu numarul de valori ale variabilei x;
2- se traseaza curba, cautand sa se acorde ponderi egale tuturor punctelor inscrise.
Datorita erorilor aleatoare asociate datelor obtinute in urma masuratorilor, nu se va
concepe o dependenta functionala care sa descrie exact rezultatele obtinute, ci graficul
functiei va fi in mod firesc o curba lina, fara discontinuitati, care nu uneste, ci trece prin
punctele ce reprezinta in campul diagramei valorile masurate, totodata, definind o astfel
de curba realizandu-se şi o operaţie de corectie a rezultatelor măsurărilor, atenuandu-se
influenta erorilor intamplatoare.
3- pe baza cunostintelor de geometrie analitica se apreciaza forma functiei adecvate curbei
trasate, graficul obtinut sugerand in continuare tipul de ajustare care poate fi utilizat
(solutia cea mai simpla fiind cea prin incercari: functie liniara, parabolica, polinomiala de
ordin superior, exponentiala, etc.);
4- cu ajutorul datelor existente se face proba preliminara pentru a verifica daca forma
aleasa este adecvata reprezentarii acestora, proba facandu-se fara determinarea in
prealabil a valorilor constantelor pentru fiecare forma a functiei considerata posibila,
deoarece in caz contrar ar necesita un volum mare de munca; (daca rezultatul probei nu
este satisfacator, se alege o noua forma a functiei - pasul 3- şi se supune probei,
procedandu-se astfel pana la gasirea formei adecvate).
1
Y=
a + be − z (6.11)
Se aplica schimbarea de variabile:
1
Y= ; si X = e − x ; rezul tan d : Y = a + bX
y (6.12)
In cazul functiei:
x
Y=
ax + b (6.13)
Avem schimbarea de variabile:
1 1 (6.14)
X = ; si Y = ; rezul tan d : Y = a + bX
x y
Pentru functia:
x
Y=
ax + be − x (6.15)
Se face schimbarea de variabile:
1 (6.16)
X = e − x ; si Y = ; rezul tan d : Y = a + bX
y
Functia:
Y = ax 2 + bx + c
(6.17)
Necesita schimbarea de variabile:
y − y1
Y= ; si d = ax1 + b; ( x1 , y1 − coordonatele unui punct oarecare al curbei),
x − x1
(6.18)
rezul tan d : Y = aX + b,
In cazul functiei:
x
Y= +c
ax + b (6.19)
Se face schimbarea de variabile:
y − y1
Y= ; d = ab + a 2 x1 ; e = abx1 + b 2 , rezul tan d : Y = dX + e, (6.20)
x − x1
Observatie: Pentru functii care se pot liniariza prin logaritmare, proba grafica se simplifica,
deoarece nu mai este necesar sa se calculeze functiile Y şi X, ci valorile lui y şi x se inscriu
direct intr-un grafic in coordonate logaritmice (dublu sau simplu logaritmice, dupa cum Y şi X
sunt ambii sau numai unul, functii logaritmice). Daca pe acest grafic, prin punctele inscrise se
poate trasa o dreapta, atunci rezulta ca forma aleasa pentru functia respectiva este adecvata
reprezentarii analitice a datelor studiate.
1.2. Proba tabelara sau ajustarea datelor empirice, utilizata pentru forme mai complicate şi
cu un numar mai mare de constante şi care de asemenea se aplica in cazul problemelor de
diferentiere sau integrare a datelor, cand determinarea functiilor empirice nu este
indispensabila. In acest caz, pentru atenuarea efectului erorilor aleatoare (care este mult
amplificat de anumite operatii matematice, spre exemplu efectul de propagare al erorilor prin
operatia de derivare), este recomandabil sa se ajusteza tabelul datelor studiate, astfel ca ele
sa se inscrie pe o curba suficient de neteda.
Aceasta proba presupune parcurgerea urmatoarelor etape:
Analiza grafica a rezultatelor. Determinarea functiei de regresie optime 121
1- de pe graficul functiei y=f(x), trasat cu ajutorul datelor studiate, se inscriu intr-un tabel
valorile pentru 8-10 perechi de valori ale lui x şi y, alegandu-se valorile variabilei x astfel
incat intervalele ∆x dintre valorile alaturate sa fie constante;
2- pentru forma functiei presupusa ca fiind corespunzatoare curbei din grafic, se stabileşte
criteriul de verificare, care consta din gasirea unor diferente succesive ale functiei y care
tind sa aiba valori constante;
3- se calculeaza (sub forma tabelara), diferentele succesive corespunzatoare criteriului
stabilit şi se verifica daca acestea sunt aproximativ constante (cu cat sirul diferentelor
respective este mai constant, cu atat forma functiei adoptate este mai adecvata
reprezentarii datelor experimentale respective).
Metoda are un domeniu larg de utilizare dar prezintă dificultati in ceea ce priveste gasirea
criteriului de verificare, acestea putand fii:
1- presupunand ca functia care corespunde curbei din graficul intocmit pe baza datelor
studiate are forma:
y = a + bx + cx 2 + dx 3 (6.21)
si pentru variatia cu ∆x a variabilei x, ii corespune variatia ∆y a variabilei y, rezulta:
y + ∆y = a + b( x + ∆x ) + c( x + ∆x ) + d ( x + ∆x ) (6.22)
2 3
Efectuand calculele din partea dreapta a relatiei (6.22) şi facand diferenta dintre (6.22) şi
(6.21) se obtine:
( ) ( )
y = b∆x + c∆2 x + d∆3 x + 2c∆x + 3d∆2 x x + (3d∆x )x 2 (6.23)
Deoarece b,c, d şi ∆x sunt constante, termenii inscrisi inter paranteze sunt constante şi se
pot nota cu a', b' respectiv c', astfel incat relatia (6.23) va deveni:
y = a'+b' x + c' x 2 (6.24)
Procedand in continuare similar cu etapa anterioara, se calculeaza diferentele de ordinul doi
şi respectiv trei, rezultand:
∆ 2 y = a"+b" x; ∆ 3 y = a" = const. (6.25)
Relatia (6.25) exprima faptul ca daca, ∆x=const., atunci diferentele de ordinul trei ∆3y ale
variabilei y din relatia (6.21) sunt constante, sau altfel spus, daca ∆3y=const., datele studiate
cu ajutorul carora s-au calculat aceste diferente, pot fi reprezentate matematic prin functia
data de forma relatiei (6.21).
2- Uneori, pentru stabilirea criteriului de verificare, unele diferente trebuie logaritmate, astfel
vom avea, pentru functia:
y = a + bc x (6.26)
(si presupunand de asemenea ca pentru variatia cu ∆x a variabilei x, ii corespune variatia ∆y
a variabilei y), rezulta:
y + ∆y = a + bc ( x + ∆x ) = a + bc x c ∆x (6.27)
Procedand ca şi in cazul precedent (adică efectuand calculele din partea dreapta a relatiei
(6.27) şi facand diferenta dintre (6.27) şi (6.26)), se obtine:
( )
∆y = b c ∆x − 1 c x (6.28)
Unde, produsul din paranteza este o constanta, deoarece a,b,c respectiv ∆x= const.
Prin logaritmarea relatiei (6.28), rezulta:
( )
lg ∆y = lg[b c ∆x − 1 ] + x lg c (6.29)
Notand constantele cu b', respectiv c', se obtine:
lg ∆y = b'+ c' x (6.30)
122 Lucrarea 6
Deoarece partea dreapta a egalitatii (6.30) nu este o constanta, se continua prin calcularea
diferentelor logaritmilor lui ∆y:
lg ∆y + ∆(lg ∆y ) = b'+ c' ( x + ∆x ) = b'+ c' x + c' ∆x (6.31)
Facand diferenta dintre (6.31) şi (6.30), rezulta:
∆(lg ∆y ) = c' ∆x = const. (6.32)
Aceasta constituind criteriul de verificare in cazul probei tabelare pentru functia de forma
(6.26).
Observatie:
Ajustarea se mai poate efectua cu polinoame care aproximeaza grupe de date studiate pe
baza metodei celor mai mici patrate, numarul de puncte intr-un grup alegandu-se impar (3
sau 5), grupul de puncte fiind folosit pentru ajustarea valorii centrale (de exemplu y3 in grupul
de valori y1, y2, y3, y4, y5, dupa care grupul se deplaseaza pentru incorporarea valorii
urmatoare (y2, y3, y4, y5, y6).
In cazul in care se folosesc polinoame de gradul intai (ajustare liniara), pentru grupuri
compuse din trei sau cinci puncte, se indica relatiile de calcul de ajustare (6.33), unde avem
notatiile:
y0 - valoarea care se ajusteaza
ў0 - valoarea ajustata
y-1 y1 respectiv y-2 y2 - valorile simetrice fata de y0
y −1 = (5 y −1 + 2 y 0 − y1 ) 6
~
y1 = (− y −1 + 2 y 0 + 5 y1 ) 6
~
(6.33)
- Ajustarea dupa cinci puncte:
y 0 = ( y − 2 + y −1 + y 0 + y1 + y 2 ) 5
~
y −1 = (4 y − 2 + 3 y −1 + 2 y 0 + y1 ) 10
~
y1 = ( y −1 + 2 y 0 + 3 y1 + 4 y 2 ) 10
~
y − 2 = (3 y − 2 + 2 y −1 + y 0 − y 2 ) 5
~
y 2 = (− y − 2 + y 0 + 2 y1 + 3 y 2 ) 5
~
După stabilirea formei trebuie sa se determine valorile constantelor ecuatiei, metoda cea mai
cunoscuta şi cea mai precisa, fiind metoda celor mai mici patrate. Metoda consta din
exprimare conditiei de minim a sumei patratelor distantelor punctelor observate la curba de
ajustare. In cazul a trei variabile procedeul este similar şi se ajunge la o suprafata de
ajustare.
Pentru functiile liniare sau care se pot liniariza printr-o transformare convenabila,
determinarea parametrilor formulelor empirice se mai poate realiza şi prin metode
aproximative. Datorita formei de prezentare mult mai simplista a acestor metode, chiar daca
precizia de determinare a constantelor este mult mai scazuta, se intilnesc situatii in care sunt
preferate metodei anterioare. Rezultatele obtinute prin metode aproximative, pot fi
imbunatatite ulterior sub aspectul preciziei lor (daca este necesar), prin aproximari succesive
sau prin alte metode.
Analiza grafica a rezultatelor. Determinarea functiei de regresie optime 123
Y pn
pn-1 x
Y"
x e
…..
Y' c f
p1 x
x p2
A b d
0 X' X" X
Avand relatia (6.2), se stie ca valoarea lui A este ordonata la origina, iar valoarea lui B este
panta dreptei, astfel ca din asemanarea triunghiurilor ce se formează, "Abc" şi "Ade",
(Fig.6.1), rezulta:
Y ' X "−Y " X '
A=
X "− X ' (6.34)
Iar din triunghiul "cfe" se obtine:
Y "−Y '
B=
X "− X ' (6.35)
După calcularea valorilor A şi B utilizand relatiile de mai sus, cunoscandu-se functiile A=fa) şi
B=f(b), se determina valorile constantelor a şi b ale functiei y=f(x,a,b).
Cu ajutorul functiei obtinute dupa introducerea valorilor numerice ale lui a şi b se calculeaza
valorile y corespunzatoare lui x, precum şi abaterile absolute şi relative ale acestora fata de
valorile y1, y2, …,yn, rezultate in urma masuratorilor. Daca pentru toate valorile lui y calculate
se obtin abateri satisfacatoare, se apreciaza ca functia obtinuta este corespunzatoare
reprezentarii datelor studiate respective. In caz contrar (adică pentru unele puncte, valorile
124 Lucrarea 6
lui y rezultate din calcul au abateri mari fata de datele masurate, şi exista certitudinea ca s-
au efectuat corect calculele) se pot trage următoarele concluzii:
- nu s-au acordat ponderi egale tuturor punctelor de pe grafic la trasarea dreptei Y=A+BX;
- forma relatiei stabilite inaintea determinarii constantelor nu reprezinta im mod satisfacator
datele studiate, astfel ca se impune alegerea şi verificarea altei forme;
O recomandare, pentru trasarea cat mai corect posibil a dreptei, este utilizarea "metodei
punctelor extinse", metoda ce presupune parcurgerea urmatoarelor etape:
- datele studiate se impart in doua grupe egale (sau aproximativ egale daca numarul lor
este impar), corespunzatoare valorilor mici ale lui X şi respectiv ale celor mari; spre
exemplu: p1..p5, respectiv pn-5 ..pn;
- se calculeaza mediile aritmetice ale valorilor X şi Y din fiecare grupa, determinandu-se
astfel coordonatele centroidei punctelor apartinand fiecarei grupe;
Pentru exemplul dat:
− 1 − 1 − 1 − 1
X p1 ... p5 =
5
∑ X 1...5 ; Y p1 ... p5 = ∑ Y1...5 ;
5
X p n − 5 ... p n =
5
∑ X n −5...n ; Y p1 ... p5 = ∑ Yn −5...n ;
5
- se traseaza dreapta care trece prin centroidele celor doua grupe. Este demonstrat faptul
ca dreapta care trece prin centroidele celor doua grupe, trece şi prin centroida tuturor
− −
punctelor, care (pentru exemplul dat) are coordonatele X p1 ... pn si Y p1 ... pn .
Verificarea metodei se face calculand coordonatele centroidei tuturor punctelor, acesta
inscriandu-se apoi in grafic; daca acesta se afla pe dreapta centroidelor celor doua grupe
(minim şi maxim), atunci se apreciaza ca graficul a fost corect trasat.
2.1.2. Metoda punctelor selectionate se poate folosi pentru toate formele de functii, inclusiv
pentru cele liniare sau care sunt transformabile sub forma liniara, metoda fiind destul de
exacta şi relativ simpla pentru determinarea constantelor functiilor cu trei sau patru constante
şi care au forma polinoamelor:
y = a + bx + cx 2 + L + qx n (6.36)
Etapele de lucru sunt:
- pe graficul trasat pentru stabilirea formei relatiei se aleg un numar de q puncte, egal cu
numarul constantelor pe care relatia stabilita le contine, aceste puncte fiind alese cat mai
departate intre ele, evidentiindu-se insa punctele de la extremitatile graficului;
- se inlocuiesc succesiv in relatie cele q perechi de valori ale lui x şi y, obtinandu-se un
sistem de q ecuatii cu q necunoscute;
- se rezolva acest sistem, determinandu-se necunoscutele, adică cele q constante.
Daca relatia aleasa este liniara sau poate fi liniarizata in raport cu constantele sale,
rezolvarea sistemului de ecuatii se usureaza, folosind determinantii.
Astfel, avand spre exemplu reprezentarea datelor studiate definite de relatia:
y = a + bx + cx 2 (6.37)
Se aleg de pe grafic cele trei puncte de coordonate (q=numarul constantelor, q=3): x1,y1;
x2,y2; x3,y2 şi fara sa se mai introduca aceste valori in relatia (6.37) se scrie direct ecuatia sub
forma determinantului:
y 1 x x2
y1 1 x1 x12
=0 (6.38)
y 2 1 x2 x 22
y 3 1 x3 x32
Relatie care se mai poate scrie sub forma:
Analiza grafica a rezultatelor. Determinarea functiei de regresie optime 125
∑ [y
i =1
i − f ( xi ; a, b, c L)] min (6.40)
2- Daca masurarile sunt de precizie inegala, dar se cunosc rapoartele ponderilor wi ale
masuratorilor, care sunt invers proportionale cu dispersiile (w1=1/σ12, w2=1/σ22 , …,
wn=1/σn2), (precizia este procentual constanta), atunci expresia (6.40) se inlocuieste prin:
n 2
∑ [y
i =1
i − f ( xi ; a, b, c L)] wi min (6.41)
3- Daca masurarile au fost repetate pentru fiecare valoare xi, iar drept yi se ia media
aritmetica a rezultatelor masuratorilor repetate din seria respectiva, atunci drept ponderi ale
măsurărilor se pot lua numarul de masurari ale seriei wi=nI, conditia formulata aplicandu-se
in cazul determinarii constantelor unei functii de mai multe variabile. Se admite totodata ca
abaterile a caror suma a patratelor trebuie sa fie minima, se masoara paralel cu axa y, ceea
ce echivaleaza cu a admite ca masurarile variabilei independente x sunt exacte, nefiind
afectate de erori aleatoare (ceea ce simplifica mult calculele).
Din conditiile mentionate, se pot desprinde cateva cazuri particulare de aplicare a metodei
celor mai mici patrate, şi anume:
126 Lucrarea 6
De unde:
∂ ⎡ n
⎢ ∑ ( yi − a − bxi )2 ⎤⎥ = 0 (6.45)
∂a ⎣ i =1 ⎦
∂ ⎡ n
⎢ ∑ ( yi − a − bxi )2 ⎤⎥ = 0 (6.46)
∂b ⎣ i =1 ⎦
Obtinandu-se ecuatiile:
n n
− 2∑ xi ( y i − a − bxi ) = 0; − 2∑ ( y i − a − bxi ) = 0 (6.47)
i =1 i =1
sau:
n n n
a ∑ xi + b∑ xi2 = ∑ xi y i ; (6.48)
i =1 i =1 i =1
n n
an + b∑ xi = ∑ y i (6.49)
i =1 i =1
Obtinand in final:
n n n n
− − ∑x ∑y −∑x ∑x y
i
2
i i i i −
∑x y −nx y x
− −
−
a = y− b x = i =1 i =1 i =1 i =1
= y−
i i
2 −2 (6.50)
⎛ n ⎞
∑x −nx
n
n∑ xi − ⎜ ∑ xi ⎟
2 2
i
i =1 ⎝ i =1 ⎠
n n n
n∑ xi y i − ∑ xi ∑ y i − −
b= i =1 i =1 i =1
=
∑ xi y i − n x y (6.51)
2 −2
⎛ ⎞
∑x
n n
n∑ xi2 − ⎜ ∑ xi ⎟ −nx
2
i
i =1 ⎝ i =1 ⎠
Unde:
n n − n −
∑
i =1
=∑ ; ∑ xi = x;
i =1
∑y
i =1
i = y;
Erorile standard ale celor doi parametrii, a şi b, conform relaţiilor anterioare, sunt:
Analiza grafica a rezultatelor. Determinarea functiei de regresie optime 127
n n n
∑ xi ∑ xi ∑ε
2 2 2
yi
σa = i =1
σ yi = i =1 i =1
(6.52)
n
⎛ ⎞ n 2
⎡ n 2 ⎛ n ⎞2 ⎤
n ∑ xi − ⎜ ∑ x i ⎟ n ⎢ n ∑ xi − ⎜ ∑ x i ⎟ ⎥
2
i =1 ⎝ i =1 ⎠ ⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦
∑ε
2
yi
n
σb = 2
σ yi = i =1
2 (6.53)
⎛
n
⎞ n n
⎛ n ⎞
n∑ xi − ⎜ ∑ xi ⎟ n∑ xi − ⎜ ∑ xi ⎟
2 2
i =1 ⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠
Unde εyi se calculeaza cu relatia de definire:
σ yi =
∑ (y i − a − bxi )
=
ε yi2 (6.54)
n n
Pentru linia dreapta ce trece prin origine, deci pentru functia:
y = bx (6.55)
procedandu-se ca in cazul precedent, rezulta:
n
∑x y i i
b= i =1
n (6.56)
∑ xi2
i =1
Unde:
n
s m = ∑ xim wi ; m = 0,1,2,3,4 (6.60)
i =1
a=
[∑ x ∑ x
2 4
− (∑ x ) ]∑ y − [∑ x∑ x − ∑ x ∑ x ]∑ xy + [∑ x∑ x − (∑ x ) ]∑ x
3 2
0
4 2 3
0
3 2 2 2
y0
N
b=
[∑ x ∑ x − ∑ x∑ x ]∑ y − [(∑ x )
2 3 4
0
2 2
− n∑ x 4 ]∑ xy + [∑ x∑ x
0
3
− n∑ x 3 ]∑ x 2
y0
N
128 Lucrarea 6
c=
[∑ x∑ x 3
− (∑ x ) ]∑ y − [n∑ x − ∑ x∑ x ]∑ xy
2 2
0
3 2
0 [
+ n∑ x 2 − (∑ x )
2
]∑ x y
2
0
N
Numitorii notati cu N fiind identici, calculandu-se cu relatia:
N= [∑ x ∑ x
2 4
− (∑ x ) ]n − (∑ x∑ x − ∑ x ∑ x )∑ x + [∑ x∑ x − (∑ x ) ]∑ x
3 2 4 2 3 3 2 2 2
Unde:
n
∑i =1
= ∑ iar x şi y0, precum şi puterile acestora, au semnificatia unor valori oarecare xi şi y0i
Observatie: Printr-o alegere judicioasa a axelor, ecuatia functiei liniare data de relatia (6.42),
va fii:
⎛ −
⎞
y = a1 + b⎜ x − x ⎟ (6.61)
⎝ ⎠
Unde:
−
⎛ −
⎞
a1 = y ; ⎜ sau : a1 = a + b x ⎟
⎝ ⎠
n n n
(6.62)
n∑ xi y i − ∑ xi ∑ y i
b= i =1 i =1 i =1
2
⎛n
⎞ n
n∑ x − ⎜ ∑ xi ⎟ 2
i
i =1 ⎝ i =1 ⎠
Verificarea metodei se face calculand urmatorii parametrii:
1- suma celor mai mici patrate datorita abaterilor in raport cu functia liniara:
∑ (y − yc )
2
=
2 i
S (6.63)
n−2
y/x
unde yc reprezinta valoarea calculata pentru y. Ratiunea pentru care s-a folosit la numitor n-2
si nu n-1 (ca in cazul distributiei monofactoriale) este ca se pierd doua grade de libertate
cand se estimeaza a si b.
2- suma celor mai mici patrate explicata prin regresie:
⎛
S Y2 / X = b⎜ ∑ xi yi −
∑ xi ∑ y i ⎞
⎟ (6.64)
⎜ n ⎟
⎝ ⎠
3- se determina raportul S Y2 / X S y2 / x .
4- folosind tabelul lui Fischer (Anexa D) pentru un nivel de incredere ales, şi un numar de
grade de libertate γ1=1 si γ2=n-2 se citeste valoarea calculata a functiei de repartitie
corespondente, Fγ1γ2.
5- Comparand valoarea raportului S Y2 / X S y2 / x cu valoarea critica, Fγ1γ2(critic), (determinata
tabelar pentru numarul gradelor de libertate propuse), daca:
S Y2 / X S y2 / x > Fγ 1γ 2critic (6.65)
metoda se poate aplica, rezultatele obtinute fiind corecte. In caz contrar, observatiile trebuie
sa fie considerate intamplatoare.
2.2.4. Limitele intervalului de incredere pentru parametri estimati
Metoda celor mai mici patrate ne ajuta sa determinam cele mai probabile valori ale
constantelor care intra intr-o ecuatie, pentru aceasta nefiind necesara nici o ipoteza asupra
Analiza grafica a rezultatelor. Determinarea functiei de regresie optime 129
B =b±t
∑x y −nx y ±t Sy/x
α ∆b =
i i
α .
n − 2; −2 n − 2; 2
(6.66)
∑x −nx ∑ ⎛⎜⎝ xi − x ⎞⎟⎠
2 2 2 −
i
∑ ⎝ i ⎞⎟⎠
⎛
− − 1 −2 −
A= a±t α ∆a = y − b x ± t α .S y / x +x ⎜ x − x
n − 2;
2
n − 2;
2
n (6.67)
Avand:
2
⎛ −
⎞
∑ ⎜ xi − x ⎟ (6.68)
+ ⎝ ⎠
1
∆y = t α .S y / x 2
n − 2; n −
2
∑ xi − n x
2
Avand determinate limitele intervalelor de incredere se pot trasa functiile, care au expresiile:
⎛ −
⎞
y = y ± ∆y = a + b⎜ x − x ⎟ ± ∆y (6.69)
⎝ ⎠
⎛ −
⎞
y = a + (b ± ∆b )⎜ x − x ⎟
⎝ ⎠ (6.70)
⎛ −
⎞
y = a ± ∆a + b⎜ x − x ⎟
⎝ ⎠ (6.71)
Din reprezentarea lor grafica (Fig.6.2), se observa ca estimarea pentru coeficientul a prezintă
o mai mica importanta, reprezentand numai intersectia cu axa OY, panta avand o mai mare
importanta, respectiv coeficientul b, acesta indicand marimea şi directia in care variaza
variabila dependenta y.
y = (a + ∆a ) + bx
y
y = a + (b + ∆b )x
y
y = a + bx y = a + bx
− y = (a − ∆a ) + bx
y = a + (b − ∆b )x
−
y y
− −
x x x
x
Fig.6.2: Reprezentarea grafica a functiilor, avand limitele intervalelor de incredere
alegandu-se ca functie optima, pentru setul de date studiat, functia care indeplineste cat mai
bine aceasta conditie.
Repartitia Gauss ne permite sa comparam doua reprezentari dandu-ne posibilitatea sa
stabilim care din ele se apropie cel mult de forma optima. In acest scop cu ajutorul relatiei
(6.63) se calculeaza dispersia S x2/ y pentru cele doua functii, respectiv S x2/ y ,1 , S x2/ y , 2 .
Deoarece relatia (6.63) reclama un volum mare de calcule, in special in cazul esantioanelor
mari, se utilizeaza o relatie mai simpla:
S x2/ y =
∑
y2 − a y − b x y −
i ∑ x y n i [∑ (6.72)
i i (∑ ∑ ) ] i i
n−2
Comparand valorile obtinute pentru cele doua reprezentari, S x2/ y ,1 respectiv S x2/ y , 2 , se va
alege ca fiind reprezentarea optima cea pentru care dispersia are valoarea cea mai mica.
3. Corelatia
∫ ∫ ⎣⎢ ⎠ ⎝ ⎠ ⎦⎥
=
x y
e dxdy
2πσ xσ y 1− ρ −∞ −∞
Unde: ρ este coeficientul de corelatie, avand o valoare cuprinsa in intervalul: -1< ρ<1 şi
defineste gradul de dependenta dintre variabile.
Observatie:
1- daca ρ=0, cele doua variabile sunt independente, in acest caz relatia (6.73) se poate
pune sub forma:
⎡ ( x − µ x )2 ⎤ ⎡ ( y − µ y )2 ⎤
f ( x, y ) = ⎢ e 2σ x ⎥ ⎢ e y ⎥ = f (x ) f ( y )
1 2 1 2σ 2 (6.75)
⎢ σ x 2π ⎥ ⎢σ y 2π ⎥
⎣ ⎦ ⎣⎢ ⎦⎥
fiind astfel pusa in evidenta conditia de independenta.
2- Daca IρI>0, variabilele x,y sunt dependente aleator, coeficientul teoretic de corelatie fiind
dat de media produselor abaterilor normate:
Analiza grafica a rezultatelor. Determinarea functiei de regresie optime 131
⎡⎛ x − µ x ⎞⎛ y − µ y ⎞⎤
ρ = M ⎢⎜⎜ ⎟⎟⎜ ⎟⎥ (6.76)
⎢⎣⎝ σ x ⎠⎜⎝ σ y ⎟⎥
⎠⎦
Sau:
ρ = ∑ (xi − µ x )( yi − µ y ) ∑ ( xi − µ x ) ∑ ( y i − µ y )
n n n
2 2
(6.77)
i =1 i =1 i =1
ρ e = ∑ ( xi − µ x )( yi − µ y ) ⎛ ⎞ ⎛ ⎞
n n − −
i =1
∑ ⎜ xi − x ⎟
i =1 ⎝ ⎠
∑ ⎜ yi − y ⎟
i =1 ⎝ ⎠
(6.78)
- se stie ca o functie y=f(x) se poate scrie şi sub forma x=φ(y), astfel ca legatura dintre
variabilele aleatoare X şi Y se poate obtine şi fixand Y şi determinand mediile variabilei X
corespunzatoare:
σx
µx/ y = µx + ρ (y − µ y ) (6.82)
σy
cu dispersia:
σ x2/ y = σ x2 (1 − ρ 2 ) (6.83)
x = µ x + β xy ( y − µ y )
(6.85)
unde:
β yx = ρ σ y σ x ; β xy = ρ σ x σ y
132 Lucrarea 6
C. Desfasurarea lucrarii:
1. Tema:
Se considera cazul determinarii debitului de fluid in functie de cusa pistonasului in cazul unui
drosel. In timpul experimentului in functie de cursa pistonasului, (in mm):
1; 2; 3; 4; 5; 6; 7,
se obtin valorile debitului de fluid (in 1/min):
1.25; 1.75; 2.00; 2.75; 3.50; 4.00; 5.75.
Sa se determine functia care reprezinta cel mai bine datele experimentale, pentru un nivel de
incredere de 0.950, (1-α=95%).
2. Prelucrarea rezultatelor:
In vederea determinarii functiei care reprezinta cel mai bine datele experimentale, se va
aplica metoda metoda celor mai mici patrate, trasandu-se intr-un sistem de axe ortogonale
graficul obtinut in urma prelucrarii datelor.
Utilizand functiile oferite de software-ul Excel, metoda celor mai mici patrate, presupune
parcurgerea urmatorilor pasi:
1.1- se va vizualiza variatia valorilor yi ale variabilei dependente (debitul de fluid) (valori
care in cadrul raportului Excel ocupa adresele: B21-B27), in functie de xi (cursa
pistonasului) (valori care in cadrul raportului Excel ocupa adresele: C21-C27)
reprezentand grafic valorile observate (vezi Lucrarea1), avand pe abscisa valorile
cursei pistonasului, iar pe ordonata valorile debitului de fluid, (Fig.6.3):
8.00
6.00 5.75
4.00 4.00 valorile xiyi
3.50
2.75
2.00 1.75 2.00
1.25
0.00
0 2 4 6 8
cur sa p ist o nasului
n n n n
1- se calculeaza sumele valorilor xi, yi, respectiv ∑ xi ; ∑ yi şi produsul
i =1 i =1
∑ xi ∑ y i ;
i =1 i =1
n
=SUM(C21:C27), respectiv ∑y
i =1
i = 21, valoare care va ocupa in continuare adresa C28;
n n
=B28*C28, obtinand valoarea ∑ xi ∑ yi =588, valoare care va ocupa in continuare in cadrul
i =1 i =1
Astfel:
=B21*C21; =B22*C22; …=B27*C27, valori care vor ocupa in cadrul raportului adresele D21-
D27;
respectiv:
n
=SUM(D21:D27), obtinand valoarea ∑x y
i =1
i i =103.5, avand adresa D28.
n n
3- se calculeaza valorile xi2 yi2, respectiv valorile sumelor acestora, ∑ x ;∑ y
2 2
i i ,
i =1 i =1
aplicandu-se functiile:
=POWER(B21,2); =POWER(B22,2); …=POWER(B27,2), valorile acestora ocupand in
continuare adresele E21-E27;
=POWER(C21,2); =POWER(C22,2); …=POWER(C27,2), ocupand adresele F21-F27;
Respectiv:
n
∑x
2
=SUM(E21:E27), obtinand valoarea i =140, avand adresa E28;
i =1
n
∑y
2
=SUM(F21:F27), obtinand valoarea i =77.5, avand adresa F28;
i =1
2 2
⎛ n ⎞ ⎛ n ⎞
4- se calculeaza valorile ⎜ ∑ xi ⎟ ; ⎜ ∑ y i ⎟ :
⎝ i =1 ⎠ ⎝ i =1 ⎠
2
⎛ n ⎞
=POWER(B28,2), obtinand valoarea ⎜ ∑ xi ⎟ =784, avand adresa B29;
⎝ i =1 ⎠
2
⎛ n ⎞
=POWER(C28,2), obtinand valoarea ⎜ ∑ y i ⎟ =441, avand adresa C29;
⎝ i =1 ⎠
n n
− ∑ xi − ∑y i
5- se calculeaza valorile mediilor x = i =1
,y = i =1
;
n n
−
=B28/7, obtinand valoarea x =4, ocupand in continuare adresa B30;
−
=B28/7, obtinand valoarea y =3, ocupand in continuare in cadrul raportului adresa C30;
134 Lucrarea 6
=
2 i
S
n−2
y/x
B =b±t
∑x y −nx y ±t Sy/x
α ∆b =
i i
α .
n − 2; −2 n − 2; 2
∑x −nx ∑ ⎝ i ⎞⎟⎠
⎛
2 2 2 −
i ⎜ x − x
∑ ⎛⎜⎝ xi − x ⎞⎟⎠
− − 1 −2 −
A= a±t α ∆a = y − b x ± t α .S y / x +x
n − 2; n − 2; n
2 2
Avand (6.68):
2
⎛ −
⎞
1 ∑ ⎜
⎝
x i − x ⎟
⎠
∆y = t α .S y / x +
n − 2; n −2
2
∑ xi2 − n x
Pasii parcursi fiind:
1- folosind tabelul repartitie Student (Anexa C, Lucrarea 4) pentru un nivel de incredere de
0.950, (1-α=95%, α=5%=0.05) şi un numar de grade de libertate γ=n-2 (se pierd doua
grade de libertate cand se estimeaza a si b), se citeste valoarea calculata a functiei de
repartitie corespondente, tα,γ:
tα,γ=2.015
2- se determina valoarea ∆b, utilizand functiile Excel:
=$B$42*(POWER($B$38,1/2)/POWER(7*$E$28-$B$29,1/2)), obtinand valoarea ∆b=0.0265,
valoare ce va ocupa adresa B43 in cadrul raportului Excel.
3- se determina de asemenea valoarea ∆a, utilizand functiile:
=$B$42*$B$38*(POWER(1/7+$B$29/(7*$E$28-$B$29),1/2)), obtinand valoarea ∆a=0.1388,
valoare ce va ocupa in continuare in cadrul raportului Excel, adresa B44.
4- se determina dreptele de redresie, care au expresiile (6.70), (6.71):
y = a + (b ± ∆b )x
y = a ± ∆a + bx
Obtinand in final functiile:
y=0.2+(0.7 ±0.0265)x respectiv y=(0.2 ±0.1388)+0.7x
136 Lucrarea 6
valorile yi
3
2
1
0
0 2 4 6 8
valorile xi
⎡ ⎛ n
⎞ ⎤
2 n
0.4343⎢n∑ xi2 − ⎜ ∑ xi ⎟ ⎥
⎣⎢ i =1 ⎝ i =1 ⎠ ⎦⎥
n n n n
n∑ xi ∑ xi lg y i − ∑ xi2 ∑ lg y i
lg a = i =1 i =1 i =1
2
i =1
n
⎛ ⎞ n
n∑ xi2 − ⎜ ∑ xi ⎟
i =1 ⎝ i =1 ⎠
parcurgand in principiu aceiasi pasi ca şi in cazul anterior:
n n n n
1- se calculeaza sumele valorilor xi, lgyi, respectiv ∑ xi , ∑ lg yi şi produsul
i =1 i =1
∑ xi ∑ lg yi ;
i =1 i =1
n
=SUM(B21:B27), obtinand ∑x
i =1
i = 28, valoare care va ocupa in continuare adresa B28;
n
Pentu calculul sumei ∑ lg y
i =1
i , este necesar in prealabil calculul logaritmilor lg y i , astfel:
∑ x lg y
i =1
i i ;
=B21*D21; =B22*D22; …=B27*D27, valori care vor ocupa in cadrul raportului adresele F21-
F27, acestea fiind:
x1lgy1=0.097; x2lgy2=0.486; x3lgy3=0.903; x4lgy4=1.757; x5lgy5=2.720; x6lgy6=3.612;
x7lgy7=5.318, respectiv:
n
=SUM(F21:F27), obtinand valoarea ∑ x lg y
i =1
i i =14.894, avand adresa F28.
n
3- se calculeaza valoarea xi2 respectiv valoarea sumei acesteia, ∑x
2
i , aplicandu-se
i =1
functiile:
=POWER(B21,2); =POWER(B22,2); …=POWER(B27,2), valorile acestora ocupand in
continuare adresele E21-E27;
Respectiv:
n
∑x
2
=SUM(E21:E27), obtinand valoarea i =140, avand adresa E28;
i =1
2
⎛ n ⎞
4- se calculeaza valoarea ⎜ ∑ xi ⎟ :
⎝ i =1 ⎠
2
⎛ n ⎞
=POWER(B28,2), obtinand valoarea ⎜ ∑ xi ⎟ =784, avand adresa B29;
⎝ i =1 ⎠
n n n n n n
5- se calculeaza valorile ∑ x ∑ lg y
i =1
i
i =1
i , ∑ x ∑ lg y
i =1
2
i
i =1
i , respectiv ∑x ∑x
i =1
i
i =1
i lg yi :
n n
=B28*D28, obtinand valoarea ∑ xi ∑ lg yi =83.611, ocupand in continuare adresa B30;
i =1 i =1
n n
=E28*D28, obtinand valoarea ∑ xi2 ∑ lg yi =418.005, ce va ocupa in continuare in cadrul
i =1 i =1
=
2 i
S
n−2
y/x
Fγ1γ2=4.06
2
5- se compara valoarea raportului S Y/X S y2 / x cu valoarea critica, Fγ1γ2(critic), (determinata
tabelar pentru numarul gradelor de libertate propuse), adica:
13.628 >4.06
Astfel (6.65):
S Y2 / X S y2 / x > Fγ 1γ 2critic
6- avand acest rezultat, in concluzie se ia decizia:
"Pentru un nivel de incredere de 95% dreapta y=1.011e0.243x concorda cu datele prelucrate"
y = 1.0111e 0.2425x
FUNCTIA EXPONENTIALA
R2 = 1
6.000
5.000
4.000
valorile yi
3.000
2.000
1.000
0.000
0 2 4 6 8
valorile xi
1.7- In acest moment avem doua functii care conform testului Fischer concorda cu datele
prelucrate, pentru nivelul de incredere ales, (1-α=95%), astfel ca este imperios
necesar a se determina functia optima pentru setul de date studiat.
Repartitia Gauss ne permite sa comparam doua reprezentari dandu-ne posibilitatea sa
stabilim care din ele se apropie cel mult de forma optima, pentru aplicarea acestui criteriu
fiind necesare compararea valorilor obtinute pentru cele doua reprezentari, S X2 / Y ,1 respectiv
S X2 / Y , 2 .
Astfel:
13.5804 > 0.0221, respectiv: S X2 / Y ,1 > S X2 / Y , 2
se observa ca functia:
y=1.011e0.243x
are dispersie mai mica ceea ce ne conduce la concluzia ca:
"Functia: y=1.011e0.243x concorda intr-un grad mai înalt cu datele studiate"
aceasta concluzie fiind putand fi vizualizata şi in figura 6.4 (respectiv Fig.6.5):
D. Prezentarea rezultatelor:
Rezultatele vor fi prezentate sub forma unui raport (vezi Anexa6) ce cuprinde:
- reprezentarea datelor primare, sirul de date;
- reprezentarea tabelara a datelor calculate necesare determinarii parametrilor functiilor
alese;
- reprezentarea tabelara a valorilor parametrilor functiilor alese;
- reprezentarea tabelara a limitelor intervalelor de incredere a functiilor alese;
- reprezentarea tabelara a datelor calculate necesare verificari functiei alese/ipotezei şi
prezentarea deciziei;
140 Lucrarea 6