Documente Academic
Documente Profesional
Documente Cultură
Metoda celor mai mici pătrate este o problemă de calcul de importanță primară care a
apărut inițial din necesitatea de a potrivi un model matematic liniar pe baza unor observații
date. Pentru a reduce influența erorilor în observații ar fi trebuit să folosim un număr mai
mare de măsurători decât numărul de parametrii necunoscuți în model. Problema care rezultă
este de a ”rezolva” un sistem de ecuații supradimensionat. În matricea termenilor, se dă un
vector 𝑏 ∈ 𝑹𝑚 și o matrice 𝐴 ∈ 𝑹𝑚𝑥𝑛 , 𝑚 > 𝑛, noi vrem să găsim un vector 𝑥 ∈ 𝑹𝑛 astfel
încât 𝐴𝑥 să fie ”cea mai bună” aproximare a lui b.
Exemplu
Se consideră un model descris de o funcție scalară 𝑦(𝑡) = 𝑓(𝑥, 𝑡), unde 𝑥 ∈ 𝑹𝑛 este
vectorul parametrilor determinați din măsurătorile (𝑦𝑖 , 𝑡𝑖 ), 𝑖 = 1, … , 𝑚, 𝑚 > 𝑛. În particular,
fie 𝑓(𝑥, 𝑡) liniară în x:
Există foarte multe metode prin care se poate defini ”cea mai bună” soluție. O alegere
care poate duce la un simplu calcul al problemei este să îl luăm pe x ca fiind soluția
minimizării problemei.
O vom numi o problemă liniară a celor mai mici pătrate, iar pe x soluția liniară cu cele
mai mici pătrate a sistemului 𝐴𝑥 − 𝑏. Ne referim la 𝑟 = 𝑏 − 𝐴𝑥 ca la un vector rezidual.
Soluția celor mai mici pătrate minimizează ‖𝑟‖22 = ∑𝑚 2
𝑖=1 𝑟𝑖 suma rezidurilor pătrate. Dacă
rang(A) < 𝑛, atunci soluția x nu este unică. Cu toate acestea, printre soluțiile celor mai mici
pătrate există o soluție unică care minimizează ‖𝑥‖2 .
Observații istorice
Descoperirea lui Ceres, primul dintre asteroizii dintre Marte si Jupiter, a fost cel mai mare
eveniment științific la începutul secolului XIX cu consecințe importante pentru dezvoltarea
ulterioară a științei, în ciuda faptului că acest punct de lumină slabă a fost cu greu văzut de
non-specialiști, şi astfel nu a avut o importată imediat practică.
Astronomii din Babilon au descoperit șapte corpuri cerești distinse: în primul rând Soare
si Luna, apoi Venus (1600 î.Hr.), în cele din urmă Marte, Mercur, Jupiter, și Saturn. În
curând, zile s-au consacrat în mod alternativ la aceste divinități (duminică, luni, marți,
miercuri, joi, vineri, sâmbătă) și de mii de ani întreaga activitate umană pe pământ, în acest
ritm pulsează 7-zile. În tot acest timp, nu a mai fost adăugat nimic, până când Sir William
Herschel, un german organist și astronom amator care trăia în Anglia, a descoperit la 13
martie 1781 o nouă planetă, printr-un telescop imens de propria construcție. Herschel a vrut
să numească noua ”lui” stea (stea George), în devotamentul față de regele britanic, dar
propunerea lui Bode Uranus (în mitologia greacă părintele Saturnus) a fost mai puțin
patriotică si a fost acceptată
Descoperirea lui Uranus a reînviat, de asemenea, discuțiile despre formula lui Johann
Daniel Tietz (Titius) și Johann Elert Bode, care au susținut că semi-axele majore ale orbitele
planetelor au fost date de regula:
De asemenea, unul dintre cei mai influenți filozofi, Georg Wilhelm Friedrich Hegel, a
luat parte la aceste discuții transmise în 1801 teza lui (Dissertatio philosophica de orbitis
planetarum, Ienae MDCCCI, Werke 5, pp. 221-253) la Universitatea din Jena. El începe prin
a "dovedi" legile lui Kepler fără a fi nevoie de matematică sau fizică şi, în ultima parte, își
întoarce atenția spre regula lui Bode. Acum, să căutăm în Timaios-ul lui Platon să găsim
numerele magice 1, 2, 3, 4, 9, 8, 27, în cazul în care ne este permis să înlocuim 8 cu 16 (!)1.
Apoi vom lua rădăcinile de ordin 3 a numerelor la puterea a patra, înlocuind pe 1 cu √3 , şi
vom obține secvenţa2 1.4 2.56 4.37 6.34 18.75 40.34 81, în care de fapt între a patra ți a
cincea poziție este un spațiu3 foarte mare"; prin urmare, nu lipsește nici o planetă în acest
spațiu.
Ianuarie 1 530 23’ 06.38” 30 06’ 45.16” 23 530 44’ 45.16” 10 38’ 46.78”
2 530 19’ 38.18” 30 02’ 26.46” 28 540 15’ 18.52” 10 21’ 04.92”
3 530 16’ 37.70” 20 58’ 08.04” 30 540 30’ 10.52” 10 14’ 14.24”
4 530 14’ 21.44” 20 53’ 51.98” 31 540 38’ 05.58” 10 10’ 51.02”
10 530 07’ 57.64” 20 28’ 53.64” Februarie 1 540 46’ 27.14” 10 07’ 34.18”
13 530 10’ 05.60” 20 16’ 46.08” 2 540 55’ 01.52” 10 04’ 18.10”
14 530 11’ 54.20” 20 12’ 54.02” 5 550 22’ 04.20” 00 54’ 34.54”
19 530 26’ 01.98” 10 53’ 37.82” 8 550 53’ 04.52.” 00 45’ 08.28”
21 530 34’ 22.68” 10 46’ 13.06” 11 560 26’ 28.20” 00 35’ 55.08”
Ω………………………………………..810 1’ 44”
Excentricitatea…………………………0.0819603
Pe 7 decembrie 1801 Freiherr von Zach a redescoperit poziția exactă a lui Ceres
prezisă de Gauss.
Primele calcule ale lui Gauss
Marele avantaj al ideilor lui Gauss față de rivalii săi este că acesta și-a asumat exclusiv
Legile lui Kepler și nici o alta ipoteză. Gauss nu a relevat niciodată detalii cu privire la
calcule sale. Îndemnat de Olbers, în cele din urmă a trimis în August 1802 un manuscris
“Summarische Ubersicht”, fără a avea dorința ca acesta să fie publicat. Acest manuscris a fost în
sfârșit tipărit de care Von Lindenau în 1809, cu toate scuzele editorului pentru “imperfecțiuni”. O
variantă excelentă în limba engleză a descrierii calculelor lui Gauss a apărut recent.
Elementele orbitei
Coordonate Coordonate sferice
ω - arg. periheliu heliocentrice geocentrice
e – excentricitatea orbitală
l0 – longitudinea heliocentrică
A t
=
abπ P
𝑎
Acum întindem elipsa într-un cerc (Fig 1.2.1 dreapta), deci B = 𝑏A, dar de asemenea
𝑎2
B= (𝑢 − 𝑒𝑠𝑖𝑛 𝑢) (diferența dintre suprafețele unui sector și triunghiul T). Cele trei ecuații
2
ne duc la
2𝜋
unde constanta 𝑛 = , se numește rata medie unghiulară. Schimbând originea timpului la
𝑃
locul corect, de exemplu în (1.2.2) devine t-t0, unde t0 este timpul de la periheliu. Trebuie să
adăugăm l0 și să scădem argumentul periheliului și longitudinea nodului ascendent.
Ca să rezolvăm această ecuație pentru u trebuie să găsim rata medie unghiulară, care este dată
de Legea a III-a a lui Kepler. Această lege afirmă că a3 este proporțional cu P2 și
Pasajul (B). Pentru acesta trebuie să știm coordonatele geocentrice solare (X, Y, Z)
(pentru aceeași dată și timp) și să obținem coordonatele geocentrice eliptice ale planetei,
adaugându-le și luând coordonatele sferice.
ξ = x + X = ρcos βcos λ
ζ = z + Z = ρsin β.
Procedura lui Gauss
Când a fost descoperit Ceres, era bine cunoscut cum să calculezi cele 6 elemente ale
orbitei unei planete din 2 seturi de coordonate heliocentrice x, y, z. Aceasta contă în
rezolvarea a 2x3 ecuații nonliniare de 6 necunoscute. Cea mai mare dificultate a fost că erau
doar 2 valori geocentrice observate βi, λi pe un punct. După multe manipulări ale expresiilor
de mai sus, Gauss a fost capabil să reducă calculele la un singur set de coordonate
heliocentrice x, y, z. Gauss a început cu datele de 2 Ianuarie, respectiv 22 Ianuarie și 11
Februarie. Valorile obținute ale elementelor au fost recalculate în mod repetat, aceste calcule
nu au fost făcute folosind metoda celor mai mici pătrate.
Lucrurile s-au schimbat după ce Ceres a fost redescoperit în Decembrie 1801 când
mai multe observații au fost disponibile. Acum sarcina era să îmbunătățească elementele
orbitei la o acuratețe mult mai mare cu ajutorul joilor informații. Aici Gauss a început să
aplice metoda celor mai mici pătrate, din nou fără să spună cuiva detaliile. Singurele dovezi
se afla într-o secvență din cartea sa “Summarische Ubersicht” și în precizia rezultatelor.
Mergând mult mai departe decât Legendre, Gauss a dat un răspuns la întrebarea “De
ce cele mai mici pătrate și nu de exemplu a patra putere cea mai mică sau a șasea?”. Ca să
explicăm această idee, luăm o problemă simplă, de exemplu aproximarea a 3 observații xi, yi
(i=1,2,3) de o orbită care este o dreaptă
𝑦 = 𝑎 + 𝑏𝑥. (1.3.1)
Fig 1.3.2
Dacă cele 3 puncte nu se așază pe o dreaptă, atunci avem 3 linii diferite, nici una nu
este satisfăcătoare (imaginea din stânga). Presupunem că există valori
−(𝛽𝑖− 𝑦𝑖 )2
𝑒 2𝜎2
P(0 ≤ 𝛽𝑖 − 𝑦𝑖 ≤ 𝛥𝑦)= ∆𝑦.
𝜎√2𝜋
Probabilitatea obținerii celor 3 valori y1, y2, y3 (la precizia lui ∆𝑦) este produsul celor
3 probabilități de mai sus,
−(𝛽𝑖− 𝑦𝑖 )2 − ∑3
𝑖=1(𝛽𝑖− 𝑦𝑖 )
2
∆𝑦 ∆𝑦
(𝜎√2𝜋) ∏3𝑖=1 𝑒
3 2𝜎2 = (𝜎√2𝜋) 𝑒 3 2𝜎 2
Dezvoltări ulterioare: Dintre cele mai importante consecințe care au urmat principiul
celor mai mici pătrate, menționăm:
În 1823, Gauss a publicat un al doilea tratat fundamental privind cele mai mici
pătrate, „Theoria combinationis observationum erronibus minimis obnoxiae” în două
părți, care conține o nouă justificare a principiului celor mai mici pătrate, independent
de funcția probabilitate, care este denumită astăzi teorema Gauss-Markov.
În 1828, Gauss a publicat ”Supplementum”, care conține calculele impresionante
pentru triangularizări geodezice ale Olandei.
În 1900 apare teza lui Karl Pearson care combină metoda celor mai mici pătrate cu
distribuția 𝜆2 și se ajunge la 𝜆2- testul pentru fiabilitatea ipotezei.
În 1958 apare algoritumul de reflecție al lui Hauseholder, care înlocuind rotațiile date
, duce la descompunerile QR, care în zilele noastre a devenit algoritmul standard
pentru metoda celor mai mici pătrate.
Principiul metodei celor mai mici pătrate
Problemele cu metoda celor mai mici pătrate apar foarte natural cand vrem să
estimăm valorile parametrilor unui model matematic obținut din date măsurate, care sunt
bazate pe erori. Au existat două contribuții fundamentale la soluția numerică a problemelor
cele mai mici pătrate liniare în ultimul secol: primul a fost dezvoltarea factorizării QR de
Golub în 1965, iar al doilea a fost implicit algoritmul QR pentru calcul descompunerii de
valoare singulară (SVD) prin Golub și Reinsch (1970).
Problemele cu metoda liniară a celor mai mici pătrate apar atunci când vrem să
rezolvăm un sistem liniar supradeterminat, de exemplu când ni se dau mai multe ecuații decât
necunoscute. De obicei, un sistem liniar supradeterminat nu are soluție, dar vom găsi o
soluție aproximată minimizând norma vectorului rezidual.
Calculele sunt mai simple când alegem norma a doua. Prin urmare noi vom minimiza
pătratul lungimii vectorului rezidual.
Dar ATrx=0, deci ||𝑟𝑧 ||22 ≥ |||𝑟𝑥 ||22valabil pentru orice z, atunci x ∈ S.
contradicție, deoarece x nu poate fi în setul de soluții. Prin urmare, presupunerea făcută este
falsă, noi avem 𝐴𝑇 𝑟𝑥 = 0 care dovedește prima echivalență.
Exemplu: Pentru a ilustra rezultatul folosirii normei lui Hö lder cu p≠2, considerăm
problema estimării scalarului 𝛾 cu y ∈ ℝ𝑚 . Acest lucru este echivalent cu minimizarea
normei ‖𝐴𝛾 − 𝑦‖𝑝 , unde A=(1,1, … ,1)𝑇 . Este ușor de verificat că dacă 𝑦1 ≥ 𝑦2 ≥ ⋯ ≥ 𝑦𝑚 ,
atunci soluția pentru diferite valori ale lui p este
𝛾1 = 𝑦(𝑚+1)/2
𝛾2 = (𝑦1 + 𝑦2 + ⋯ + 𝑦𝑚 )/𝑚
𝛾∞ = (𝑦1 + 𝑦𝑚 )/2.
Caracterizarea soluțiilor celor mai mici pătrate
Vom începe prin caracterizarea mulțimii soluțiilor problemei celor mai mici pătrate.
Teoremă. Vom nota mulțimea soluțiilor ecuației min‖𝐴𝑥 − 𝑏‖2 , 𝐴 ∈ ℝ𝑚𝑥𝑛 , 𝑏 ∈
𝑥
ℝ𝑚 , altfel
Dacă 𝑟𝑎𝑛𝑔(𝐴) < 𝑛 atunci 𝐴 are un spațiu netrivial, iar soluția cu metoda celor mai
mici pătrate nu este unică. Dacă 𝑥̂ este o soluție particulară, atunci setul de soluții cu metoda
celor mai mici pătrate este
𝑆 = {𝑥 = 𝑥̂ + 𝑧|𝑧 ∈ 𝒩(𝐴)}.
Dacă 𝑥̂ ⊥ 𝒩(𝐴) atunci ‖𝑥‖22 = ‖𝑥𝑥̂‖22 + ‖𝑧‖22 , deci 𝑥̂ este soluția unică a normei
minime.
Problema calculării soluției minime standard 𝑦 ∈ ℝ𝑚 pentru un sistem nedeterminat
de ecuații liniare
𝑚𝑖𝑛‖𝑦‖2 , 𝐴𝑇 𝑦 = 𝑐,
unde 𝐴 ∈ ℝ𝑚×𝑛 apare ca o sub-problemă în algoritmii de optimizare. Dacă 𝑟𝑎𝑛𝑔(𝐴) = 𝑛,
atunci sistemul 𝐴𝑇 𝑦 = 𝑐 este constant, iar soluția unică este dată de ecuații normale de gradul
al doilea
𝐴𝑇 𝐴𝑧 = 𝑐, 𝑦 = 𝐴𝑧,
aceasta fiind 𝑦 = 𝐴(𝐴𝑇 𝐴)−1 𝑐.
𝑥 = 𝑉2𝑧 = ∑ 𝑧𝑗 𝑣𝑗
𝑗=𝑟+1
ne oferă soluția generală a unui sistem liniar omogen 𝐴𝑥 = 0. Acest rezultat este de obicei
folositor în problemele de optimizare.
Există o relație destul de strânsă între DVS și problema valorilor proprii hermitice din
care rezultă că
𝐴𝐻 𝐴 = 𝑉Σ 𝑇 Σ𝑉 𝐻 , 𝐴𝐴𝐻 = 𝑈ΣΣ 𝑇 𝑈 𝑇 .
2
Σ 𝑇 Σ=(Σ1 0) ∈ ℝ𝑛𝑥𝑛 , ΣΣ 𝑇 = (Σ12 0) ∈ ℝ𝑚𝑥𝑚 ,
0 0 0 0
unde prin urmare 𝜎12 , … . . , 𝜎𝑟2 sunt valorile proprii nonzero ale matricelor hermitice pozitive si
semi definite 𝐴𝐻 𝐴 și 𝐴𝐴𝐻 și 𝑣𝑗 și 𝑢𝑗 sunt vectorii proprii corespunzători.
𝐴 = 𝑈Σ𝑉 = ∑ 𝜎𝑖 𝑢𝑖 𝑣𝑖𝐻 .
𝐻
𝑖=1
Fie 𝐵 ∈ ℳ𝑘𝑚×𝑛 , unde ℳ𝑘𝑚×𝑛este un set de matrice din ℂ𝑚×𝑛 de rang 𝑘 < 𝑟. Atunci
min‖𝐴 − 𝑋‖2 , 𝑋 ∈ ℳ𝑘𝑚×𝑛 ,
este obținut pentru 𝑋 = 𝐵, unde
𝑘
2
‖𝐴 − 𝐵‖𝐹 = (𝜎𝑘+1 + ⋯ + 𝜎𝑟2 )1⁄2 ,
și soluția este unică.
În strânsă legătură cu descompunerea valorilor singulare este descompunerea
polară.
Teoremă: Descompunerea polară. Fie ∈ ℂ𝑚×𝑛 , m≥ 𝑛. Atunci există o matrice
𝑄 ∈ ℂ𝑚×𝑛 și o matrice hermitică unică semidefinită 𝐻 ∈ ℂ𝑚×𝑛 astfel încât
𝐴 = 𝑄𝐻, 𝑄 𝐻 𝑄 = 𝐼.
Dacă 𝑟𝑎𝑛𝑔(𝐴) = 𝑛 atunci 𝐻 este pozitiv definită și 𝑄 este unic determinată.
Demonstrație:
Fie 𝐴 cu descompunerea valorilor singulare
Σ
𝐴 = 𝑈 ( 1 ) 𝑉 𝐻 , Σ1 = 𝑑𝑖𝑎𝑔(𝜎1 , 𝜎2 , … , 𝜎𝑛 ),
0
unde 𝑈 și 𝑉 sunt unitare și 𝜎1 ≥ 𝜎2 ≥ ⋯ ≥ 𝜎𝑛 ≥ 0. Rezultă că 𝐴 = 𝑄𝐻, unde
𝑄 = 𝑈1 𝑉 𝐻 , 𝐻 = 𝑉Σ𝑉 𝐻 ,
și 𝑈1 = (𝑢1 , … , 𝑢𝑛 ).
Descompunerea polară poate fi privită ca o generalizare a matricelor reprezentării
numărului complex 𝑧 = 𝑟𝑒 𝑖𝜃 , 𝑟 ≥ 0. Din moment ce 𝐻 2 = 𝑉Σ 2 𝑉 𝐻 = 𝐴𝐻 𝐴 rezultă că dacă 𝐻
este egală cu rădăcina patrată pozitiv hermitică a lui 𝐴𝐻 𝐴.
𝐻 = (𝐴𝐻 𝐴)1⁄2 .
Teoremă:
Fie 𝐴, 𝐵 ∈ ℂ𝑚×𝑛 și 𝐵 𝐻 𝐴 ∈ ℂ𝑚×𝑛 cu descompunerea polară 𝐵 𝐻 𝐴 = 𝑈𝐻. Atunci
pentru orice matrice unitară 𝑍 ∈ ℂ𝑛×𝑛 avem
‖𝐴 − 𝐵𝑈‖𝐹 ≤ ‖𝐴 − 𝐵𝑍‖𝐹 ≤ ‖𝐴 + 𝐵𝑈‖𝐹 ,
unde‖⋅‖𝐹 denotă norma Frobenius. În cazul special în care 𝑚 = 𝑛 și 𝐵 = 𝐼 avem
‖𝐴 − 𝑈‖𝐹 ≤ ‖𝐴 − 𝑍‖𝐹 ≤ ‖𝐴 + 𝑈‖𝐹 ,
iar minimul este
𝑛 1⁄2
‖𝐴 − 𝑈‖𝐹 = (∑(𝜎𝑖 − 1) ) 2
,
𝑖=1
unde 𝜎𝑖 = 𝜎𝑖 (𝐴).
Atunci
Descompunerea QR
Aplicații și Exemple
Aplicația 1.
Metoda 1: Potrivit observațiilor vom avea un sistem linear cu mai multe ecuații decât
necunoscute.
𝑥1 + 𝑥2 + 𝑥3 =89
𝑥1 +𝑥2 =67 1 1 1 89
1 1 0 67
𝑥2 + 𝑥3 =53 ↔ Ax=b, A= 0 1 1 , b= 53
1 0 0 35
𝑥1 =35 (0 0 1) (20)
𝑥3 =20
Vom observa că dacă vom folosi ultimele 3 ecuații vom obține soluțiile 𝑥1 =35
𝑥2 =33, 𝑥3 =20. Cu toate că dacă verificăm primele 2 ecuații înlocuind pe 𝑥2 vom obține
𝑥1 + 𝑥2 + 𝑥3 − 89= -1
𝑥1 +𝑥2 − 67= -1.
Avem o contradicție din cauza erorilor măsurătorilor, deci sistemul devine unul
supradeterminat care nu are soluție.
O metodă ar putea fi găsirea unei soluții aproximative care să satisfacă ecuațiile cât de bine
posibil. De exemplu, putem introduce vectorul rezidual
r=b – Ax.
După vom căuta un vector x care să minimizeze vectorul rezidual.
Metoda 2: Vom încerca să rezolvăm sistemul folosind ecuații normale.
1 1 1 1 1 1 89
1 1 0 1 0 1 1 0 𝑥1 1 1 0 67
T T
A Ax = A b ⟺ (1 1 1 0 𝑥
0) 0 1 1 ( 2 ) = 0 1 1 53 ⟺
1 0 1 0 1 1 0 0 𝑥3 1 0 0 35
(0 0 1 ) (0 0 1) (20)
3 2 1 𝑥1 191
⟺ (2 3 𝑥
2) ( 2 ) = (209)
1 2 3 𝑥3 192
35.125
⟺ 𝑥 = (32.500)
20.625
Rezidul pentru această ecuație devine
0.7500
−0.6250
𝑟 = 𝑏 − 𝐴𝑥 = −0.1250 , cu ‖𝑟‖2 = 1.1726
−0.1250
(−0.6250)
Observăm că pentru soluția 𝑥 = (35,33,20)𝑇 obținută prin rezolvarea ultimelor 3 ecuații, noi
obținem un reziduu mult mai mare ‖𝑟‖2 = √2 = 1.4142.
De obicei se întâmplă ca 𝐴𝑥 = 𝑏 să nu aibă soluție. Cel mai des întâlnit motiv fiind
ori prea multe ecuații, ori sunt mai multe ecuații decât necunoscute.
Nu întotdeauna vom avea eroarea 𝑒 = 𝑏 − 𝐴𝑥 care să tindă spre zero. Când 𝑒 = 0, x este o
soluție exactă pentru 𝐴𝑥 = 𝑏. Când e are o valoare foarte mică, atunci 𝑥̂ este o soluție cu
metoda celor mai mici pătrate.
Aplicația 2: O aplicație des întâlnită cu metoda celor mai mici pătrate este ajustarea
unei linii drepte pentru m puncte.
Vom începe cu 3 puncte. Trebuie să găsim cea mai apropiată dreaptă pentru punctele (0, 6),
(1, 0), (2, 0).
Pentru 𝑡 = 0 avem 𝑏 = 𝐶 + 𝐷 ∗ 0 = 6
Pentru 𝑡 = 1 avem 𝑏 = 𝐶 + 𝐷 ∗ 1 = 0
Pentru 𝑡 = 2 avem 𝑏 = 𝐶 + 𝐷 ∗ 2 = 0
Acest sistem nu are soluție, deoarece b=(6, 0, 0) nu este o combinație a coloanelor (1, 1, 1) și
(0, 1, 2).
1 0 6
𝐶
A=(1 1) , 𝑥 = ( ), 𝑏 = (0) ⟹ 𝐴𝑥 = 𝑏 nu are soluție.
𝐷
1 2 0
După ce vom face calculele, vom obține 𝑥̂ = (5, −3). Aceste numere fiind cele mai bune
pentru C și D.
Cum putem face eroarea 𝑒 = 𝑏 − 𝐴𝑥 să fie cât mai mică posibil? Acesta este o
întrebare cu un răspuns frumos. Cel mai bun x sau 𝑥̂ poate fi găsit folosind geometria,
algebra sau analiza.
Metoda geometrică
Fiecare 𝐴𝑥 se află în planul coloanelor (1, 1, 1) și (0, 1, 2). În acest plan, ne vom uita
după punctual cel mai apropiat de 𝑏. Cel mai apropiat punct fiind proiecția p, de unde rezultă
că cea mai bună alegere pentru 𝐴𝑥̂ este p. Cea mai mică valoarea pentru eroarea e devenind
acum 𝑒 = 𝑏 − 𝑝. Cele trei puncte la înălțimile 𝑝1 , 𝑝2 , 𝑝3 se află pe o dreaptă, deoarece p se
află în spațiul coloanei.
Metoda algebrică
Fiecare vector 𝑏 se împarte în în două părți. O parte formată din spațiul coloanelor lui
p și o parte perpendicular format din spațiul nul al lui 𝐴𝑇 , care este e. Acum avem o ecuație
𝐴𝑥 = 𝑏 pe care nu o putem rezolva, dar avem și o ecuație 𝐴𝑥̂ = 𝑝, care poate fii rezolvată.
Soluția pentru 𝐴𝑥̂ = 𝑝 are cea mai mică eroare, care este e.
Soluția 𝑥̂ cu metoda celor mai mici pătrate face ca E=‖𝐴𝑥 − 𝑏‖2 să fie cât mai mică
posibil.
Fig. 2.1. Cea mai bună dreaptă și proiecția.
Dreapta are înălțimiile p =(5, 2, -1) cu eroarea e=(1, -2, 1). Ecuația 𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏 ne
oferă pe 𝑥̂ = (5, −3). Cea mai ”bună” dreaptă fiind 𝑏 = 5 − 3𝑡, iar proiecția 𝑝 = 5𝑎1 −
3𝑎2 .
Figura 2.1a reprezintă cea mai apropiată dreaptă. Aceasta este dată de distanțele
𝑒1 , 𝑒2 , 𝑒3 = 1, −2, 1. Acestea fiind distanțe verticale. Linia dată de metoda celor mai mici
pătrate minimizează 𝐸 = 𝑒1 2 + 𝑒2 2 + 𝑒3 2 .
Figura 2.1b reprezintă aceeasi problemă într-un spațiu 3-dimensional (b, p, e).
Vectorul b nu se află in spațiul coloanei lui A. De aceea nu putem rezolva 𝐴𝑥 = 𝑏. Nici o
dreaptă nu trece prin cele 3 puncte. Cea mai mică eroare posibilă este vectorul perpendicular
e. Acesta este 𝑒 = 𝑏 − 𝐴𝑥̂ , vectorul erorilor (1, -2, 1) în cele trei ecuații, acestea fiind
distanțele de la cea mai ”bună” dreaptă. În spatele ambelor figuri se află ecuația fundamentală
𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏.
Observăm că erorile (1, -2, 1) adunate ne dau zero. Eroarea e=( 𝑒1 , 𝑒2 , 𝑒3 ) este
perpendiculară pe prima coloană (1, 1, 1) în A. Produsul scalar ne dă 𝑒1 + 𝑒2 + 𝑒3 = 0.
Derivatele parțiale ale lui ‖𝐴𝑥 − 𝑏‖2 sunt zero când 𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏.
Soluțiile sunt: C=5 și D=-3, deci 𝑏 = 5 − 3𝑡 este cea mai ”bună” dreaptă, care este cea mai
aproape de cele 3 puncte. Pentru 𝑡 = 0, 1, 2 avem dreapta care trece prin 𝑝 = 5, 2, −1.
Aceasta nu putea trece prin 6, 0, 0, erorile fiind 1, -2, 1, care este tocmai vectorul e.
Aplicația 3:
Numeric, dacă 𝛾 este mai mic decât rădăcina pătrată a preciziei mașinii atunci
𝑐𝑜𝑠𝛾 ≈ 1 − 𝛾 2 ⁄2 = 1,
și 𝐴𝑇 𝐴 are doar o singură valoare proprie diferită de zero și egală cu 2. Prin urmare cea mai
mică valoare proprie a lui A a fost pierdută!
Aplicația 4:
Dacă avem 𝐴 = (1 0) și 𝐵 = (1 1)𝑇 , atunci 𝐴𝐵 = 1,
1 1 1
1 = (𝐴𝐵)† ≠ 𝐵 † 𝐴† = (1 1) ( ) = ,
2 0 2
și
1 1 1 0
𝐴𝐴† = (1 0) ( ) = 1, 𝐴† 𝐴 = ( ) (1 0) = ( ).
0 0 0 0
În cazul special în care A ∈ ℂ𝑚×𝑛 , 𝑟𝑎𝑛𝑔(𝐴) = 𝑛,
𝐴† = (𝐴𝐻 𝐴)−1 𝐴𝐻 , ( 𝐴𝐻 )† = 𝐴(𝐴𝐻 𝐴)−1 .
Folosirea metodei celor mai mici pătrate în statistică
Metoda celor mai mici pătrate este probabil cea mai folosită tehnică în statistică.
Acest fapt se datorează mai multor factori. În primul rând, cei mai mulți estimatori pot fi
proiectați cu acest ”cadru”. De exemplu, media unei distribuții este valoarea care
minimizează suma abaterilor pătrate ale scorurilor. În al doilea rând, folosireapătratelor face
metoda celor mai mici pătrate să fie foarte maleabilă, datorită teoremei lui Pitagora, care
indică faptul că atunci când eroarea este independentă de o valoare estimată, se poate adăuga
pătratul erorii și pătratul valorii estimate. În al treilea rând, instrumentele matematice și
algoritmii implicați în metoda celor mai mici pătrate (derivate, descompunerea valorilor
singulare) au fost studiate de foarte multă vreme.
Metoda celor mai mici pătrate este cea mai veche tehnică a statisticii moderne, și
chiar ascendenții acestei metode provin din matematica greacă, cel mai modern precursor
fiind chiar Galileo.
Folosirea acestei metode în cadrul statisticii poate fi urmărită de la Galton (1886) care
a folosit-o în lucrarea sa despre ereditatea dimensiunii care a pus bazele corelației și de
asemenea a dat numele analizei de regresie. Cei doi giganți ai statisticii Pearson și Fisher,
care au facut atâtea în dezvoltarea timpurie a statisticii, au folosit și dezvoltat această metodă
în foarte multe contexte.
În zilele noastre, metoda celor mai mici pătrate este folosită pe scară largă pentru a
găsi sau a estima valori numerice ale parametrilor pentru a potrivi o funcție la un set de date
și pentru a caracteriza proprietățiile statistice ale estimărilor.
Metoda celor mai mici pătrate consideră abaterea următoare drept element cheie:
𝑢𝑖 = 𝑦𝑖 − 𝑦̃.
𝑖
Obținem sistemul:
𝑛 𝑛 𝑛
𝜕𝑆(𝑎̂, 𝑏̂) 2
= 2 ∑(𝑦𝑖 − 𝑎̂ − 𝑏̂𝑥𝑖 ) (−1) = 0 𝑛𝑎̂ + 𝑏̂ (∑ 𝑥𝑖 ) = ∑ 𝑦𝑖
𝜕𝑎̂
𝑖=1 𝑖=1 𝑖=1
𝑛 ⟹ 𝑛 𝑛 𝑛
𝜕𝑆(𝑎̂, 𝑏̂) 2
= 2 ∑(𝑦𝑖 − 𝑎̂ − 𝑏̂𝑥𝑖 ) (−𝑥𝑖 ) = 0 𝑎̂ (∑ 𝑥𝑖 ) + 𝑏̂ (∑ 𝑥𝑖 ) = ∑ 𝑥𝑖 𝑦𝑖
2
̂
{ 𝜕𝑏 𝑖=1 { 𝑖=1 𝑖=1 𝑖=1
1 1
Notăm 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 , 𝑦̅ = ∑𝑛𝑖=1 𝑦𝑖 .
𝑛 𝑛
̅ − 𝑏̂𝑥
𝑎̂ = 𝑦 ̅
∑(𝑦𝑖 − 𝑦
̅ )(𝑥𝑖 − 𝑥
̅)
𝑏̂ =
∑(𝑥𝑖 − 𝑥̅ )2
Între metodele de estimare, metoda celor mai mici pătrate se particularizează prin:
existența unui număr relativ mare de variante și frecvența utilizării.
Preliminarii statistice
Fie 𝑦 o variabilă aleatoare având funcția de distribuție 𝐹(𝑦), unde 𝐹(𝑦) este
continuă la dreapta și 0 ≤ 𝐹(𝑦) ≤ 1, 𝐹(−∞) = 0, 𝐹(∞) = 1.
Valoarea așteptată și varianța lui y sunt definite ca:
∞ ∞
ℰ(𝑦) = 𝜇 = ∫−∞ 𝑦𝑑𝐹(𝑦), ℰ((y − μ)2 ) = σ2 = ∫−∞(y − μ)2 𝑑𝐹(𝑦).
Fie 𝑦 = (𝑦1 , … , 𝑦𝑛 )𝑇 un vector de variabile aleatoare și fie 𝜇 = (𝜇1 , … , 𝜇𝑛 ), unde 𝜇𝑖 = ℰ(𝑦𝑖 ).
Vom scrie 𝜇 = ℰ(𝑦). Dacă 𝑦𝑖 și 𝑦𝑗 au funcția de distribuție comună 𝐹(𝑦𝑖 , 𝑦𝑗 ), covarianța
𝜎𝑖𝑗 dintre 𝑦𝑖 și 𝑦𝑗 este dată de relația
∞
𝑐𝑜𝑣(𝑦𝑖 , 𝑦𝑗 ) = ℰ[(𝑦𝑖 − 𝜇𝑖 )(𝑦𝑗 − 𝜇𝑗 )] = 𝜎𝑖𝑗 = ∫ (𝑦𝑖 − 𝜇𝑖 )(𝑦𝑗 − 𝜇𝑗 )𝑑𝐹(𝑦𝑖 , 𝑦𝑗 ).
−∞
Reținem că 𝜎𝑖𝑗 = ℰ(𝑦𝑖 , 𝑦𝑗 ) − 𝜇𝑖 𝜇𝑗 . Matricea varianță-covarianță 𝑉 ∈ ℝ𝑛𝑥𝑛 după 𝑦 este dată
de relația
𝒱(𝑦) = 𝑉 = ℰ[(𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 ] = ℰ(𝑦𝑦 𝑇 ) − 𝜇𝜇 𝑇 .
Lema: Fie z = 𝐹𝑦 unde F ∈ ℝ𝑟×𝑛 este o matrice dată și y este un vector oarecare cu
ℰ(y)=𝜇 și matricea convariantei V. Atunci
ℰ(z)=F𝜇 , 𝒱(z)=FV𝐹 𝑇
Demonstrație: Prima proprietate o deducem din definiția valorii așteptate. A doua
este demonstrată de
𝒱(Fy)= ℰ[F(𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 𝐹 𝑇 ]= F𝜀 [(𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 ] 𝐹 𝑇 = FV𝐹 𝑇 .
În cazul special, când 𝐹 = 𝑓 𝑇 este un vector, atunci 𝑧 = 𝑓 𝑇 𝑦 este o funcțională
liniară a lui y și 𝜈(z)= 𝜇‖𝑏‖22 .Următoarea lemă este fără demonstrație.
Lema: Fie 𝐴 ∈ ℝ𝑟×𝑛 o matrice simetrică și considerăm forma cuadrică 𝑦 𝑇 𝐴𝑦 , unde y
este un vector oarecare cu valoarea așteptată 𝜇 și matricea convariantei V. Atunci
𝜀(𝑦 𝑇 𝐴𝑦)= 𝜇 𝑇 𝐴𝜇 + 𝑡𝑟𝑎𝑐𝑒(𝐴𝑉)
unde trace(AV) reprezintă suma elementelor de pe diagonala matricei AV .
Aplicația 1.
Producția dintr-o anumită ramură exprimată în milioane de lei a înregistrat între anii
1994-2000 următoarea evoluție:
Să se ajusteze datele după o dreaptă și după o parabolă de gradul doi. Să se facă în ambele
cazuri prognoza pentru anul 2001.
Rezolvare:
𝑥𝑖 𝑦𝑖 𝑥𝑖 2 𝑥𝑖 3 𝑥𝑖 4 𝑥𝑖 𝑦𝑖 𝑥𝑖 2 𝑦𝑖
-3 2,3 9 -27 81 -6,9 20,7
-2 6,3 4 -8 16 -12,6 25,2
-1 9,2 1 -1 1 -9,2 9,2
0 12,8 0 0 0 0 0
1 24,6 1 1 1 24,6 24,6
2 15,9 4 8 16 31,8 63,6
3 17,9 9 27 81 53,7 161,1
∑: 0 89 28 0 196 81,4 304,4
Avem sistemul:
7 7
𝑎 ∑ 𝑥𝑖 + 7𝑏 = ∑ 𝑦𝑖
𝑖=1 𝑖=1 7𝑏 = 89 𝑎 = 2,9
7 7 7 ⟹ { ⟹{
28𝑎 = 81,4 𝑏 = 12,7
𝑎 ∑ 𝑥𝑖 2 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖
{ 𝑖=1 𝑖=1 𝑖=1
Pentru anul 2001 prognoza este: 𝑓(4) = 2,9 ∗ 4 + 12,7 = 24,3 milioane de lei.
𝑎 ∑ 𝑥𝑖 4 + 𝑏 ∑ 𝑥𝑖 3 + 𝑐 ∑ 𝑥𝑖 3 = ∑ 𝑥𝑖 2 𝑦𝑖
{ 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Aplicația 2.
La un magazin de desfacere a unui anumit produs, procentul de produse nevândute a
scăzut ca urmare a îmbunătățirii calității produsului conform tabelului:
𝑥𝑖 𝑦𝑖 1 1 𝑦𝑖
𝑥𝑖 𝑥𝑖 2 𝑥𝑖
1 20 1 1 20
2 15 1/2 1/4 7.5
3 12.5 1/3 1/9 4.17
4 9 1/4 1/16 2.25
5 8.5 1/5 1/25 1.70
6 6.2 1/6 1/36 1.03
∑: 21 7.12 36.65
Avem: 1.49𝑎 = 36.65 ⟹ 𝑎 = 24.6
Curba de ajustare este:
24.6
𝑦 = 𝑓(𝑥) = .
𝑥