Sunteți pe pagina 1din 33

Introducere

Metoda celor mai mici pătrate este o problemă de calcul de importanță primară care a
apărut inițial din necesitatea de a potrivi un model matematic liniar pe baza unor observații
date. Pentru a reduce influența erorilor în observații ar fi trebuit să folosim un număr mai
mare de măsurători decât numărul de parametrii necunoscuți în model. Problema care rezultă
este de a ”rezolva” un sistem de ecuații supradimensionat. În matricea termenilor, se dă un
vector 𝑏 ∈ 𝑹𝑚 și o matrice 𝐴 ∈ 𝑹𝑚𝑥𝑛 , 𝑚 > 𝑛, noi vrem să găsim un vector 𝑥 ∈ 𝑹𝑛 astfel
încât 𝐴𝑥 să fie ”cea mai bună” aproximare a lui b.

Exemplu

Se consideră un model descris de o funcție scalară 𝑦(𝑡) = 𝑓(𝑥, 𝑡), unde 𝑥 ∈ 𝑹𝑛 este
vectorul parametrilor determinați din măsurătorile (𝑦𝑖 , 𝑡𝑖 ), 𝑖 = 1, … , 𝑚, 𝑚 > 𝑛. În particular,
fie 𝑓(𝑥, 𝑡) liniară în x:

𝑓(𝑥, 𝑡) = ∑𝑛𝑗=1 𝑥𝑗 ∅𝑗 (𝑡).

Atunci ecuațiile 𝑦𝑖 = ∑𝑛𝑗=1 𝑥𝑗 ∅𝑗 (𝑡), 𝑖 = 1, … 𝑚 formează un sistem liniar


supradimensionat 𝐴𝑥 = 𝑏, unde 𝑎𝑖𝑗 = ∅𝑗 (𝑡𝑖 ) și 𝑏𝑖 = 𝑦𝑖 .

Există foarte multe metode prin care se poate defini ”cea mai bună” soluție. O alegere
care poate duce la un simplu calcul al problemei este să îl luăm pe x ca fiind soluția
minimizării problemei.

min‖𝐴𝑥 − 𝑏‖2 , 𝐴 ∈ ℝ𝑚𝑥𝑛 , 𝑏 ∈ ℝ𝑚 ,


𝑥

unde ‖∗‖2 este vectorul normei euclidiene.

O vom numi o problemă liniară a celor mai mici pătrate, iar pe x soluția liniară cu cele
mai mici pătrate a sistemului 𝐴𝑥 − 𝑏. Ne referim la 𝑟 = 𝑏 − 𝐴𝑥 ca la un vector rezidual.
Soluția celor mai mici pătrate minimizează ‖𝑟‖22 = ∑𝑚 2
𝑖=1 𝑟𝑖 suma rezidurilor pătrate. Dacă

rang(A) < 𝑛, atunci soluția x nu este unică. Cu toate acestea, printre soluțiile celor mai mici
pătrate există o soluție unică care minimizează ‖𝑥‖2 .
Observații istorice

În 1799, Laplace a folosit principiul minimizării sumei erorilor abolute ∑𝑚 𝑖=1|𝑟|, cu


condiția ca suma erorilor să fie egală cu zero; vezi Goldstine [363,1977]. El a demonstrate că
soluția x trebuie să satisfacă exact n din m ecuații. Gauss a argumentat că, deoarece prin
principiul probabilității, erorile mai mari sau mai mici sunt la fel de posibile în toate ecuațiile,
este evident că o soluție care satisface exact ecuațiile n trebuie privită ca fiind mai puțin
conformă cu legile probabilității. El a fost condus apoi către principiul celor mai mici pătrate.
Procedura algebrică a metodei celor mai mici pătrate a fost publicată prima dată de
către Legendre [523,1805]. Ea a fost justificată ca o procedură statistică de către Gauss [320,
1809], unde el (până la supărarea lui Legendre) a pretins că a descoperit metoda celor mai
mici pătrate din 1795.
Mai mulți istorici sunt de acord cu Gauss. Acesta a folosit principiul celor mai mici
pătrate pentru analiza datelor din sondaje și în calculele astronomice. Un exemplu celebru
este atunci când Gauss a prezis cu succes orbita asteroidului Ceres în 1801. Metoda celor mai
mici pătrate a devenit rapid procedura standard pentru analiza datelor astronomice și
geodezice.
Capitolul 1. 200 de ani de Metoda celor mai mici pătrate

Descoperirea lui Ceres

Descoperirea lui Ceres, primul dintre asteroizii dintre Marte si Jupiter, a fost cel mai mare
eveniment științific la începutul secolului XIX cu consecințe importante pentru dezvoltarea
ulterioară a științei, în ciuda faptului că acest punct de lumină slabă a fost cu greu văzut de
non-specialiști, şi astfel nu a avut o importată imediat practică.

Regula lui Titius-Bode

Astronomii din Babilon au descoperit șapte corpuri cerești distinse: în primul rând Soare
si Luna, apoi Venus (1600 î.Hr.), în cele din urmă Marte, Mercur, Jupiter, și Saturn. În
curând, zile s-au consacrat în mod alternativ la aceste divinități (duminică, luni, marți,
miercuri, joi, vineri, sâmbătă) și de mii de ani întreaga activitate umană pe pământ, în acest
ritm pulsează 7-zile. În tot acest timp, nu a mai fost adăugat nimic, până când Sir William
Herschel, un german organist și astronom amator care trăia în Anglia, a descoperit la 13
martie 1781 o nouă planetă, printr-un telescop imens de propria construcție. Herschel a vrut
să numească noua ”lui” stea (stea George), în devotamentul față de regele britanic, dar
propunerea lui Bode Uranus (în mitologia greacă părintele Saturnus) a fost mai puțin
patriotică si a fost acceptată

Descoperirea lui Uranus a reînviat, de asemenea, discuțiile despre formula lui Johann
Daniel Tietz (Titius) și Johann Elert Bode, care au susținut că semi-axele majore ale orbitele
planetelor au fost date de regula:

0.4, 0.4+0.3=0.7, 0.4+2*0.3=1 (Terra)….. 0.4+2n-2*0.3=…

Pentru n =2,3,4,6,7, determină destul de exact orbitele planetelor cunoscute, şi încă a


lucrat destul de bine, cu n = 8, pentru orbita lui Uranus. Cu toate acestea, numărul = 5 lipsea,
sugerând că ”Creatorul acestei lumi” cu siguranță nu a lăsat gol acest decalaj. Pentru a dovedi
sau infirma, această conjectură a devenit apoi o provocare științifică.
Teza lui Hegel

De asemenea, unul dintre cei mai influenți filozofi, Georg Wilhelm Friedrich Hegel, a
luat parte la aceste discuții transmise în 1801 teza lui (Dissertatio philosophica de orbitis
planetarum, Ienae MDCCCI, Werke 5, pp. 221-253) la Universitatea din Jena. El începe prin
a "dovedi" legile lui Kepler fără a fi nevoie de matematică sau fizică şi, în ultima parte, își
întoarce atenția spre regula lui Bode. Acum, să căutăm în Timaios-ul lui Platon să găsim
numerele magice 1, 2, 3, 4, 9, 8, 27, în cazul în care ne este permis să înlocuim 8 cu 16 (!)1.
Apoi vom lua rădăcinile de ordin 3 a numerelor la puterea a patra, înlocuind pe 1 cu √3 , şi
vom obține secvenţa2 1.4 2.56 4.37 6.34 18.75 40.34 81, în care de fapt între a patra ți a
cincea poziție este un spațiu3 foarte mare"; prin urmare, nu lipsește nici o planetă în acest
spațiu.

Descoperirea lui Piazzi

Pe 1 ianuarie 1801, astronomul italian Giuseppe Piazzi a descoperit în constelația


Taurului un mic loc, şi a fost capabil să urmărească orbita sa până la 11 februarie, când boala,
vremea rea și apropierea de Soare au întrerupt observațiile. El l-a numit Ceres Ferdinandea
(Ferdinand fiind un alt nume de rege). Datele observațiilor lui Piazzi în legătură cu Ceres au
fost publicate în ediția din septembrie a Monatliche Correspondenz. Vom prezenta valorile
datelor obținute de acesta în Tabel 1.1, unde latitudinile βi sunt luate spre sud. Marea
provocare era acum să redescopere acest ”organism pierdut” până la sfârşitul anului, şi mulţi
astronomi (Burckhardt, Olbers, Piazzi) au încercat să extrapoleze cât mai bine posibil orbita sa.

Dar un anumit "Dr. Gauss în Braunschweig" a calculat o soluţie complet diferită şi a


publicat-o pe 29 septembrie 1801. Nemulțumit de aceasta, cu un efort computațional enorm,
el a recalculat și reajustat parametrii în mod continuu şi în cele din urmă a ajuns în decembrie
1801 la valorile prezentate în Tabel 1.2. Pe 7 decembrie 1801 Freiherr von Zach a
redescoperit poziția exactă a lui Ceres prezisă de Gauss.
Tabel 1.1 Observațiile lui Piazzi

1801 Longitudine Latitudine Longitudine Latitudine

Ianuarie 1 530 23’ 06.38” 30 06’ 45.16” 23 530 44’ 45.16” 10 38’ 46.78”

2 530 19’ 38.18” 30 02’ 26.46” 28 540 15’ 18.52” 10 21’ 04.92”

3 530 16’ 37.70” 20 58’ 08.04” 30 540 30’ 10.52” 10 14’ 14.24”

4 530 14’ 21.44” 20 53’ 51.98” 31 540 38’ 05.58” 10 10’ 51.02”

10 530 07’ 57.64” 20 28’ 53.64” Februarie 1 540 46’ 27.14” 10 07’ 34.18”

13 530 10’ 05.60” 20 16’ 46.08” 2 540 55’ 01.52” 10 04’ 18.10”

14 530 11’ 54.20” 20 12’ 54.02” 5 550 22’ 04.20” 00 54’ 34.54”

19 530 26’ 01.98” 10 53’ 37.82” 8 550 53’ 04.52.” 00 45’ 08.28”

21 530 34’ 22.68” 10 46’ 13.06” 11 560 26’ 28.20” 00 35’ 55.08”

22 530 39’ 11.58” 10 42’ 28.80”

Tabel 1.2 Elementele lui Ceres (Gauss 1801)

Afeliu…………………………………..3260 53’ 50”

Ω………………………………………..810 1’ 44”

Înclinarea orbitei……………………….100 36’ 21”

Logaritmul jumătății axei mari…………0.4414902

Excentricitatea…………………………0.0819603

Epoca: 31 decembrie 1801…………….770 54’ 29”.

Pe 7 decembrie 1801 Freiherr von Zach a redescoperit poziția exactă a lui Ceres
prezisă de Gauss.
Primele calcule ale lui Gauss

Marele avantaj al ideilor lui Gauss față de rivalii săi este că acesta și-a asumat exclusiv
Legile lui Kepler și nici o alta ipoteză. Gauss nu a relevat niciodată detalii cu privire la
calcule sale. Îndemnat de Olbers, în cele din urmă a trimis în August 1802 un manuscris
“Summarische Ubersicht”, fără a avea dorința ca acesta să fie publicat. Acest manuscris a fost în
sfârșit tipărit de care Von Lindenau în 1809, cu toate scuzele editorului pentru “imperfecțiuni”. O
variantă excelentă în limba engleză a descrierii calculelor lui Gauss a apărut recent.

Toată dificultatea provine într-adevăr de la numărul mare de variabile implicate.

Elementele orbitei
Coordonate Coordonate sferice
ω - arg. periheliu heliocentrice geocentrice

Ω - longitudinea nodului ascendent


𝑥 𝜌
i - înclinația orbitei (𝑦) (𝜆)
A 𝑧 B 𝛽
a - semiaxa majoră

e – excentricitatea orbitală

l0 – longitudinea heliocentrică

Cantitățile măsurate sunt unghiurile λ și 𝛽 (distanța ρ este necunoscută, desigur)


pentru mai multe valori de timp, cantitățile care urmează să fie calculate sunt elementele
orbitei. Deci avem nevoie de o formulă ca să conectăm pasajele (A) și (B).

Fig 1.2.1 Orbita lui Kepler: Pe – planeta, f – Soarele, u – anomalia adevărată, v –


anomalia excentrică, a – semiaxa majoră, e – excentricitatea.
Pasajul (A). Pentru un timp t dat, trebuie mai întâi să găsim poziția planetei pe
elipsă, adică să găsim anomalia excentrică v (Fig 1.2.1 stânga). Prima dată presupunem
punctul t=0 la periheliu. Apoi a doua lege a lui Kepler (același timp, aceleași arii) ne spune
că timpul t este proporțional cu suprafața A. Perioada P a orbitei corespunde astfel la
suprafața totală a elipsei ab𝜋, deci avem:

A t
=
abπ P

𝑎
Acum întindem elipsa într-un cerc (Fig 1.2.1 dreapta), deci B = 𝑏A, dar de asemenea

𝑎2
B= (𝑢 − 𝑒𝑠𝑖𝑛 𝑢) (diferența dintre suprafețele unui sector și triunghiul T). Cele trei ecuații
2

ne duc la

nt = 𝑢 − 𝑒𝑠𝑖𝑛 𝑢 (Ecuația lui Kepler) (1.2.2),

2𝜋
unde constanta 𝑛 = , se numește rata medie unghiulară. Schimbând originea timpului la
𝑃
locul corect, de exemplu în (1.2.2) devine t-t0, unde t0 este timpul de la periheliu. Trebuie să
adăugăm l0 și să scădem argumentul periheliului și longitudinea nodului ascendent.

Astfel (1.2.2) devine

l0 – (ω+ Ω)+ nt = u – 𝑒𝑠𝑖𝑛 𝑢 (1.2.3)

Ca să rezolvăm această ecuație pentru u trebuie să găsim rata medie unghiulară, care este dată
de Legea a III-a a lui Kepler. Această lege afirmă că a3 este proporțional cu P2 și

n2a3 este o constantă cunoscută. (1.2.4)

Pasajul (B). Pentru acesta trebuie să știm coordonatele geocentrice solare (X, Y, Z)
(pentru aceeași dată și timp) și să obținem coordonatele geocentrice eliptice ale planetei,
adaugându-le și luând coordonatele sferice.

ξ = x + X = ρcos βcos λ

υ = y + Y = ρsin βsin λ (1.2.5)

ζ = z + Z = ρsin β.
Procedura lui Gauss

Când a fost descoperit Ceres, era bine cunoscut cum să calculezi cele 6 elemente ale
orbitei unei planete din 2 seturi de coordonate heliocentrice x, y, z. Aceasta contă în
rezolvarea a 2x3 ecuații nonliniare de 6 necunoscute. Cea mai mare dificultate a fost că erau
doar 2 valori geocentrice observate βi, λi pe un punct. După multe manipulări ale expresiilor
de mai sus, Gauss a fost capabil să reducă calculele la un singur set de coordonate
heliocentrice x, y, z. Gauss a început cu datele de 2 Ianuarie, respectiv 22 Ianuarie și 11
Februarie. Valorile obținute ale elementelor au fost recalculate în mod repetat, aceste calcule
nu au fost făcute folosind metoda celor mai mici pătrate.

1.5 Metoda celor mai mici pătrate

Lucrurile s-au schimbat după ce Ceres a fost redescoperit în Decembrie 1801 când
mai multe observații au fost disponibile. Acum sarcina era să îmbunătățească elementele
orbitei la o acuratețe mult mai mare cu ajutorul joilor informații. Aici Gauss a început să
aplice metoda celor mai mici pătrate, din nou fără să spună cuiva detaliile. Singurele dovezi
se afla într-o secvență din cartea sa “Summarische Ubersicht” și în precizia rezultatelor.

Legendre versus Gauss

În 1805 a apărut “Noi metode pentru determinarea orbitei cometelor” de A – M


Legendre, conținând în adaos o prezentare extrem de frumoasă a metodei celor mai mici
pătrate. Claritatea acesteia împreuna cu exemplele numerice au făcut metoda celor mai mici
pătrate foarte cunoscută în toate comunitățile științifice. În ciuda muncii lui Legendre, Gauss
a numit în faimosul său tratat “Theoria motus corporum celestium”, publicat în 1809, cu
încăpățânare, ideea ceor mai mici pătrate “principiul meu, pe care l-am folosit din 1795”.

Justificarea probabilistică a lui Gauss a Principiului celor mai mici pătrate

Mergând mult mai departe decât Legendre, Gauss a dat un răspuns la întrebarea “De
ce cele mai mici pătrate și nu de exemplu a patra putere cea mai mică sau a șasea?”. Ca să
explicăm această idee, luăm o problemă simplă, de exemplu aproximarea a 3 observații xi, yi
(i=1,2,3) de o orbită care este o dreaptă

𝑦 = 𝑎 + 𝑏𝑥. (1.3.1)
Fig 1.3.2

Dacă cele 3 puncte nu se așază pe o dreaptă, atunci avem 3 linii diferite, nici una nu
este satisfăcătoare (imaginea din stânga). Presupunem că există valori

βi= a + bxi (1.3.2)

pe o dreaptă și că măsurătorile yi sunt eșantioane la întâmplare ale căror erori satisfac o


anumită lege a probabilității. Cea mai comună distribuire este (în figura din dreapta;
probabilitatea este evidențiată de tonurile de gri variate)6.

−(𝛽𝑖− 𝑦𝑖 )2
𝑒 2𝜎2
P(0 ≤ 𝛽𝑖 − 𝑦𝑖 ≤ 𝛥𝑦)= ∆𝑦.
𝜎√2𝜋

Probabilitatea obținerii celor 3 valori y1, y2, y3 (la precizia lui ∆𝑦) este produsul celor
3 probabilități de mai sus,

−(𝛽𝑖− 𝑦𝑖 )2 − ∑3
𝑖=1(𝛽𝑖− 𝑦𝑖 )
2
∆𝑦 ∆𝑦
(𝜎√2𝜋) ∏3𝑖=1 𝑒
3 2𝜎2 = (𝜎√2𝜋) 𝑒 3 2𝜎 2

Dezvoltări ulterioare: Dintre cele mai importante consecințe care au urmat principiul
celor mai mici pătrate, menționăm:

 Eliminarea gaussiană: Pentru a demonstra solvabilitatea ecuațiilor normale, Gauss a


realizat o descriere clară a algoritmului de eliminare pentru ecuații normale.
 Metoda Gauss-Newton: În același manuscris, Gauss a explicat cum problemele
neliniare cu metoda celor mai mici pătrate sunt liniarizate în vecinătatea primei
soluții aproximate.
 Teorema limită centrală a lui Laplace: În 1809, Laplace a publicat teorema limită
centrală, demonstrând că orice funcție probabilitate tinde la distribuire normală
pentru n→∞. Imediat după, el a extins acest lucru ca să justifice principul celor mai mici
pătrate pentru funcții de probabilitate arbitrare și n→∞.

 În 1823, Gauss a publicat un al doilea tratat fundamental privind cele mai mici
pătrate, „Theoria combinationis observationum erronibus minimis obnoxiae” în două
părți, care conține o nouă justificare a principiului celor mai mici pătrate, independent
de funcția probabilitate, care este denumită astăzi teorema Gauss-Markov.
 În 1828, Gauss a publicat ”Supplementum”, care conține calculele impresionante
pentru triangularizări geodezice ale Olandei.
 În 1900 apare teza lui Karl Pearson care combină metoda celor mai mici pătrate cu
distribuția 𝜆2 și se ajunge la 𝜆2- testul pentru fiabilitatea ipotezei.
 În 1958 apare algoritumul de reflecție al lui Hauseholder, care înlocuind rotațiile date
, duce la descompunerile QR, care în zilele noastre a devenit algoritmul standard
pentru metoda celor mai mici pătrate.
Principiul metodei celor mai mici pătrate

Problemele cu metoda celor mai mici pătrate apar foarte natural cand vrem să
estimăm valorile parametrilor unui model matematic obținut din date măsurate, care sunt
bazate pe erori. Au existat două contribuții fundamentale la soluția numerică a problemelor
cele mai mici pătrate liniare în ultimul secol: primul a fost dezvoltarea factorizării QR de
Golub în 1965, iar al doilea a fost implicit algoritmul QR pentru calcul descompunerii de
valoare singulară (SVD) prin Golub și Reinsch (1970).
Problemele cu metoda liniară a celor mai mici pătrate apar atunci când vrem să
rezolvăm un sistem liniar supradeterminat, de exemplu când ni se dau mai multe ecuații decât
necunoscute. De obicei, un sistem liniar supradeterminat nu are soluție, dar vom găsi o
soluție aproximată minimizând norma vectorului rezidual.

Fie dată o matrice A ∈ 𝑹mxn cu m > 𝑛 și un vector b ∈ 𝑹m, căutăm un vector a ∈ 𝑹n


pentru care norma rezidualului r este minimizată.

||𝒓|| = ||𝑏 − 𝐴𝑥|| → 𝑚𝑖𝑛. (2.1)

Calculele sunt mai simple când alegem norma a doua. Prin urmare noi vom minimiza
pătratul lungimii vectorului rezidual.

‖𝒓‖𝟐𝟐 =𝑟12 +𝑟22 +…..+𝑟𝑚2 → 𝑚𝑖𝑛 (2.2)

Teoremă 2.1: Fie S={x∈Rn cu || 𝑏 − 𝐴𝑥 ||2→min} setul de soluții și fie 𝑟𝑥 = 𝑏 − 𝐴𝑥

vectorul rezidual pentru un x dat. Atunci

x∈ S ⟺ AT𝑟𝑥 =0 ↔ 𝑟𝑥 ⊥ R(A), (2.3)

unde R(A) este subspațiul coloanelor din A.


Demonstrație:
Vom demonstra prima echivalență din care cea de-a doua va rezulta foarte
ușor.

”⟸” Fie AT𝑟𝑥 =0 și z ∈ Rn un vector arbitrar.

Atunci rezultă că rz = b-Az = b-Ax+A(x-z), prin urmare 𝑟𝑧 =𝑟𝑥 +A(x-z). Atunci

||𝑟𝑧 ||22 =||𝑟𝑥 ||22+2(𝑥 − 𝑧)𝑇𝐴𝑇𝑟𝑥

Dar ATrx=0, deci ||𝑟𝑧 ||22 ≥ |||𝑟𝑥 ||22valabil pentru orice z, atunci x ∈ S.

”⟹” Presupunem A𝑇 rx = z ≠ 0. Vom considera u=x+𝜀𝑧, cu 𝜀 > 0:


𝑟𝑢 = 𝑏 − 𝐴𝑢 = 𝑏 − 𝐴𝑥 − 𝜀Az = 𝑟𝑥 − 𝜀Az.

Acum avem ||𝑟𝑧 ||22 =||𝑟𝑥 ||22+2𝜀 (𝑥 − 𝑧)𝑇 𝐴𝑇 𝑟𝑥+𝜀 2||𝐴𝑧||22 +.


Deci pentru un 𝜀 suficient de mic vom obține ‖𝑟𝑧 ‖2 < ‖𝑟𝑥 ‖2 . Aceasta fiind o

contradicție, deoarece x nu poate fi în setul de soluții. Prin urmare, presupunerea făcută este
falsă, noi avem 𝐴𝑇 𝑟𝑥 = 0 care dovedește prima echivalență.

Modele liniare și teorema Gauss-Markoff


În modelele liniare statice vom presupune că vectorul b ∈ ℝ𝑚 al observațiilor este
relatat la un vector cu parametru necunoscut x ∈ ℝ𝑛 printr-o relație liniară,
Ax=b+ 𝜀 (1)
unde 𝐴 ∈ ℝ𝑚×𝑛 este o matrice dată și 𝜀 vectorul erorilor aleatoare. În modelul standard
liniar avem
ℰ(𝜖) = 0, 𝒱(𝜖) = 𝜎 2 𝐼 (2)
Definiție: O funcție g(y) a unui vector aleator y este o estimare imparțială a unui
parametru 𝜃 dacă 𝜀(𝑔(𝑦))= 𝜃. Când o asemenea funcție există, atunci 𝜃 se numește
parametru estimabil.
Definiție: Fie c un vector constant. Atunci funcția liniară 𝑔 = 𝑐 𝑇 𝑦 se numește variant
minimă a estimării imparțiale a lui 𝜃 dacă 𝜀(𝑔)= 𝜃 și 𝜈(𝑔) este minimizată peste toate
estimările liniare.
Următoarea teoremă a lui Gauss a plasat metoda celor mai mici pătrate pe o bază
teoretică solidă, fără nicio presupunere că erorile aleatoare urmează o distribuție normală.
Teorema Gauss-Markoff. Considerăm modelul liniar (1), unde 𝐴 ∈ ℝ𝑚×𝑛 este o
matrice oarecare de rang n, 𝑏̂=b+ 𝜀, unde 𝜀 este un vector aleator cu varianța dată de (2).
Atunci cea mai bună estimare imparțială a oricărei funcții 𝑐 𝑇 𝑥 este 𝑐 𝑇 𝑥̂, unde 𝑥̂ este
estimatorul metodei celor mai mici pătrate, obținut prin minimizarea sumei pătratelor
2
‖𝐴𝑥 − 𝑏̂‖ . Mai mult, 𝜀(𝑠 2 )= 𝜎 2 , unde 𝑠 2 este forma cuadrică
2
1 1
𝑠 2 = 𝑚−𝑛 (𝑏 − 𝐴𝑥̂)𝑇 (𝑏 − 𝐴𝑥̂) = 𝑚−𝑛 ‖𝑏 − 𝐴𝑥̂‖22

Corolar: Matricea varianță-covarianță a estimării cu cele mai mici pătrate 𝑥̂ este


𝜈(𝑥̂)= 𝜎 2 (𝐴𝑇 𝐴)−1

Demonstrație: Din moment ce 𝑥̂ =(𝐴𝑇 𝐴)−1 𝐴𝑇 𝑏̂ rezultă din prima lemăm că

𝜈(𝑥̂)= (𝐴𝑇 𝐴)−1 𝐴𝑇 𝜈(𝑏̂ )𝐴(𝐴𝑇 𝐴)−1 = 𝜎 2 (𝐴𝑇 𝐴)−1.


Vectorul rezidurilor 𝑟̂ = 𝑏 − 𝐴𝑥̂ satisface 𝐴𝑇 𝑟̂ = 0, și prin urmare există n relații
liniare printer componentele m ale lui 𝑟̂ . Poate fi arătat că rezidualul 𝑟̂ și de asemenea forma
cuadrică 𝑠 2 sunt necorelate cu 𝑥̂, adică
cov (𝑟̂ , 𝑥̂) = 0, cov (𝑠 2 , 𝑥̂) = 0 .
În modelul general liniar univariat matricea convarianței este 𝜈(𝜖) = 𝜎 2 𝑊, unde
W∈ ℝ𝑚×𝑛 este o matrice simetrică pozitiv semidefinită. Dacă A are tangul n și W este pozitiv
defintă atunci cea mai bună estimare imparțială pentru x a fost dată de Aiken ca fiind soluția
𝑚𝑖𝑛𝑥 (𝐴𝑥 − 𝑏)𝑇 𝑊 −1 (𝐴𝑥 − 𝑏).
În unele aplicații este mai adecvat să considerăm problema minimizării
𝑚𝑖𝑛𝑥 ‖𝐴𝑥 − 𝑏‖𝑝 ,

unde vectorul Hö lder p-normă ‖ ∙ ‖𝑝 este definit de


1⁄
𝑛 𝑝
‖𝑥‖𝑝 = (∑|𝑥𝑖 |𝑝 ) , 1 ≤ 𝑝 < ∞.
𝑖=1

Norma Euclidiană corespunde lui 𝑝 = 2, şi limita în acest caz este


‖𝑥‖∞ = max |𝑥𝑖 |
1≤𝑖≤𝑛

Exemplu: Pentru a ilustra rezultatul folosirii normei lui Hö lder cu p≠2, considerăm
problema estimării scalarului 𝛾 cu y ∈ ℝ𝑚 . Acest lucru este echivalent cu minimizarea
normei ‖𝐴𝛾 − 𝑦‖𝑝 , unde A=(1,1, … ,1)𝑇 . Este ușor de verificat că dacă 𝑦1 ≥ 𝑦2 ≥ ⋯ ≥ 𝑦𝑚 ,
atunci soluția pentru diferite valori ale lui p este
𝛾1 = 𝑦(𝑚+1)/2

𝛾2 = (𝑦1 + 𝑦2 + ⋯ + 𝑦𝑚 )/𝑚
𝛾∞ = (𝑦1 + 𝑦𝑚 )/2.
Caracterizarea soluțiilor celor mai mici pătrate
Vom începe prin caracterizarea mulțimii soluțiilor problemei celor mai mici pătrate.
Teoremă. Vom nota mulțimea soluțiilor ecuației min‖𝐴𝑥 − 𝑏‖2 , 𝐴 ∈ ℝ𝑚𝑥𝑛 , 𝑏 ∈
𝑥

ℝ𝑚 , altfel

S={x ∈ ℝ𝑛 |‖𝐴𝑥 − 𝑏‖2 = 𝑚𝑖𝑛}


Atunci x ∈ 𝑆 dacă și numai dacă următoarea condiție de ortogonalitate este verificată:
𝐴𝑇 (𝑏 − 𝐴𝑥) = 0.
Demonstrație: Presupunem că 𝑥̂ verifică 𝐴𝑇 𝑟̂ = 0, unde 𝑟̂ = 𝑏 − 𝐴𝑥̂. Atunci pentru
orice 𝑥 ∈ ℝ𝑛 avem că 𝑟 = 𝑏 − 𝐴𝑥 = 𝑟̂ + 𝐴(𝑥̂ − 𝑥) ≡ 𝑟̂ + 𝐴𝑒. Ridicând la pătrat expresia
vom obține
𝑟 𝑇 𝑟 = (𝑟̂ + 𝐴𝑒)𝑇 (𝑟̂ + 𝐴𝑒) = 𝑟̂ 𝑇 𝑟̂ + ‖𝐴𝑒‖22
care este mminimizat când 𝑥 = 𝑥̂.
Pe de altă parte presupunem că 𝐴𝑇 𝑟̂ = 𝑧 ≠ 0, și considerăm 𝑥 = 𝑥̂ + 𝜖𝑧. Atunci 𝑟 = 𝑟̂ − 𝜖𝐴𝑧,
și
𝑟 𝑇 𝑟 = 𝑟̂ 𝑇 𝑟̂ − 2𝜖𝑧 𝑇 𝑧 + 𝜖 2 (𝐴𝑧)𝑇 𝐴𝑧 < 𝑟̂ 𝑇 𝑟̂
pentru 𝜖 suficient de mic. Prin urmare 𝑥̂ nu este soluția celui mai mic pătrat.
The range ( sau coloana) matricei 𝐴 ∈ ℝ𝑚×𝑛 este definită astfel,
ℛ(𝐴) = {𝑧 = 𝐴𝑥 | 𝑥 ∈ ℝ𝑛 }.
Mulțimea soluțiilor lui 𝐴𝑇 𝑦 = 0 este un subspațiu numit spațiul nul al lui 𝐴𝑇 și este
notat astfel,
𝒩(𝐴𝑇 ) = { 𝑦 ∈ ℝ𝑚 | 𝐴𝑇 𝑦 = 0},
și este complementul ortogonal în ℝ𝑚 al spațiului ℛ(𝐴). Acestea sunt două din cele patru
subspații fundamentale ale matricii A . Teorema 1.1.2. ne asigură faptul că vectorul rezidual
𝑟 = 𝑏 − 𝐴𝑥 , al soluției celor mai mici pătrate se află în 𝒩(𝐴𝑇 ). Prin urmare, soluția celor
mai mici pătrate, x, descompune în mod unic partea dreaptă b în două component ortogonale
𝑏 = 𝐴𝑥 + 𝑟, 𝐴𝑥 ∈ ℛ(𝐴), 𝑟 ∈ 𝒩(𝐴𝑇 ).
Această interpretare geometrică este ilustrată pentru n=2 în figura 2.1.
Din 𝐴𝑇 (𝑏 − 𝐴𝑥) = 0 rezultă că soluția celor mai mici pătrate satisface ecuațiile ortogonale
𝐴𝑇 𝐴𝑥 = 𝐴𝑇 𝑏.
Matricea 𝐴𝑇 𝐴 ∈ ℝ𝑛×𝑛 este simetrică și nenegativă. Ecuațiile ortogonale sunt constant dat
fiind faptul că,
𝐴𝑇 𝑏 ∈ ℛ(𝐴𝑇 ) = ℛ(𝐴𝑇 𝐴)

În plus, avem următoarea teoremă:


Teoremă. Matricea 𝐴𝑇 𝐴 este definită pozitiv dacă și numai dacă coloanele lui A sunt
liniar independente, adică rang(A)=n.
Demonstrație: Dacă coloanele lui A sunt liniar independente, atunci 𝑥 ≠ 0 ⇒ 𝐴𝑥 ≠ 0
și prin urmare 𝑥 ≠ 0 ⇒ 𝑥 𝑇 𝐴𝑇 𝐴𝑥 = ‖𝐴𝑥‖22 > 0. Prin urmare 𝐴𝑇 𝐴 este pozitiv definită.
Pe de altă parte, dacă coloanele sunt liniar dependente atunci pentru un 𝑥0 ≠ 0 avem 𝐴𝑥0 ≠ 0
și astfel 𝑥0 𝑇 𝐴𝑇 𝐴 𝑥0 = 0, și 𝐴𝑇 𝐴 nu este pozitiv definită.
Din teorema de mai sus rezultă faptul că dacă rang(A)=n, atunci unica soluție a celor
mai mici pătrate, x, și rezidualul corespunzător 𝑟 = 𝑏 − 𝐴𝑥 sunt date de
𝑥 = (𝐴𝑇 𝐴)−1 𝐴𝑇 𝑏, 𝑟 = 𝑏 − 𝐴(𝐴𝑇 𝐴)−1 𝐴𝑇 𝑏.
Dacă 𝑆 ⊂ ℝ𝑚 este un subspațiu, atunci 𝑃𝑆 ∈ ℝ𝑚𝑥𝑚 este o proiecție ortogonală în 𝑆 dacă
ℛ(𝑃𝑆 ) = 𝑆 și
𝑃𝑆2 = 𝑃𝑆 , 𝑃𝑆𝑇 = 𝑃𝑆 .
Mai mult,
(𝐼 − 𝑃𝑆 )2 = (𝐼 − 𝑃𝑆 ), (𝐼 − 𝑃𝑆 )𝑃𝑆 = 0,
unde (𝐼 − 𝑃𝑆 ) este proiecția pentru spațiul complementar lui 𝑆.
Fie 𝑃1 și 𝑃2 proiecțiile ortogonale în 𝑆. Folosind 𝑃𝑆2 = 𝑃𝑆 , 𝑃𝑆𝑇 = 𝑃𝑆 avem pentru
oricare 𝑧 ∈ ℝ𝑚
‖( 𝑃1 − 𝑃2 )𝑧‖22 = 𝑧 𝑇 (𝐼 − 𝑃2 )𝑧 + 𝑧 𝑇 𝑃2 (𝐼 − 𝑃2 )𝑧 = 0.
Rezultă că 𝑃1 = 𝑃2 , deci proiecția ortogonală este unică.
Din interpretarea geometrică a figurii 2.1 𝐴𝑥 este proiecția ortogonală a lui 𝑏 pe
ℛ(𝐴). Avem 𝑟 = (𝐼 − 𝑃ℛ(𝐴) )𝑏 și în cazul de rang înalt

𝑃ℛ(𝐴) = 𝐴(𝐴𝑇 𝐴)−1 𝐴𝑇 .

Dacă 𝑟𝑎𝑛𝑔(𝐴) < 𝑛 atunci 𝐴 are un spațiu netrivial, iar soluția cu metoda celor mai
mici pătrate nu este unică. Dacă 𝑥̂ este o soluție particulară, atunci setul de soluții cu metoda
celor mai mici pătrate este
𝑆 = {𝑥 = 𝑥̂ + 𝑧|𝑧 ∈ 𝒩(𝐴)}.
Dacă 𝑥̂ ⊥ 𝒩(𝐴) atunci ‖𝑥‖22 = ‖𝑥𝑥̂‖22 + ‖𝑧‖22 , deci 𝑥̂ este soluția unică a normei
minime.
Problema calculării soluției minime standard 𝑦 ∈ ℝ𝑚 pentru un sistem nedeterminat
de ecuații liniare
𝑚𝑖𝑛‖𝑦‖2 , 𝐴𝑇 𝑦 = 𝑐,
unde 𝐴 ∈ ℝ𝑚×𝑛 apare ca o sub-problemă în algoritmii de optimizare. Dacă 𝑟𝑎𝑛𝑔(𝐴) = 𝑛,
atunci sistemul 𝐴𝑇 𝑦 = 𝑐 este constant, iar soluția unică este dată de ecuații normale de gradul
al doilea
𝐴𝑇 𝐴𝑧 = 𝑐, 𝑦 = 𝐴𝑧,
aceasta fiind 𝑦 = 𝐴(𝐴𝑇 𝐴)−1 𝑐.

Descompunerea valorilor singulare (DVS)


Descompunerea valorilor singulare (DVS) a unei matrice A ∈ ℝ𝑚×𝑛 este o
descompunere matriceală o mare importanță teoretică și practică pentru tratarea
problemelor cu metoda c.elor mai mici pătrate. Aceasta ne oferă o formă diagonală a
matricei A. În zilele noastre este un principiu folosit în numeroase domenii de aplicare,
precum procesarea semnalelor și a imaginilor, teoria controlului, recunoașterea modelului,
analiza seriilor de timp etc.
Deoarece există și aplicații pentru matrici complexe, menționăm teorema de mai jos pentru
matricele cu elemente complexe. Matricea 𝐴𝐻 va fi matricea formată prin conjugarea fiecărui
element și luarea transpusei.
Teoremă: Fie A ∈ ℂ𝑚×𝑛 o matrice de rang r. Atunci există matrici unitare U ∈
ℂ𝑚×𝑚 și V ∈ ℂ𝑛×𝑛 astfel încât
Σ 0
𝐴 = 𝑈Σ𝑉 𝐻 , Σ = ( 1 ),
0 0
unde Σ ∈ ℝ𝑚×𝑛 , Σ1 = 𝑑𝑖𝑎𝑔(𝜎1 , 𝜎2 , … , 𝜎𝑟 ) și 𝜎1 ≥ 𝜎2 ≥ ⋯ ≥ 𝜎𝑟 > 0.
Astfel 𝜎𝑖 se numesc valorile singulare ale lui A și dacă scriem
𝑈 = (𝑢1 , 𝑢2 , … , 𝑢𝑚 ), 𝑉 = (𝑣1 , 𝑣2 , … , 𝑣𝑛 ),
Deci 𝑢𝑖 și 𝑣𝑖 sunt vectorii singulari din stânga, respectiv dreapta, asociați cu 𝜎𝑖 , 𝑖 = 1 … 𝑟.
Demonstrație: Fie 𝑣1 ∈ ℂ𝑚 un vector de forma
‖𝑣1 ‖2 = 1, ‖𝐴𝑣1 ‖2 = ‖𝐴‖2 = 𝜎,
unde 𝜎 este real și pozitiv. Existența unui asemena vector rezultă din definiția normei de
subordonare a unei matrice. Dacă 𝜎 = 0, atunci 𝐴 = 0 și putem lua Σ=0, iar U și V matrice
unitare arbitrare. Presupunem 𝜎 > 0 și 𝑢1 = (1⁄𝜎)𝐴𝑣1 ∈ ℂ𝑚 , ‖𝑣1 ‖2 = 1. Fie matricele
𝑉 = (𝑣1 , 𝑉1 ) ∈ ℂ𝑚×𝑛 , 𝑈 = (𝑢1 , 𝑈1 ) ∈ ℂ𝑚×𝑛 unitare.
Deoarece 𝑈1𝐻 𝐴𝑣1 = 𝜎𝑈1𝐻 𝑢1 = 0 rezultă că 𝑈 𝐻 𝐴𝑉 are următoarea structură:
𝐻
𝐴1 = 𝑈 𝐻 𝐴𝑉 = (𝜎 𝜔 ),
0 𝐵
𝐻 𝐻 𝐻 (𝑚−1)×(𝑛−1)
unde 𝜔 = 𝑢1 𝐴𝑉1 și 𝐵 = 𝑈1 𝐴𝑉1 ∈ ℂ .
Din
𝜎 2 𝐻
‖𝐴1 ‖2 (𝜎 2 + 𝜔𝐻 𝜔) ⁄2 ≥ ‖𝐴1 ( )‖ = ‖(𝜎 + 𝜔 𝜔)‖ ≥ 𝜎 2 + 𝜔𝐻 𝜔,
1
𝜔 2 𝐵𝜔 2
2 𝐻 1 ⁄
rezultă că ‖𝐴1 ‖2 ≥ (𝜎 + 𝜔 𝜔) 2 . Dar din moment ce U și V sunt unitare, ‖𝐴1 ‖2 =
‖𝐴‖2 = 𝜎, prin urmare 𝜔 = 0.
O matrice dreptunghiulară A ∈ ℝ𝑚×𝑛 reprezintă o mapare liniară de la ℂ𝑛 la ℂ𝑚 .

Descompunerea valorilor singulare (DVS) ale lui A poate fi scrisă ca


𝑟
𝐻
𝐴 = 𝑈1 Σ1 𝑉1 = ∑ 𝜎𝑖 𝑢𝑖 𝑣𝑖𝐻 ,
𝑖=1

unde 𝑈 = (𝑢1 , 𝑢2 , … , 𝑢𝑟 ), 𝑉 = (𝑣1 , 𝑣2 , … , 𝑣𝑟 ).


Cu ajutorul acesteia o matrice A de rang r este descompusă într-o sumă de 𝑟 = 𝑟𝑎𝑛𝑔(𝐴)
matrice de rang 1.
Valorile singulare ale lui A sunt unice. Vectorul singular 𝑣𝑗 , 𝑗 ≤ 𝑟 va fi unic doar când
𝜎𝑗2este o valoare proprie a lui 𝐴𝐻 𝐴. Pentru valorile singulare multiple, vectorii singulari
corespondenți pot fi aleși ca orice bază ortonormată pentru un subspațiul unic pe care îl
acoperă. O dată ce vectorii singulari 𝑣𝑗 , 1 ≤ 𝑗 ≤ 𝑟, au fost aleși, vectorii 𝑢𝑗 , 1 ≤ 𝑗 ≤ 𝑟 sunt
determinați în mod unic de
𝐴𝑣𝑗 = 𝜎𝑗 𝑣𝑗 , 𝑗 = 1, … . . , 𝑟.

În mod similar, dat un 𝑢𝑗 , 1 ≤ 𝑗 ≤ 𝑟, vectorii 𝑣𝑗 , 1 ≤ 𝑗 ≤ 𝑟 sunt determinați în mod unic de


𝐴𝐻 𝑢𝑗 = 𝜎𝑗 𝑣𝑗 , 𝑗 = 1, … . . , 𝑟.

Descompunerea valorilor singulare (DVS) ne oferă informații despre cele patru


subspații fundamentale asociate cu A. Este ușor de verificat că
𝒩(𝐴) = 𝑠𝑝𝑎𝑛⌈𝑣𝑟+1 , … , 𝑣𝑛 ⌉ ℛ(𝐴) = 𝑠𝑝𝑎𝑛⌈𝑢1 , … , 𝑢𝑟 ⌉,
ℛ(𝐴𝐻 ) = 𝑠𝑝𝑎𝑛⌈𝑣1 , … , 𝑣𝑟 ⌉ 𝒩(𝐴𝐻 ) = 𝑠𝑝𝑎𝑛⌈𝑢𝑟+1 , … , 𝑢𝑛 ⌉,
și găsim relațiile bine cunoscute
𝒩(𝐴)⊥ = ℛ(𝐴𝐻 ), ℛ(𝐴)⊥ = 𝒩(𝐴𝐻 ).
Reținem că 𝑉 = (𝑉1 , 𝑉2 ) și 𝑧 ∈ ℂ𝑛−𝑟 un vector arbitrar,
𝑛

𝑥 = 𝑉2𝑧 = ∑ 𝑧𝑗 𝑣𝑗
𝑗=𝑟+1

ne oferă soluția generală a unui sistem liniar omogen 𝐴𝑥 = 0. Acest rezultat este de obicei
folositor în problemele de optimizare.
Există o relație destul de strânsă între DVS și problema valorilor proprii hermitice din
care rezultă că
𝐴𝐻 𝐴 = 𝑉Σ 𝑇 Σ𝑉 𝐻 , 𝐴𝐴𝐻 = 𝑈ΣΣ 𝑇 𝑈 𝑇 .
2
Σ 𝑇 Σ=(Σ1 0) ∈ ℝ𝑛𝑥𝑛 , ΣΣ 𝑇 = (Σ12 0) ∈ ℝ𝑚𝑥𝑚 ,
0 0 0 0
unde prin urmare 𝜎12 , … . . , 𝜎𝑟2 sunt valorile proprii nonzero ale matricelor hermitice pozitive si
semi definite 𝐴𝐻 𝐴 și 𝐴𝐴𝐻 și 𝑣𝑗 și 𝑢𝑗 sunt vectorii proprii corespunzători.

O matrice A ∈ ℂ𝑚×𝑛 este hermitică dacă 𝐴𝐻 = 𝐴. O matrice hermitică A are valoriile


proprii reale 𝜆1 , … , 𝜆𝑛 , atunci 𝐴𝐻 𝐴 = 𝐴2 ca valori proprii reale pozitive egale cu 𝜆2𝑖 , 𝑖 =
1, . . , 𝑛.
În principiu DVS poate fi gasită din descompunerea valorilor proprii a două matrice
hermitice 𝐴𝐻 𝐴 și 𝐴𝐴𝐻 . Cu toate acestea, acest lucru nu duce la o stabilitate a algoritmului de
calcul pentru DVS
Teoremă: Fie descompunerea valorilor singulare a matricei A ∈ ℂ𝑚×𝑛 , 𝐴 = 𝑈Σ𝑉 𝐻 ,
unde Σ = 𝑑𝑖𝑎𝑔(Σ1 , 0),
𝑈 = (𝑈1 , 𝑈2 ), 𝑈1 ∈ ℂ𝑚×𝑟 , 𝑉 = (𝑉1 , 𝑉2 ), 𝑉1 ∈ ℂ𝑚×𝑟 .
Atunci
Σ1 0 0
0 𝐴 𝐻
𝐶=( 𝐻 )=𝑃 (0 −Σ1 0) 𝑃,
𝐴 0
0 0 0
unde P este unitar
𝐻
1 𝑈 𝑈1 √2𝑈2 0
𝑃= ( 1 )
√2 𝑉1 −𝑉1 0 √2𝑉2
Aproximarea matricelor
Descompunerea valorilor singulare joacă un rol important într-o serie de probleme cu
aproximarea matricelor. În teorema de mai jos considerăm aproximarea unei matrici de clasă
inferioară.
Teoremă: Fie A ∈ ℂ𝑚×𝑛 , are rang(A)=r , și descompunerea valorilor singulare
𝑟

𝐴 = 𝑈Σ𝑉 = ∑ 𝜎𝑖 𝑢𝑖 𝑣𝑖𝐻 .
𝐻

𝑖=1
Fie 𝐵 ∈ ℳ𝑘𝑚×𝑛 , unde ℳ𝑘𝑚×𝑛este un set de matrice din ℂ𝑚×𝑛 de rang 𝑘 < 𝑟. Atunci
min‖𝐴 − 𝑋‖2 , 𝑋 ∈ ℳ𝑘𝑚×𝑛 ,
este obținut pentru 𝑋 = 𝐵, unde
𝑘

𝐵 = ∑ 𝜎𝑖 𝑢𝑖 𝑣𝑖𝐻 , ‖𝐴 − 𝑋‖2 = 𝜎𝑘+1 .


𝑖=1
Ca un caz special al acestei teoreme, rezultă că dacă 𝑟𝑎𝑛𝑔(𝐴) = 𝑛, atunci 𝜎𝑛 este
cea mai scurtă distanță de la 𝐴 la un set de matrice singulare în norma spectrală.
Remarcă: Teorema a fost dovedită inițial pentru norma Frobenius. Pentru această
normă distanța minimă este

2
‖𝐴 − 𝐵‖𝐹 = (𝜎𝑘+1 + ⋯ + 𝜎𝑟2 )1⁄2 ,
și soluția este unică.
În strânsă legătură cu descompunerea valorilor singulare este descompunerea
polară.
Teoremă: Descompunerea polară. Fie ∈ ℂ𝑚×𝑛 , m≥ 𝑛. Atunci există o matrice
𝑄 ∈ ℂ𝑚×𝑛 și o matrice hermitică unică semidefinită 𝐻 ∈ ℂ𝑚×𝑛 astfel încât
𝐴 = 𝑄𝐻, 𝑄 𝐻 𝑄 = 𝐼.
Dacă 𝑟𝑎𝑛𝑔(𝐴) = 𝑛 atunci 𝐻 este pozitiv definită și 𝑄 este unic determinată.

Demonstrație:
Fie 𝐴 cu descompunerea valorilor singulare
Σ
𝐴 = 𝑈 ( 1 ) 𝑉 𝐻 , Σ1 = 𝑑𝑖𝑎𝑔(𝜎1 , 𝜎2 , … , 𝜎𝑛 ),
0
unde 𝑈 și 𝑉 sunt unitare și 𝜎1 ≥ 𝜎2 ≥ ⋯ ≥ 𝜎𝑛 ≥ 0. Rezultă că 𝐴 = 𝑄𝐻, unde
𝑄 = 𝑈1 𝑉 𝐻 , 𝐻 = 𝑉Σ𝑉 𝐻 ,
și 𝑈1 = (𝑢1 , … , 𝑢𝑛 ).
Descompunerea polară poate fi privită ca o generalizare a matricelor reprezentării
numărului complex 𝑧 = 𝑟𝑒 𝑖𝜃 , 𝑟 ≥ 0. Din moment ce 𝐻 2 = 𝑉Σ 2 𝑉 𝐻 = 𝐴𝐻 𝐴 rezultă că dacă 𝐻
este egală cu rădăcina patrată pozitiv hermitică a lui 𝐴𝐻 𝐴.
𝐻 = (𝐴𝐻 𝐴)1⁄2 .
Teoremă:
Fie 𝐴, 𝐵 ∈ ℂ𝑚×𝑛 și 𝐵 𝐻 𝐴 ∈ ℂ𝑚×𝑛 cu descompunerea polară 𝐵 𝐻 𝐴 = 𝑈𝐻. Atunci
pentru orice matrice unitară 𝑍 ∈ ℂ𝑛×𝑛 avem
‖𝐴 − 𝐵𝑈‖𝐹 ≤ ‖𝐴 − 𝐵𝑍‖𝐹 ≤ ‖𝐴 + 𝐵𝑈‖𝐹 ,
unde‖⋅‖𝐹 denotă norma Frobenius. În cazul special în care 𝑚 = 𝑛 și 𝐵 = 𝐼 avem
‖𝐴 − 𝑈‖𝐹 ≤ ‖𝐴 − 𝑍‖𝐹 ≤ ‖𝐴 + 𝑈‖𝐹 ,
iar minimul este
𝑛 1⁄2

‖𝐴 − 𝑈‖𝐹 = (∑(𝜎𝑖 − 1) ) 2
,
𝑖=1
unde 𝜎𝑖 = 𝜎𝑖 (𝐴).

Descompunerea valorilor singulare și pseudoinversa

Descompunerea valorilor singulare este o uneltă puternică pentru rezolvarea


problemelor liniare cu metoda celor mai mici pătrate. Acest lucru se datorează faptului că
matricele unitare care transformă pe A într-o formă diagonală care nu schimbă norma 𝑙2 a
vectorilor.
Teoremă: Considerăm problema generală cu metoda celor mai mici pătrate
min‖𝑥‖2 , 𝑆 = {𝑥 ∈ ℝ𝑛 |‖𝑏 − 𝐴𝑥‖2 = 𝑚𝑖𝑛},
𝑥∈𝑆
𝑚×𝑛
unde A ∈ ℂ și 𝑟𝑎𝑛𝑔(𝐴) = 𝑟 ≤ min(𝑚, 𝑛). Acestă problemă are întodeauna o soluție
unică poate fi scrisă cu ajutorul descompunerii valorilor singulare ale lui 𝐴
−1
𝑥 = 𝑉 (Σ𝑟 0) 𝑈 𝐻 𝑏.
0 0
Demonstrație:
Fie
𝑧1 𝑐1
𝑧 = 𝑉 𝐻 𝑥 = (𝑧 ) , 𝑐 = 𝑈 𝐻 𝑏 = (𝑐 ),
2 2
𝑟
unde 𝑧1 , 𝑐1 ∈ ℂ .

Atunci

‖𝑏 − 𝐴𝑥‖2 = ‖𝑈 𝐻 (𝑏 − 𝐴𝑉𝑉 𝐻 )‖2


𝑐1 Σ 0 𝑧1 𝑐 − Σ1 𝑧1
= ‖(𝑐 ) − ( 1 ) (𝑧 )‖ = ‖( 1 )‖
2 0 0 2 2 𝑐2 2

Prin urmare, norma va fi minimizată pentru un 𝑧2 arbitrar și 𝑧1 = Σ𝑟−1 𝑐1. Alegerea


𝑧2 = 0 minimizează ‖𝑧‖2 , deci și pe ‖𝑥‖2 = ‖𝑉𝑧 ‖2 de asemenea.
−1
Definiție: Putem scrie relația 𝑥 = 𝑉 (Σ𝑟 0) 𝑈 𝐻 𝑏 ca 𝑥 = 𝐴† 𝑏, unde
0 0
−1
𝐴 † = 𝑉 ( Σ𝑟 0) 𝑈 𝐻 ∈ ℂ𝑚×𝑛
0 0
este numită pseudoinversa lui A, iar soluția relație se numește soluția pseudoinversei.
Pseudoinversa unui scalar este
1⁄𝜎, 𝑑𝑎𝑐ă 𝜎 ≠ 0
𝜎† = { .
0, 𝑑𝑎𝑐ă 𝜎 = 0
Acest lucru arată că pseudoinversa lui 𝐴 nu este o funcție continuă a lui 𝐴, doar dacă
permitem perturbații care nu schimbă rangul. Pseudoinversa poate fi caracterizată în mod
unic prin două condiții geometrice

𝐴† 𝑏 ⊥ 𝒩(𝐴), (𝐼 − 𝐴𝐴† )𝑏 ⊥ ℛ(𝐴), ∀𝑏 ∈ ℝ𝑚


Matricea 𝐴† este de obicei cunoscută ca pseudoinversa lui Moore-Penrose.
Teoremă: Pseudoinversa 𝑋 = 𝐴† este determinată în mod unic de următoarele patru
condiții.
1) 𝐴𝑋𝐴 = 𝐴 2) 𝑋𝐴𝑋 = 𝑋
𝐻
3) (𝐴𝑋) = 𝐴𝑋 4) (𝑋𝐴)𝐻 = 𝑋𝐴
Din acestea rezultă că 𝐴† nu depinde în particular de alegerea lui 𝑈 din descompunerea
valorilor singulare.
Se poate arăta că pseudoinversa are următoarele proprietăți.
Teoremă:
1) (𝐴† )† = 𝐴;
2) (𝐴† )𝐻 = (𝐴𝐻 )†
3) (𝛼𝐴)† = 𝛼 † 𝐴† ;
4) (𝐴𝐻 𝐴)† = 𝐴† (𝐴† )𝐻 ;
5) 𝐷𝑎𝑐ă 𝑈 ș𝑖 𝑉 𝑠𝑢𝑛𝑡 𝑢𝑛𝑖𝑡𝑎𝑟𝑒 (𝑈𝐴𝑉 𝐻 )† = 𝑉𝐴† 𝑈 𝐻 ;
6) 𝐷𝑎𝑐ă 𝐴 = ∑𝑖 𝐴𝑖 , 𝑢𝑛𝑑𝑒 𝐴𝑖 𝐴𝑗 𝐻 = 0 𝐴𝑖 𝐻 𝐴𝑗 = 0, 𝑖 ≠ 𝑗, 𝑎𝑡𝑢𝑛𝑐𝑖 𝐴† = ∑𝑖 𝐴𝑖 † ;
7) 𝐷𝑎𝑐ă 𝐴 𝑒𝑠𝑡𝑒 𝑛𝑜𝑟𝑚𝑎𝑙 𝐴𝐴𝐻 = 𝐴𝐻 𝐴, 𝑎𝑡𝑢𝑛𝑐𝑖 𝐴† 𝐴 = 𝐴𝐴† și (𝐴𝑛 )† = (𝐴† )𝑛 ;
8) 𝐴, 𝐴𝐻 , 𝐴† 𝑎𝑢 𝑎𝑐𝑒𝑙𝑎ș𝑖 𝑟𝑎𝑛𝑔 𝑒𝑔𝑎𝑙 𝑐𝑢 𝑢𝑟𝑚𝑎 𝑙𝑢𝑖 (𝐴† 𝐴).

Teoremă: Presupunem că A ∈ ℂ𝑚×𝑛 ,B ∈ ℂ𝑟×𝑛 , unde 𝑟𝑎𝑛𝑔(𝐴) = 𝑟𝑎𝑛𝑔(𝐵) = 𝑟. Atunci


rezultă că
(𝐴𝐵)† = 𝐵 † 𝐴† = 𝐵 𝐻 (𝐵𝐵𝐻 )−1 (𝐴𝐻 𝐴)−1 𝐴𝐻 .

Demonstrația rezultă din


𝐴† = (𝐴𝐻 𝐴)−1 𝐴𝐻 , ( 𝐴𝐻 )† = 𝐴(𝐴𝐻 𝐴)−1 .

Descompunerea QR

Descompunerea valorilor singulare ale lui A ne oferă soluția pentru problema cu


metoda celor mai mici pătrate cu un rang deficit. Cu toate că, în majoritatea aplicațiilor este
prea scump pentru a calcula cu descompunerea valorilor singulare și trebuie utilizate
descompuneri mai simple.
Fie A ∈ ℝ𝑚×𝑛 și b ∈ ℝ𝑚 și fie Q ∈ ℝ𝑚×𝑚 o matrice ortogonală. Deoarece
transformările ortogonale păstrează lungimea euclidiană, rezultă că problema celor mai mici
pătrate este echivalentă cu

min‖𝑄 𝑇 (𝐴𝑥 − 𝑏)‖2


𝑥
Vom arăta cum să alegem 𝑄 astfel încât problema să devină ușor de rezolvat.
Teoremă:
Fie A ∈ ℝ𝑚×𝑛 , 𝑚 ≥ 𝑛. Atunci există o matrice ortogonală Q ∈ ℝ𝑚×𝑚 astfel încât
𝑅
𝐴 = 𝑄 ( ),
0
unde 𝑅 este triangulară superior cu elemente pozitive pe diagonală. Descompunerea de mai
sus se numește descompunere QR a lui A, iar matricea R se numește factorul R al lui A.
Demonstrație:
Se face prin inducție după n. Fie A partiționată în forma 𝐴 = (𝑎1 , 𝐴2 ), 𝑎1 ∈ ℝ𝑚 ,
𝑎
alegem 𝜌 = ‖𝑎1 ‖2. Fie 𝑈 = (𝑦, 𝑈1 ) o matrice ortogonală cu 𝑦 = 1⁄𝜌, dacă 𝑎1 ≠ 0 și 𝑦 = 𝑒1
în caz contrar. Din moment ce 𝑈1𝑇 𝑦 = 0 rezultă că
𝑇
𝑈 𝑇 𝐴 = 𝑈 (𝜌 𝑟 ) , 𝐵 = 𝑈1𝑇 𝐴2 ∈ ℝ(𝑚−1)𝑥(𝑛−1) ,
0 𝐵
unde 𝜌 = ‖𝑎1 ‖2, 𝑟 = 𝐴𝑇2 𝑦.
Pentru 𝑛 = 1, 𝐴2 este nulă , iar teorema este valabilă pentru 𝑄 = 𝑈 și 𝑅 = 𝜌, un
scalar. Presupunem acum că ipoteza inducție este adevarată pentru 𝑛 − 1. Atunci există o
̅ 𝑅
matrice ortogonală 𝑄̅ astfel încât 𝑄̅ 𝑇 𝐵 = (𝑅 ), relația 𝐴 = 𝑄 ( ) va fi valabilă pentru
0 0
1 0 𝜌 𝑟𝑇
𝑄=( ) , 𝑅 = ( ).
0 𝑄̅ 0 𝑅̅
Demonstrația acestei teoreme ne oferă o modalitate de a calcula Q și R cu condiția
să putem construi o matrice ortogonală 𝑈 = (𝑦𝑖 , 𝑈1 ) având în vedere prima sa coloană.
𝑅
Observăm că din descompunerea 𝐴 = 𝑄 ( ) rezultă imediat că R are aceleași valori
0
singulare și aceeasi vectori singulari de dreapta ca matricea A. Relația dintre factorizarea
Choleski a lui 𝐴𝑇 𝐴 și descompunerea QR este prezentată în teorema de mai jos.
Teoremă: Fie A ∈ ℝ𝑚×𝑛 de rang n. Atunci dacă factorul R din descompunerea QR
a lui A are elementele de pe diagonală pozitive, acesta este egal cu factorul Choleski al lui
𝐴𝑇 𝐴.
Demonstrație: Dacă 𝑟𝑎𝑛𝑔(𝐴) = 𝑛, atunci factorul Choleski al lui 𝐴𝑇 𝐴 este unic.
Din teoremă rezultă că
𝑅
𝐴𝑇 𝐴 = (𝑅 𝑇 0)𝑄 𝑇 𝑄 ( ) = 𝑅 𝑇 𝑅,
0
care încheie demonstrația.
Presupunem că 𝑟𝑎𝑛𝑔(𝐴) = 𝑛 și partiția 𝑄 de forma
𝑄 = (𝑄1 , 𝑄2 ), 𝑄1 ∈ ℝ𝑚×𝑛 , 𝑄2 ∈ ℝ𝑚×(𝑚−𝑛) .
Atunci din teorema de mai sus și din non singularitatea lui 𝑅 avem
𝑅
𝐴 = (𝑄1 , 𝑄2 ) ( ) = 𝑄1 𝑅, 𝑄1 = 𝐴𝑅 −1 .
0
Prin urmare putem să îl exprimăm 𝑄1în mod unic în cu ajutorul termenilor lui 𝐴 și 𝑅.

Aplicații și Exemple

Aplicația 1.

Fie o porțiune de drum pe care s-au efectuat 5 măsurători: AD= 89 m, AC=67 m,


BD=53 m, AB=35 m și CD=20 m. Vrem să determinăm lungimea segmentelor AB= x1,
BC=x2, CD= x3.

Metoda 1: Potrivit observațiilor vom avea un sistem linear cu mai multe ecuații decât
necunoscute.

𝑥1 + 𝑥2 + 𝑥3 =89
𝑥1 +𝑥2 =67 1 1 1 89
1 1 0 67
𝑥2 + 𝑥3 =53 ↔ Ax=b, A= 0 1 1 , b= 53
1 0 0 35
𝑥1 =35 (0 0 1) (20)
𝑥3 =20

Vom observa că dacă vom folosi ultimele 3 ecuații vom obține soluțiile 𝑥1 =35

𝑥2 =33, 𝑥3 =20. Cu toate că dacă verificăm primele 2 ecuații înlocuind pe 𝑥2 vom obține
𝑥1 + 𝑥2 + 𝑥3 − 89= -1
𝑥1 +𝑥2 − 67= -1.
Avem o contradicție din cauza erorilor măsurătorilor, deci sistemul devine unul
supradeterminat care nu are soluție.

O metodă ar putea fi găsirea unei soluții aproximative care să satisfacă ecuațiile cât de bine
posibil. De exemplu, putem introduce vectorul rezidual
r=b – Ax.
După vom căuta un vector x care să minimizeze vectorul rezidual.
Metoda 2: Vom încerca să rezolvăm sistemul folosind ecuații normale.
1 1 1 1 1 1 89
1 1 0 1 0 1 1 0 𝑥1 1 1 0 67
T T
A Ax = A b ⟺ (1 1 1 0 𝑥
0) 0 1 1 ( 2 ) = 0 1 1 53 ⟺
1 0 1 0 1 1 0 0 𝑥3 1 0 0 35
(0 0 1 ) (0 0 1) (20)
3 2 1 𝑥1 191
⟺ (2 3 𝑥
2) ( 2 ) = (209)
1 2 3 𝑥3 192
35.125
⟺ 𝑥 = (32.500)
20.625
Rezidul pentru această ecuație devine

0.7500
−0.6250
𝑟 = 𝑏 − 𝐴𝑥 = −0.1250 , cu ‖𝑟‖2 = 1.1726
−0.1250
(−0.6250)

Observăm că pentru soluția 𝑥 = (35,33,20)𝑇 obținută prin rezolvarea ultimelor 3 ecuații, noi
obținem un reziduu mult mai mare ‖𝑟‖2 = √2 = 1.4142.

De obicei se întâmplă ca 𝐴𝑥 = 𝑏 să nu aibă soluție. Cel mai des întâlnit motiv fiind
ori prea multe ecuații, ori sunt mai multe ecuații decât necunoscute.

Nu întotdeauna vom avea eroarea 𝑒 = 𝑏 − 𝐴𝑥 care să tindă spre zero. Când 𝑒 = 0, x este o
soluție exactă pentru 𝐴𝑥 = 𝑏. Când e are o valoare foarte mică, atunci 𝑥̂ este o soluție cu
metoda celor mai mici pătrate.

Deci când 𝐴𝑥 = 𝑏 nu are soluție, vom rezolva ecuația 𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏.

Aplicația 2: O aplicație des întâlnită cu metoda celor mai mici pătrate este ajustarea
unei linii drepte pentru m puncte.
Vom începe cu 3 puncte. Trebuie să găsim cea mai apropiată dreaptă pentru punctele (0, 6),
(1, 0), (2, 0).

Observăm faptul că nici o dreaptă 𝑏 = 𝐶 + 𝐷𝑡 nu trece prin aceste trei puncte. Ne


interesează punctele C și D care să satisfcă cele 3 ecuații. Avem ecuațiile:

Pentru 𝑡 = 0 avem 𝑏 = 𝐶 + 𝐷 ∗ 0 = 6

Pentru 𝑡 = 1 avem 𝑏 = 𝐶 + 𝐷 ∗ 1 = 0

Pentru 𝑡 = 2 avem 𝑏 = 𝐶 + 𝐷 ∗ 2 = 0

Acest sistem nu are soluție, deoarece b=(6, 0, 0) nu este o combinație a coloanelor (1, 1, 1) și
(0, 1, 2).
1 0 6
𝐶
A=(1 1) , 𝑥 = ( ), 𝑏 = (0) ⟹ 𝐴𝑥 = 𝑏 nu are soluție.
𝐷
1 2 0
După ce vom face calculele, vom obține 𝑥̂ = (5, −3). Aceste numere fiind cele mai bune
pentru C și D.

Cum putem face eroarea 𝑒 = 𝑏 − 𝐴𝑥 să fie cât mai mică posibil? Acesta este o
întrebare cu un răspuns frumos. Cel mai bun x sau 𝑥̂ poate fi găsit folosind geometria,
algebra sau analiza.

Metoda geometrică
Fiecare 𝐴𝑥 se află în planul coloanelor (1, 1, 1) și (0, 1, 2). În acest plan, ne vom uita
după punctual cel mai apropiat de 𝑏. Cel mai apropiat punct fiind proiecția p, de unde rezultă
că cea mai bună alegere pentru 𝐴𝑥̂ este p. Cea mai mică valoarea pentru eroarea e devenind
acum 𝑒 = 𝑏 − 𝑝. Cele trei puncte la înălțimile 𝑝1 , 𝑝2 , 𝑝3 se află pe o dreaptă, deoarece p se
află în spațiul coloanei.

Metoda algebrică
Fiecare vector 𝑏 se împarte în în două părți. O parte formată din spațiul coloanelor lui
p și o parte perpendicular format din spațiul nul al lui 𝐴𝑇 , care este e. Acum avem o ecuație
𝐴𝑥 = 𝑏 pe care nu o putem rezolva, dar avem și o ecuație 𝐴𝑥̂ = 𝑝, care poate fii rezolvată.

𝐴𝑥 = 𝑏 = 𝑝 + 𝑒 este imposibil de rezolvat, 𝐴𝑥̂ = 𝑝 se poate rezolva.

Soluția pentru 𝐴𝑥̂ = 𝑝 are cea mai mică eroare, care este e.

‖𝐴𝑥 − 𝑏‖2 = ‖𝐴𝑥 − 𝑝‖2 + ‖𝑒‖2

Aceasta este regula 𝑐 2 = 𝑎2 + 𝑏 2 pentru un triunghi dreptunghic. Vectorul 𝑨𝒙 − 𝒑


din spațiul coloanelor este perpendicular pe e. Reducem 𝐴𝑥 − 𝑝 la zero alegând pe x ca fiind
𝑥̂ . Acest lucru ne conduce la eroarea e=( 𝑒1 , 𝑒2 , 𝑒3 ).

Soluția 𝑥̂ cu metoda celor mai mici pătrate face ca E=‖𝐴𝑥 − 𝑏‖2 să fie cât mai mică
posibil.
Fig. 2.1. Cea mai bună dreaptă și proiecția.

Dreapta are înălțimiile p =(5, 2, -1) cu eroarea e=(1, -2, 1). Ecuația 𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏 ne
oferă pe 𝑥̂ = (5, −3). Cea mai ”bună” dreaptă fiind 𝑏 = 5 − 3𝑡, iar proiecția 𝑝 = 5𝑎1 −
3𝑎2 .
Figura 2.1a reprezintă cea mai apropiată dreaptă. Aceasta este dată de distanțele
𝑒1 , 𝑒2 , 𝑒3 = 1, −2, 1. Acestea fiind distanțe verticale. Linia dată de metoda celor mai mici
pătrate minimizează 𝐸 = 𝑒1 2 + 𝑒2 2 + 𝑒3 2 .

Figura 2.1b reprezintă aceeasi problemă într-un spațiu 3-dimensional (b, p, e).
Vectorul b nu se află in spațiul coloanei lui A. De aceea nu putem rezolva 𝐴𝑥 = 𝑏. Nici o
dreaptă nu trece prin cele 3 puncte. Cea mai mică eroare posibilă este vectorul perpendicular
e. Acesta este 𝑒 = 𝑏 − 𝐴𝑥̂ , vectorul erorilor (1, -2, 1) în cele trei ecuații, acestea fiind
distanțele de la cea mai ”bună” dreaptă. În spatele ambelor figuri se află ecuația fundamentală

𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏.

Observăm că erorile (1, -2, 1) adunate ne dau zero. Eroarea e=( 𝑒1 , 𝑒2 , 𝑒3 ) este
perpendiculară pe prima coloană (1, 1, 1) în A. Produsul scalar ne dă 𝑒1 + 𝑒2 + 𝑒3 = 0.

Metoda prin analiză


Majoritatea funcțiilor pot fi minimizate cu ajutorul analizei. Graficul atinge minimul,
iar derivata în fiecare direcție este zero. Funcția eroare E minimizată este suma pătratelor
𝑒1 2 + 𝑒2 2 + 𝑒3 2 (pătratul erorii în fiecare ecuație):

𝐸 = ‖𝐴𝑥 − 𝑏‖2 = (𝐶 + 𝐷 ∗ 0 − 6)2 + (𝐶 + 𝐷 ∗ 1)2 + (𝐶 + 𝐷 ∗ 2)2


Necunoscutele sunt C și D. Dacă avem două necunoscute, atunci avem două derivate,
𝜕𝐸
ambele zero la minim. Ele sunt derivate parțiale deoarece îl tratează pe D ca o constantă
𝜕𝐶
𝜕𝐸
și pe C ca pe o constantă.
𝜕𝐷
𝜕𝐸
= 2(𝐶 + 𝐷 ∗ 0 − 6) + 2(𝐶 + 𝐷 ∗ 1) + (𝐶 + 𝐷 ∗ 2) = 0
𝜕𝐶
𝜕𝐸
= 2(𝐶 + 𝐷 ∗ 0 − 6)(𝟎) + 2(𝐶 + 𝐷 ∗ 1)(𝟏) + 2(𝐶 + 𝐷 ∗ 2)(𝟐) = 𝟎
𝜕𝐷
𝜕𝐸
conține factorii extra 0, 1, 2 din regula lanțului (ultima derivată a lui (𝐶 + 2𝐷)2 este de
𝜕𝐷
2 ori 𝐶 + 2𝐷, de unde rezultă 2. În derivata lui C factorii corespunzători sunt 1, 1, 1, deoarece
este multiplicată cu 1. Nu este o întâmplare că 1, 1, 1 și 0, 1, 2 sunt coloanele matricei A.
Avem:
3𝐶 + 3𝐷 = 6
{
3𝐶 + 5𝐷 = 0
3 3
Matricea ( ) este chiar 𝐴𝑇 𝐴.
3 5
Aceste ecuații sunt identice cu 𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏, unde C și D sunt componentele lui 𝑥̂ . Ecuațiile
obținute prin analiză sunt la fel ca ”ecuațiile normale” din algebra liniară. Acestea sunt
ecuațiile cheie ale metodei celor mai mici pătrate:

Derivatele parțiale ale lui ‖𝐴𝑥 − 𝑏‖2 sunt zero când 𝐴𝑇 𝐴𝑥̂ = 𝐴𝑇 𝑏.

Soluțiile sunt: C=5 și D=-3, deci 𝑏 = 5 − 3𝑡 este cea mai ”bună” dreaptă, care este cea mai
aproape de cele 3 puncte. Pentru 𝑡 = 0, 1, 2 avem dreapta care trece prin 𝑝 = 5, 2, −1.
Aceasta nu putea trece prin 6, 0, 0, erorile fiind 1, -2, 1, care este tocmai vectorul e.

Aplicația 3:

Considerăm cazul n=2, 𝐴 = (𝑎1 , 𝑎2 ) ∈ ℝ𝑚𝑥2 , 𝑎1𝑇 𝑎2 = 𝑐𝑜𝑠𝛾, și ‖𝑎1 ‖2 = ‖𝑎2 ‖2 = 1.


Aici 𝛾 este unghiul dintre vectorii 𝑎1 și 𝑎2 . Matricea
1 𝑐𝑜𝑠𝛾
𝐴𝑇 𝐴 = ( )
𝑐𝑜𝑠𝛾 1
are valoriile proprii 𝜆1 = 2𝑐𝑜𝑠 2 (𝛾⁄2), 𝜆2 = 2𝑠𝑖𝑛2 (𝛾⁄2), deci
𝛾 𝛾
𝜎1 = √2𝑐𝑜𝑠 , 𝜎2 = √2𝑠𝑖𝑛 .
2 2
Vectorii proprii ai lui 𝐴𝑇 𝐴,
1 1 1 −1
𝑣1 = ( ), 𝑣2 = ( ),
√2 1 √2 1
sunt vectorii singulari la dreapta ai matricei A. Vectorii singulari la stânga pot fi determinați
din
𝐴𝑣𝑗 = 𝜎𝑗 𝑣𝑗 , 𝑗 = 1, … . . , 𝑟.

Numeric, dacă 𝛾 este mai mic decât rădăcina pătrată a preciziei mașinii atunci
𝑐𝑜𝑠𝛾 ≈ 1 − 𝛾 2 ⁄2 = 1,
și 𝐴𝑇 𝐴 are doar o singură valoare proprie diferită de zero și egală cu 2. Prin urmare cea mai
mică valoare proprie a lui A a fost pierdută!

Aplicația 4:
Dacă avem 𝐴 = (1 0) și 𝐵 = (1 1)𝑇 , atunci 𝐴𝐵 = 1,
1 1 1
1 = (𝐴𝐵)† ≠ 𝐵 † 𝐴† = (1 1) ( ) = ,
2 0 2
și
1 1 1 0
𝐴𝐴† = (1 0) ( ) = 1, 𝐴† 𝐴 = ( ) (1 0) = ( ).
0 0 0 0
În cazul special în care A ∈ ℂ𝑚×𝑛 , 𝑟𝑎𝑛𝑔(𝐴) = 𝑛,
𝐴† = (𝐴𝐻 𝐴)−1 𝐴𝐻 , ( 𝐴𝐻 )† = 𝐴(𝐴𝐻 𝐴)−1 .
Folosirea metodei celor mai mici pătrate în statistică

Metoda celor mai mici pătrate este probabil cea mai folosită tehnică în statistică.
Acest fapt se datorează mai multor factori. În primul rând, cei mai mulți estimatori pot fi
proiectați cu acest ”cadru”. De exemplu, media unei distribuții este valoarea care
minimizează suma abaterilor pătrate ale scorurilor. În al doilea rând, folosireapătratelor face
metoda celor mai mici pătrate să fie foarte maleabilă, datorită teoremei lui Pitagora, care
indică faptul că atunci când eroarea este independentă de o valoare estimată, se poate adăuga
pătratul erorii și pătratul valorii estimate. În al treilea rând, instrumentele matematice și
algoritmii implicați în metoda celor mai mici pătrate (derivate, descompunerea valorilor
singulare) au fost studiate de foarte multă vreme.

Metoda celor mai mici pătrate este cea mai veche tehnică a statisticii moderne, și
chiar ascendenții acestei metode provin din matematica greacă, cel mai modern precursor
fiind chiar Galileo.

Folosirea acestei metode în cadrul statisticii poate fi urmărită de la Galton (1886) care
a folosit-o în lucrarea sa despre ereditatea dimensiunii care a pus bazele corelației și de
asemenea a dat numele analizei de regresie. Cei doi giganți ai statisticii Pearson și Fisher,
care au facut atâtea în dezvoltarea timpurie a statisticii, au folosit și dezvoltat această metodă
în foarte multe contexte.

În zilele noastre, metoda celor mai mici pătrate este folosită pe scară largă pentru a
găsi sau a estima valori numerice ale parametrilor pentru a potrivi o funcție la un set de date
și pentru a caracteriza proprietățiile statistice ale estimărilor.
Metoda celor mai mici pătrate consideră abaterea următoare drept element cheie:

𝑢𝑖 = 𝑦𝑖 − 𝑦̃.
𝑖

Ridicarea la pătrat și însumarea pătratelor abaterilor conduce la calculul sumei:

𝑆 = ∑𝑛𝑖=1 𝑢𝑖 2 =∑𝑛𝑖=1(𝑦𝑖 − 𝑦̃𝑖 )2.

Pentru ca aceste estimații să fie alese, trebuie ca suma să fie minimă.


Deoarece 𝑦̃ = 𝑎̂ + 𝑏̂𝑥 se poate rescrie astfel:

𝑆 = ∑𝑛𝑖=1[𝑦𝑖 − (𝑎̂ + 𝑏̂𝑥𝑖 )]2 .


Vom obține punctul de extrem în urma egalării derivatelor parțiale cu zero în raport
cu necunoscutele 𝑎̂, 𝑏̂.

Obținem sistemul:
𝑛 𝑛 𝑛
𝜕𝑆(𝑎̂, 𝑏̂) 2
= 2 ∑(𝑦𝑖 − 𝑎̂ − 𝑏̂𝑥𝑖 ) (−1) = 0 𝑛𝑎̂ + 𝑏̂ (∑ 𝑥𝑖 ) = ∑ 𝑦𝑖
𝜕𝑎̂
𝑖=1 𝑖=1 𝑖=1
𝑛 ⟹ 𝑛 𝑛 𝑛
𝜕𝑆(𝑎̂, 𝑏̂) 2
= 2 ∑(𝑦𝑖 − 𝑎̂ − 𝑏̂𝑥𝑖 ) (−𝑥𝑖 ) = 0 𝑎̂ (∑ 𝑥𝑖 ) + 𝑏̂ (∑ 𝑥𝑖 ) = ∑ 𝑥𝑖 𝑦𝑖
2
̂
{ 𝜕𝑏 𝑖=1 { 𝑖=1 𝑖=1 𝑖=1

1 1
Notăm 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 , 𝑦̅ = ∑𝑛𝑖=1 𝑦𝑖 .
𝑛 𝑛

Vom obține soluția ca fiind:

̅ − 𝑏̂𝑥
𝑎̂ = 𝑦 ̅

∑(𝑦𝑖 − 𝑦
̅ )(𝑥𝑖 − 𝑥
̅)
𝑏̂ =
∑(𝑥𝑖 − 𝑥̅ )2

Interpretarea parametrilor estimați

𝑏̂ − indică numărul de unități naturale cu care se modifică variabila, indicând și panta


dreptei de regresie (crește pentru 𝑏̂ > 0 și scade pentru 𝑏̂ < 0)

𝑎̂ − nu are interpretare economică, ci doar semnificația sa este ordonată la origine.


De obicei, vom oberva o diversitate de valori pentru un nivel oarecare al factorului în
procesele economice. Relația cauză – efect nefiind de tip determinist. Pe lângă factorul cu rol
determinant, mai avem și un element aleator care perturbă relația cauză-efect.

Între metodele de estimare, metoda celor mai mici pătrate se particularizează prin:
existența unui număr relativ mare de variante și frecvența utilizării.

Preliminarii statistice
Fie 𝑦 o variabilă aleatoare având funcția de distribuție 𝐹(𝑦), unde 𝐹(𝑦) este
continuă la dreapta și 0 ≤ 𝐹(𝑦) ≤ 1, 𝐹(−∞) = 0, 𝐹(∞) = 1.
Valoarea așteptată și varianța lui y sunt definite ca:
∞ ∞
ℰ(𝑦) = 𝜇 = ∫−∞ 𝑦𝑑𝐹(𝑦), ℰ((y − μ)2 ) = σ2 = ∫−∞(y − μ)2 𝑑𝐹(𝑦).
Fie 𝑦 = (𝑦1 , … , 𝑦𝑛 )𝑇 un vector de variabile aleatoare și fie 𝜇 = (𝜇1 , … , 𝜇𝑛 ), unde 𝜇𝑖 = ℰ(𝑦𝑖 ).
Vom scrie 𝜇 = ℰ(𝑦). Dacă 𝑦𝑖 și 𝑦𝑗 au funcția de distribuție comună 𝐹(𝑦𝑖 , 𝑦𝑗 ), covarianța
𝜎𝑖𝑗 dintre 𝑦𝑖 și 𝑦𝑗 este dată de relația

𝑐𝑜𝑣(𝑦𝑖 , 𝑦𝑗 ) = ℰ[(𝑦𝑖 − 𝜇𝑖 )(𝑦𝑗 − 𝜇𝑗 )] = 𝜎𝑖𝑗 = ∫ (𝑦𝑖 − 𝜇𝑖 )(𝑦𝑗 − 𝜇𝑗 )𝑑𝐹(𝑦𝑖 , 𝑦𝑗 ).
−∞
Reținem că 𝜎𝑖𝑗 = ℰ(𝑦𝑖 , 𝑦𝑗 ) − 𝜇𝑖 𝜇𝑗 . Matricea varianță-covarianță 𝑉 ∈ ℝ𝑛𝑥𝑛 după 𝑦 este dată
de relația
𝒱(𝑦) = 𝑉 = ℰ[(𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 ] = ℰ(𝑦𝑦 𝑇 ) − 𝜇𝜇 𝑇 .
Lema: Fie z = 𝐹𝑦 unde F ∈ ℝ𝑟×𝑛 este o matrice dată și y este un vector oarecare cu
ℰ(y)=𝜇 și matricea convariantei V. Atunci
ℰ(z)=F𝜇 , 𝒱(z)=FV𝐹 𝑇
Demonstrație: Prima proprietate o deducem din definiția valorii așteptate. A doua
este demonstrată de
𝒱(Fy)= ℰ[F(𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 𝐹 𝑇 ]= F𝜀 [(𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 ] 𝐹 𝑇 = FV𝐹 𝑇 .
În cazul special, când 𝐹 = 𝑓 𝑇 este un vector, atunci 𝑧 = 𝑓 𝑇 𝑦 este o funcțională
liniară a lui y și 𝜈(z)= 𝜇‖𝑏‖22 .Următoarea lemă este fără demonstrație.
Lema: Fie 𝐴 ∈ ℝ𝑟×𝑛 o matrice simetrică și considerăm forma cuadrică 𝑦 𝑇 𝐴𝑦 , unde y
este un vector oarecare cu valoarea așteptată 𝜇 și matricea convariantei V. Atunci
𝜀(𝑦 𝑇 𝐴𝑦)= 𝜇 𝑇 𝐴𝜇 + 𝑡𝑟𝑎𝑐𝑒(𝐴𝑉)
unde trace(AV) reprezintă suma elementelor de pe diagonala matricei AV .
Aplicația 1.

Producția dintr-o anumită ramură exprimată în milioane de lei a înregistrat între anii
1994-2000 următoarea evoluție:

ANI 1994 1995 1996 1997 1998 1999 2000


VOL.PROD. 2,3 6,3 9,2 12,8 24,6 15,9 17,9

Să se ajusteze datele după o dreaptă și după o parabolă de gradul doi. Să se facă în ambele
cazuri prognoza pentru anul 2001.
Rezolvare:

𝑥𝑖 𝑦𝑖 𝑥𝑖 2 𝑥𝑖 3 𝑥𝑖 4 𝑥𝑖 𝑦𝑖 𝑥𝑖 2 𝑦𝑖
-3 2,3 9 -27 81 -6,9 20,7
-2 6,3 4 -8 16 -12,6 25,2
-1 9,2 1 -1 1 -9,2 9,2
0 12,8 0 0 0 0 0
1 24,6 1 1 1 24,6 24,6
2 15,9 4 8 16 31,8 63,6
3 17,9 9 27 81 53,7 161,1
∑: 0 89 28 0 196 81,4 304,4

a) Vom ajusta funcția după dreapta 𝑦 = 𝑎𝑥 + 𝑏.

Avem sistemul:
7 7

𝑎 ∑ 𝑥𝑖 + 7𝑏 = ∑ 𝑦𝑖
𝑖=1 𝑖=1 7𝑏 = 89 𝑎 = 2,9
7 7 7 ⟹ { ⟹{
28𝑎 = 81,4 𝑏 = 12,7
𝑎 ∑ 𝑥𝑖 2 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖
{ 𝑖=1 𝑖=1 𝑖=1

Avem funcția 𝑓(𝑥) = 2,9𝑥 + 12,7

Pentru anul 2001 prognoza este: 𝑓(4) = 2,9 ∗ 4 + 12,7 = 24,3 milioane de lei.

b) Ajustarea după parabola 𝑦 = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐


7 7 7
2
𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 + 7𝑐 = ∑ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
7 7 7 7 28𝑎 + 7𝑐 = 89
3 2 ⟹ { 28𝑏 = 28,4 ⟹
𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 + 𝑐 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 196𝑎 + 28𝑐 = 304,4
7 7 7 7

𝑎 ∑ 𝑥𝑖 4 + 𝑏 ∑ 𝑥𝑖 3 + 𝑐 ∑ 𝑥𝑖 3 = ∑ 𝑥𝑖 2 𝑦𝑖
{ 𝑖=1 𝑖=1 𝑖=1 𝑖=1

⟹ 𝑎 = −0,6, 𝑏 = 2,9, 𝑐 = 15,1


Avem funcția 𝑦 = 𝑓(𝑥) = −0,6𝑥 2 + 2,9𝑥 + 15,1.
Prognoza anului 2001 va fi 𝑓(4) = −0,6 ∗ 16 + 2,9 ∗ 4 + 15,1 = 18,3 milioane de lei.

Aplicația 2.
La un magazin de desfacere a unui anumit produs, procentul de produse nevândute a
scăzut ca urmare a îmbunătățirii calității produsului conform tabelului:

ANI 1994 1995 1996 1997 1998 1999


PROCENT 20 15 12,5 9 8,5 6,2

a) Să se determine tendința de scădere a procentului produselor nevândute.


Rezolvare:

Vom observa că putem face o ajustare după hiperbola echilaterală de ecuație:


𝑎
𝑦=
𝑥
Pentru a-l determina pe a, avem relația:
1 𝑦𝑖
𝑎 ∑6𝑖=1 = ∑6𝑖=1
𝑥𝑖2 𝑥𝑖

𝑥𝑖 𝑦𝑖 1 1 𝑦𝑖
𝑥𝑖 𝑥𝑖 2 𝑥𝑖
1 20 1 1 20
2 15 1/2 1/4 7.5
3 12.5 1/3 1/9 4.17
4 9 1/4 1/16 2.25
5 8.5 1/5 1/25 1.70
6 6.2 1/6 1/36 1.03
∑: 21 7.12 36.65
Avem: 1.49𝑎 = 36.65 ⟹ 𝑎 = 24.6
Curba de ajustare este:
24.6
𝑦 = 𝑓(𝑥) = .
𝑥

S-ar putea să vă placă și