Sunteți pe pagina 1din 7

MODELE DE REGRESIE REGULARIZATE

Prin regularizarea unui model de regresie se înţelege procesul prin care se adaugă
modelului noi informaţii cu scopul de a rezolva o problemă rău condiţionată (ill-
posed problem) sau pentru a evita supraînvăţarea modelului (overfitting). În cele
ce urmează prezentăm pe scurt patru modele de regresie regularizată: regresia
Ridge, LOSS (Least Absolute Shrinkage and Selection), Adaptive LOSS şi ElasticNET
(Marinoiu, 2017).

7.1. MODELUL DE REGRESIE RIDGE


Sistemul de ecuaţii normale 5.4 are soluţie unică dacă şi numai dacă coloanele
matricii sunt linear independente şi în consecinţă matricea este
inversabilă. În foarte multe probleme de interes practic (procesarea imaginilor,
probleme de clasificare şi selecţia genelor etc.) această condiţie nu este
îndeplinită: numărul mare de variabile din model creşte probabilitatea ca o parte
dintre ele să fie corelate, consecinţa fiind generarea unei matrici care are
coloanele coliniare sau aproape coliniare şi deci a unei matricii neinversabile.
Această situaţie, cunoscută sub numele de multicoliniaritate, respectiv aproape
multicoliniaritate are numeroase consecinţe nedorite, dintre care amintim:
 Nu se obţine o soluţie unică pentru rezolvarea modelului de regresie;
 Modelul obţinut este instabil, orice modificare uşoară în datele de intrare
(cauzate, de exemplu, de erorile de rotunjire) produce schimbări dramatice în
rezultatul final;
 Eroarea medie pătratică (MSE), dispersia totală şi lungimea medie a

estimatorului iau valori foarte mari, fapt ce conduce la o dispersie mare a


modelului (Vinod şi Ullah, 1981).
Una dintre soluţiile găsite pentru rezolvarea problemei de regresie în acest caz
este modificarea funcţiei obiectiv, care constă în a adăuga la suma pătratelor

erorilor funcţia de penalizare , unde


Astfel, problema de minim (4.3) devine

, , (7.1)
unde este un parametru real care reglează gradul de penalizare. Soluţia
problemei (7.1) este unică şi este
, (7.2)
cu precizarea că în acest caz matricea este standardizată, iar vectorul este
centrat. Parametrul se numeşte parametrul de contracţie: când
, iar când .
Observaţii

 Estimatorul Ridge este introdus în lucrarea (Hoerl şi Kennard, 1970) ca o


modalitate de a înlătura fenomenul de multicoliniaritate întâlnit la unele
probleme de regresie liniară. Formula de calcul a acestui estimator diferă

de formula de calcul a estimatorului prin faptul că la elementele


diagonalei principale ale matricii se adună o valoare reală , care
transformă această matrice într-o matrice inversabilă;
 Problema de minim (7.1) este echivalentă cu problema de minm cu restricţii

, , (7.3)
formă care pune în evidenţă ideea de a limita posibilitatea ca parametrii
să ia valori necontrolat de mari;
 Componentele estimatorului Ridge sunt „contractate“ spre zero, dar nu iau
nicio dată valoarea zero (cu alte cuvinte, regresia Ridge nu este o metodă
de selectare a variabilelor). O interpretare geometrică a acestei trăsături
este prezentată în figura 6.3 a);

 Spre deosebire de estimatorul prin cele mai mici pătrate , estimatorul


Ridge este deplasat.

7.2 MODELUL LASSO


Aşa cum am văzut, în ciuda avantajelor sale, regularizarea Ridge păstrează în
model toate variabilele iniţiale, fără a micşora gradul de complexitate al
modelului, oferind în continuare un model cu multe variabile şi deci greu de
interpretat. În metoda LASSO ( Least Absolute Shinkage and Selection), publicată
în lucrarea (Tibshirani, 1996), penalizarea , bazată pe norma euclidiană ,
este înlocuită cu funcţia de penalizare , care este norma a parametrului
. Aceasta se defineşte prin
,
cu ajutorul distanţei Manhattan (vezi relaţia (9.12)). Efectul obţinut constă în
faptul că în modelul LASSO o parte din coeficienţi iau valoarea zero obţinându-se
astfel un model cu mai puţine variabile şi deci mai uşor de interpretat. Estimatorii
parametrilor se obţin rezolvând problema de minim:

, k>0 (7.4)
sau forma echivalentă

, . (7.5)
Problema de minim (7.4) nu acceptă o soluţie analitică, însă Bradley (2004) şi
colboratorii au publicat algoritmul LARS (Least Angle Regression), care rezolvă
această problemă utilizînd abordări din domeniul programării pătratice.
Principalul dezavantaj al metodei LASSO constă în faptul că pentru metoda
limitează numărul maxim de variabile selectate la cel mult , adică la numărul de
observaţii disponibile. De asemenea, dacă mai multe variabile sunt corelate
formând practic un grup, metoda tinde să selecteze doar o singură variabilă din
grup şi nu întreg grupul.

7.3 INTERPRETAREA GEOMETRICĂ A MODELELOR


DE ÎNVĂŢARE RIDGE ŞI LASSO
Pentru a de înţelege de ce în modelul LASSO o parte din variabile pot fi eliminate,
iar în regresia Ridge nu, vom considera cazul particular al acestor modele,
utilizând în acest scop formele echivalente (7.3) şi (7.5) ale problemelor de minim
(7.1) şi respectiv (7.4).

Pentru problema de minim din regresia Ridge (7.3)


, , devine
, cu restricţia , (7.6)
iar problema de minim LASSO, din relaţia (7.5)
, , devine
, cu restricţia (7.7)
Funcţia este o funcţie de gradul al doilea în variabilele
şi . Funcţia are un singur punct de minim, iar contururile sale au forma
unor elipse şi sunt desenate în figurile 6.3 a) şi 6.3 b). Pentru orice punct care
aparţine unui astfel de contur valoarea funcţiei este constantă.
În cazul regresiei Ridge restricţiile , se transpun grafic sub
forma mulţimii punctelor din interiorul cercului desenat în figura 6.3 a). În mod
analog, în cazul metodei LASSO restricţiile , iau forma
interiorului pătratului prezentat în figura 6.3 b).

Minimul funcţiei fără restricţii este atins în punctul semnalat în


figurile 6.3 b) şi 6.3 a) ca fiind centrul acestor elipse. În cazul problemei de aflare a
minimului cu restricţii, minimul va fi atins într-unul din punctele aflate la
intersecţia dintre domeniul de restricţie (fie pătrat, fie cerc) şi cea mai apropiată
elipsă de contur a funcţiei . Se observă că în figura 6.3 b) conturul
funcţiei intersectează pătratul exact
într-unul din vârfurile sale, şi anume punctul de coordonate (0, , ceea ce
înseamnă că parametrul a fost constrâns să ia valoarea fapt ce echivalează
cu eliminarea variabilei din model. Cu cât numărul de variabile ale modelului
creşte, cu atât creşte şi numărul vârfurilor de “pătrate” şi în consecinţă şi
probabilitatea de a anula o parte a parametrilor modelului. Prin contrast,
penalizarea în cazul metodei Ridge nu conduce la o astfel de situaţie (vezi figura
6.3 b)), având ca efect doar o contractare progresivă spre zero a parametrilor, fără
ca aceştia să atingă efectiv valoarea zero (Hastie, Tibshirani şi Friedman, 2009).

a) b)

Figura 6.3 a) Modelul Ridge b) Modelul LASSO. Sursa:


(Hastie, Tibshirani şi Friedman, 2009, pg. 71).

7.5 ELASTICNET
Aşa cum s-a remarcat în paragrafele precedente, procedeele de regularizare din
metodele metodele Ridge şi LASSO oferă soluţii simple, dar ingenioase pentru
rezolvarea problemelor de regresie liniară în condiţii de multicoliniaritate sau
aproape multicoliniaritate. Fiecare dintre ele are însă şi limitări. Ideea metodei
ElasticNet propusă în lucrarea (Zou şi Hastie, 2005) este de a combina metodele
Ridge şi LASSO, astfel încât să se obţină o metodă care să realizeze atât
regularizarea cât şi selecţia variabilelor, fără a păstra şi dezavantajele metodelor
iniţiale. În acest scop funcţia de penalizare este construită ca o combinaţie liniară
a normelor şi deja utilizate în acelaşi scop în metoda regresiei Ridge şi
respectiv LASSO, problema de minim care se rezolvă în acest caz fiind următoarea:

, , k>0 (7.8)
Prin valorile sale, parametrul controlează gradul de apropiere de regresia Ridge
sau de metoda LASSO, reducându-se la regresia Ridge pentru şi la metoda
LASSO pentru . În (Zou şi Hastie, 2005) este propus algoritmul de rezolvare
numit LARS-EN (bazat pe algoritmul LARS), care permite rezolvarea problemei de
minim (7.8). Pentru o valoare fixată numărul parametrilor anulaţi creşte (şi
în mod corespunzător numărul variabilelor din model scade) pe măsură ce
parametrul creşte de la valoarea la valoarea .

S-ar putea să vă placă și