Documente Academic
Documente Profesional
Documente Cultură
Prin regularizarea unui model de regresie se înţelege procesul prin care se adaugă
modelului noi informaţii cu scopul de a rezolva o problemă rău condiţionată (ill-
posed problem) sau pentru a evita supraînvăţarea modelului (overfitting). În cele
ce urmează prezentăm pe scurt patru modele de regresie regularizată: regresia
Ridge, LOSS (Least Absolute Shrinkage and Selection), Adaptive LOSS şi ElasticNET
(Marinoiu, 2017).
, , (7.1)
unde este un parametru real care reglează gradul de penalizare. Soluţia
problemei (7.1) este unică şi este
, (7.2)
cu precizarea că în acest caz matricea este standardizată, iar vectorul este
centrat. Parametrul se numeşte parametrul de contracţie: când
, iar când .
Observaţii
, , (7.3)
formă care pune în evidenţă ideea de a limita posibilitatea ca parametrii
să ia valori necontrolat de mari;
Componentele estimatorului Ridge sunt „contractate“ spre zero, dar nu iau
nicio dată valoarea zero (cu alte cuvinte, regresia Ridge nu este o metodă
de selectare a variabilelor). O interpretare geometrică a acestei trăsături
este prezentată în figura 6.3 a);
, k>0 (7.4)
sau forma echivalentă
, . (7.5)
Problema de minim (7.4) nu acceptă o soluţie analitică, însă Bradley (2004) şi
colboratorii au publicat algoritmul LARS (Least Angle Regression), care rezolvă
această problemă utilizînd abordări din domeniul programării pătratice.
Principalul dezavantaj al metodei LASSO constă în faptul că pentru metoda
limitează numărul maxim de variabile selectate la cel mult , adică la numărul de
observaţii disponibile. De asemenea, dacă mai multe variabile sunt corelate
formând practic un grup, metoda tinde să selecteze doar o singură variabilă din
grup şi nu întreg grupul.
a) b)
7.5 ELASTICNET
Aşa cum s-a remarcat în paragrafele precedente, procedeele de regularizare din
metodele metodele Ridge şi LASSO oferă soluţii simple, dar ingenioase pentru
rezolvarea problemelor de regresie liniară în condiţii de multicoliniaritate sau
aproape multicoliniaritate. Fiecare dintre ele are însă şi limitări. Ideea metodei
ElasticNet propusă în lucrarea (Zou şi Hastie, 2005) este de a combina metodele
Ridge şi LASSO, astfel încât să se obţină o metodă care să realizeze atât
regularizarea cât şi selecţia variabilelor, fără a păstra şi dezavantajele metodelor
iniţiale. În acest scop funcţia de penalizare este construită ca o combinaţie liniară
a normelor şi deja utilizate în acelaşi scop în metoda regresiei Ridge şi
respectiv LASSO, problema de minim care se rezolvă în acest caz fiind următoarea:
, , k>0 (7.8)
Prin valorile sale, parametrul controlează gradul de apropiere de regresia Ridge
sau de metoda LASSO, reducându-se la regresia Ridge pentru şi la metoda
LASSO pentru . În (Zou şi Hastie, 2005) este propus algoritmul de rezolvare
numit LARS-EN (bazat pe algoritmul LARS), care permite rezolvarea problemei de
minim (7.8). Pentru o valoare fixată numărul parametrilor anulaţi creşte (şi
în mod corespunzător numărul variabilelor din model scade) pe măsură ce
parametrul creşte de la valoarea la valoarea .