Sunteți pe pagina 1din 11

Analiza discriminantă liniară şi Regresia logistică

Suportul teoretic al Analizei discriminante liniare, al clasificatorului Naive Bayes şi


al Regresiei logistice este teorema lui Bayes, care are următorul enunţ:
Teorema lui Bayes (Veysseyre, 2006, pg. 46). Dacă Ak , k =1,2, ⋯ m este o mulţime
de evenimente care reprezintă toate cazurile posibile şi exclusive de realizare a
unui eveniment A de probabilitate P( A)≠0 , atunci
P( A/ Ak )P ( A k )
P( A k / A)= m
, (9.1)
∑ P( A / A k ) P( A k)
k=1

unde prin P( A /B) se înţelege probabilitatea evenimentului A condiţionat de


evenimentul B.
Observaţii
 În termenii teoriei probablităţilor spunem că mulţimea evenimentelor {
Ak },k =1,2 , ⋯ m formează un sistem complet de evenimente, adică:

- Evenimentele sunt disjuncte două câte două ¿ ¿ , j ≠ k , 1≤ j , k ≤ m¿;


- Reuniunea evenimentelor Ak este evenimentul sigur Ω , (
¿ k =1¿ m A k =¿ Ω¿

 Interpretarea formulei (9.1) este următoarea: probabilitatea P( A k ), numită


şi probabilitate a priori este probabilitatea evenimentului Ak atâta timp cât
nu avem cunoştinţă de realizarea evenimentului A . În momentul în care
ştim că evenimentul A s-a produs, influenţa sa asupra evenimentului Ak se
va reflecta în valoarea probabilităţii condiţionate P( A k / A),numită

probabilitate a posteriori.
9.1 CLASIFICATORUL BAYES
Să presupunem că ne situăm în cazul tipic al unei probleme de clasificare, adică
dispunem de datele de antrenament ( x i , ci ) , i=1,2 , ⋯ , n, unde x i este instanţa
disponibilă, iar c i clasa căreia îi aparţine această instanţă şi dorim să clasificăm o
nouă instanţă x . Presupunem că instanţele x i sunt realizări ale vectorului aleator
X =( X 1 , X 2 , … , X p ), iar clasele c i ale variabilei aleatoare discrete C . Notăm prin P ¿)

probabilitatea de a clasifica instanţa nouă x într-o clasă oarecare c . Se

demonstrează (Hastie, Tibshirani şi Friedman, 2009, pg. 21) că alegerea optimală


este acea clasă c i pentru care probabilitatea condiţionată P(C=c i / X =x) este
maximă. Cu alte cuvinte, acest rezultat teoretic exprimă ceea ce pare rezonabil şi
din punct de vedere intuitiv: noua instanţă x va fi clasificată în clasa cea mai
probabilă. Acest mod de a soluţiona poblema clasificării se numeşte clasificatorul
Bayes. Clasificatorul Bayes este optimal (Shalev-Shwartz, şi Ben-David, 2014, pg.
47), în sensul că acesta are eroarea de predicţie mai mică decât a oricărui alt
clasificator. Din păcate, de cele mai multe ori, calculul exact al probabilităţilor
condiţionate P(C=c i / X =x) este imposibil, şi atunci se utilizează în locul lor
estimaţii ale acestora. În cele ce urmează vom prezenta două astfel de situaţii:
analiza discriminantă liniară şi regresia logistică.

9.3 ANALIZA DISCRIMINANTĂ LINIARĂ


În Analiza discriminantă liniară (în engleză - Linear Discriminant Analysis (LDA))
estimarea probabilităţilor condiţionate P(C=c k / X =x) se realizează tot cu ajutorul
formulei lui Bayes (9.1), după cum urmează (Hastie, Tibshirani şi Friedman, 2009):
 probabilitatea apriori pk =P ( C=c k ) se estimează din datele de antrenament
cu ajutorul formulei
nk
pk = ,
n

unde n este numărul instanţelor din datele de antrenament şi n k este


numărul de instanţe care aparţin clasei c k ;
 probabilitatea condiţionată P( X =x /C=c k ) este densitatea de repartiţie

f k ( x) a observaţiilor din clasa c k , pe care o o presupunem a fi normală

(gaussiană).
Pentru uşurinţa expunerii vom analiza în continuare două cazuri: cazul 1, p=1 şi
cazul 2, p>1.
 Cazul p=1 . În acest caz variabila X este o variabilă aleatoare reală,

repartizată normal, de medie μk şi de dispersie constantă necunoscută σ 2,


adică X N (μ k , σ 2 ). Formula densităţii de repartiţie este :
2
−(x− μk )
1 2
f k ( x )= e , xϵR
σ √2 π
Făcând înlocuirile care se impun în formula lui Bayes, obţinem
pk f k ( x )
P(C=c k / X =x)= m

∑ p k f k (x)
k =1

Observând faptul că numitorul este o constantă în raport cu k se constată

uşor că a afla max


k
P(C=ck / X=x) se reduce la a afla max ( p k f k ( x )) sau,
k

max z k ( x ) , unde am notat z k ( x )=ln ( pk f k ( x ) ) . După logaritmare,


echivalent k=1,2, …, m

acesta devine:
1 x2 μ2k x μk
z k ( x )=ln ⁡¿)+ln
(
σ √2 π
− 2− 2 + 2 .
2σ 2σ σ )
1 −x 2
Ţinând cont că termenii ln ( σ √2 π )
şi
2σ 2
nu depind de k concluzionăm că

instanţa nouă x va fi clasificată în acea clasă c k pentru care funcţia


−μ2k x μ k
δ k ( x )=ln ⁡¿) 2 + 2
2σ σ

−μ2k x μ k
ia valoarea maximă. Funcţia δ k ( x )=ln ⁡¿) + se numeşte funcţie
2 σ2 σ 2

discriminantă liniară.
 Cazul p>1. În acest caz variabila X este un vector aleator p dimensional,
repartizat normal de medie μk şi de matrice de varianţă-covarianţă Σk , adică
X N ( μk , Σ k ¿ .

Formula densităţii de repartiţie este


−1
1 2
¿¿
f k ( x )= p 1
e
2 2
( 2 π ) |Σ k|

Printr-un raţionament asemănător celui de la cazul 1 se obţine funcţia


discriminantă
−1 1
δ k ( x )= ln ( Σ k )− ¿) (9.2)
2 2

Observaţii
 Funcţia discriminantă din relaţia (9.2) este o funcţie de gradul al doilea în
componentele vectorului x . Din acest motiv metoda obţinută în acest caz
general se numeşte analiză discriminantă pătratică (QDA-Quadratic
Discriminant Analysis), clasele fiind separate prin curbe de gradul al doilea
(vezi ilustrarea din figura 9.1 b), pentru cazul p=2).
 Dacă matricea de varianţă-covarianţă este aceeaşi pentru toate cele m
clase, adică, Σk =Σ , k =1,2 ,... , m, după efectuarea calculelor, funcţia
discriminantă devine
1
δ k ( x )=x T Σ −1 μk − μ kT Σ −1 μk + ln ⁡( pk ) (9.3)
2
Se observă că în acest caz funcţia discriminantă este liniară şi corespunde
metodei analizei discriminante liniare (LDA-Linear Discriminant Analysis),
clasele fiind separate prin funcţii de gradul întâi ( vezi ilustrarea din figura
9.1 a), pentru cazul p=2).

ӿ ӿ
ӿ ӿ ӿ ӿ
ӿ ӿ
ӿ ӿ +
ӿ ӿ ӿ o
ӿ ӿ ӿ o o +
ӿ ӿ +
ӿ ӿ o o +
o o o o o
o o o + + ++
+
+ + + + +
+ +

ӿӿooooo+++++ a) b)

Figura 9.1 Ilustrarea grafică a suprafeţelor de separare a claselor de predicţie


în cazul Analizei Discriminante Liniare-LDA (figura 9.1 a ) şi respectiv a Analizei
Discriminante Pătratice-QDA (figura 9.1 b ), cazul p=2.

9.4 REGRESIA LOGISTICĂ


Regresia logistică este ca şi metoda LDA o metodă de clasificare liniară. Însă, spre
deosebire de metoda LDA, regresia logistică modelează într-o manieră directă
probabilitatea a posteriori P(C ¿ ck / X=x).
Pentru început prezentăm doar cazul în care avem doar două clase ţintă (cazul
m=2), cărora le asociem pentru uşurinţa expunerii notaţiile c 1=1 şi c 2=¿0, iar X

este o variabilă aleatoare reală. Dacă notăm cu y variabila răspuns care ia


valoarea 1 cu probabilitatea h(x ) şi 0 cu probabilitatea1−h( x), atunci legea de
probabilitate a acestei variabile bernoulliene este:
0 1
y= (1−h(x) h(x) )
, h ( x )=P ( y=1/ X =x ) ,

Se observă imediat că M ( y / X =x)=h( x) şi D2 ( y / X =x)=h ( x ) (1−h ( x ) ).


Încercarea de a modela liniar comportamentul variabilei y , adică de a presupune
că un model potrivit este modelul liniar de regresie simplă
y=θ 1+θ 2 x +ε ,

este sortită eşecului din următoarele motive:


 Presupunând că M ( ε )=0 atunci avem h ( x )=M ( y / X=x )=θ 1+θ 2 x , lucru absolut
forţat deoarece probabilitatea h ( x ) poate lua valori între 0 şi 1, iar θ1 +θ2 x
orice valoare reală;
 Dispersia D2 ( y / X=x )=h ( x ) (1−h ( x ) ) depinde de h ( x ) şi deci nu respectă
cerinţa să fie constantă;
 Eroarea ε nu are de regulă un comportament normal (gaussian).
O funcţie convenabilă pentru modelarea probabilităţii
h ( x )=P ( y=1/ X =x ) este funcţia logistică, f : R →(0 , 1), definită
1
f ¿ )= ,
1+ e−x

care se poate scrie echivalent şi sub forma


ex
f : R →(0 , 1) , f ¿ )=
1+ e x

Graficul funcţiei logistice este reprezentat în figura 9.2 are forma literei S şi din
acest motiv se numeşte sigmoidă.
ӿ

ӿ
Figura 9.2 Graficul funcţiei logistice

Observaţii

 Se observă că funcţia logistică este o funcţie strict crescătoare, care ia valori


în intervalul (0, 1) şi intersectează axa Oy în punctul de coordonate (0, 0.5).
Când x →−∞ f (x) →0 , iar când x →+ ∞ f (x) →1, adică axa Ox este este
asimptotă la →−∞ , iar dreapta y=1 este asimptotă la + ∞. Aceste
proprietăţi recomandă alegerea funcţiei logistice pentru pentru modelarea
probabilităţii h ( x );
 Funcţia logistică este un caz particular al funcţiei de repartiţie logistice
(Biernat şi Lutz, 2016)
1
f ¿ )= x−μ , xϵR , μ şi s parametrii reali,
s
1+ e

pentru μ=0 şi s=1.


Aşadar, putem defini ipoteza h( x ) ca fiind funcţia h : R →(0 , 1),
h(x )=P( y =1/ X=x , θ0 ,θ 1), adică

e θ +θ x
0 1

h ( x )= , xϵR , θ0 şi θ1 parametrii reali.


1+ eθ +θ x
0 1

Dacă x 1 , x 2 ,⋯ , x n sunt n observaţii asupra variabilei aleatoare X , atunci cu notaţia


hi =h(x i), avem

e θ +θ x
0 1 i

hi = , când y i=1
1+e θ +θ x
0 1 i

şi
1
1−hi= , când y i=0
1+ eθ +θ x 0 1 i
O funcţie de cost adecvată este în acest caz este funcţia definită astfel:
−ln ( h ( x ) ) , dacă∧ y=1
c ( h ( x ) , y )=
{
−ln ( 1−h ( x ) ) , dacă∧ y=0
(9.4)

Funcţia(9.4)se poate scrie într-o variantă mai convenabilă, sub forma:


c ( h ( x ) , y )=− y ln ( h ( x ) ) −(1− y)ln ( 1−h ( x ) ) (9.5)
Graficul acestei funcţii de cost pentru regresia logistică este reprezentat în figura
9.3

Figura 9.3 Graficul funcţiei de cost pentru regresia logistică.

Observaţii

 Funcţia de cost este adecvată deoarece penalizează puternic clasificările


incorecte. Astfel, presupunând că predicţia indicată de ipoteza h ( x ) este
clasa 0, dar în realitate clasa este 1, atunci funcţia de cost va fi conform
definiţiei din relaţia (9.4), c ( h ( x ) , 1 )=−ln ( 0 )=−¿)=∞ . În mod analog când
predicţia indicată de ipoteza h ( x ) este clasa 1, dar în realitate clasa este 0,
valoarea funcţiei de cost va fi c ( h ( x ) , 1 )=−ln ( 1−1 )=−ln ( 0 )=−¿ )=∞
Riscul empiric asociat acestei funcţii de cost este
n
1
Remp ( h )= ∑ c ¿ ¿ y i ¿,
n i=1

adică
n
1
Remp ( θ 0 , θ1 ) = ∑ − y ln ( h ( xi ) )−(1− y i )ln ( 1−h ( x i ) )) . (9.6)
n i=1 ( i

 Funcţia Remp ( θ 0 , θ1 ) este o funcţie convexă, deci soluţia ( θ^ 0 , θ^ 1 ) există şi este


unică;
 Abordarea statistică a problemei estimării parametrilor θ0 şi θ1 conduce în
final la accelaşi rezultat. Într-adevăr funcţia de verosimilitate este
n
L ( θ0 ,θ 1 , x 1 , x 2 ,⋯ , x n ) =∏ h iy (1−hi )1− y ,
i i

i=1

deoarece
hiy (1−hi)1− y =h idacă y i=1
i i

şi
hiy (1−hi)1− y =1−hidacă y i=0.
i i

A maximiza L ( θ0 ,θ 1 , x 1 , x 2 ,⋯ , x n ) este totuna cu a maximiza


ln ( L ( θ0 , θ1 , x 1 , x 2 , ⋯ , x n) ) sau echivalent cu a minimiza
n
1
∑ − y ln (h ( x i ) )−(1− y i)ln (1−h ( x i ) ) ) , care este tocmai riscul empiric
n i=1 ( i

descris în relaţia (9.6);


 În cazul problemei de clasificare analizate, spaţiul intrărilor x i este împărţit
în 2 regiuni. Frontiera dintre aceste două regiuni constă din mulţimea
punctelor xϵR care satisfac condiţia
P ( y=1/ X =x )=P ( y=0/ X =x )
sau echivalent
h ( x)
=1 (9.7)
1−h(x )
h ( x)
Raportul 1−h(x ) se numeşte odds ratio, adică raportul şanselor.

Logaritmând relaţia (9.7) obţinem


h( x )
ln ( 1−h( x))
=ln ( e θ 0 +θ1 x
)=θ 0+θ 1 x=0 , relaţie care arată că frontiera dintre

punctele celor două clase, numită şi frontieră de decizie (boundary


decision) este o funcţie liniară;
h( x )
( )
 Transformarea ln 1−h( x ) este cunoscută sub numele de transformare

logit.
O generalizare a regresiei logistice în care variabila dependentă y poate lua doar
două valori (din acest motiv acest model este denumit uneori regresie logistică
binară) este regresia logistică multinomială. În regresia logistică multinomială
variabila dependentă y poate lua m>2 valori de ieşire (clase) pe care le vom nota,
pentru simplitatea expunerii, pur şi simplu 1,2 , … , m. Dacă în plus presupunem că
variabila X care generează intrările x i este un vector aleator, atunci cele m
probabilităţi condiţionate sunt modelate astfel (Hastie, Tibshirani şi Friedman,
2009)):
T

eθ 0k +θk x
P ( y=k / X=x )= m−1
, k=1,2 … , m−1
T
θ0i +θi x (9.8)
1+ ∑ e
i=1

1
P ( y=m/ X =x ) = m −1
T
θ 0 i +θi x (9.9)
1+ ∑ e
i=1

Observaţii
 Alegerea probabilităţii condiţionate P ( y=m/ X =x ) spre a fi modelată altfel
decât celelalte m−1 probabilităţi este absolut arbitrară şi ţine doar de
uşurinţa prezentării;
 Se observă că, astfel definite, probabilităţile satisfac condiţia obligatorie:
m

∑ P ( y=k / X =x ) =1;
k =1

 Transformatele logit au următoarea reprezentare a probabilităţilor


condiţionate definite în (9.7) şi (9.8),

P ( y=k / X=x )
ln
( P ( y=m/ X =x ) )
=θ 0 k +θ Tk x , k =1,2 … ,m−1, (9.10)

fapt ce arată că frontiera dintre clase este reprezentată de hiperplanele


descrise prin următoarele ecuaţii:
θ0 k +θ Tk x =0 , k=1,2 … , m−1

Rezolvarea modelului multinomial se bazează, ca şi în cazul regresiei logistice


binare, pe aceeaşi abordare: minimizarea riscului empiric sau, echivalent, pe
metoda verosimilităţii maxime. Implementările cele mai cunoscute folosesc
algoritmi performanţi cum ar fi IRLS (Iteratively Reweighted Least Squares) bazat
pe metoda Newton-Raphson sau metoda gradientului descendent.

S-ar putea să vă placă și