Documente Academic
Documente Profesional
Documente Cultură
probabilitate a posteriori.
9.1 CLASIFICATORUL BAYES
Să presupunem că ne situăm în cazul tipic al unei probleme de clasificare, adică
dispunem de datele de antrenament ( x i , ci ) , i=1,2 , ⋯ , n, unde x i este instanţa
disponibilă, iar c i clasa căreia îi aparţine această instanţă şi dorim să clasificăm o
nouă instanţă x . Presupunem că instanţele x i sunt realizări ale vectorului aleator
X =( X 1 , X 2 , … , X p ), iar clasele c i ale variabilei aleatoare discrete C . Notăm prin P ¿)
(gaussiană).
Pentru uşurinţa expunerii vom analiza în continuare două cazuri: cazul 1, p=1 şi
cazul 2, p>1.
Cazul p=1 . În acest caz variabila X este o variabilă aleatoare reală,
∑ p k f k (x)
k =1
acesta devine:
1 x2 μ2k x μk
z k ( x )=ln ¿)+ln
(
σ √2 π
− 2− 2 + 2 .
2σ 2σ σ )
1 −x 2
Ţinând cont că termenii ln ( σ √2 π )
şi
2σ 2
nu depind de k concluzionăm că
−μ2k x μ k
ia valoarea maximă. Funcţia δ k ( x )=ln ¿) + se numeşte funcţie
2 σ2 σ 2
discriminantă liniară.
Cazul p>1. În acest caz variabila X este un vector aleator p dimensional,
repartizat normal de medie μk şi de matrice de varianţă-covarianţă Σk , adică
X N ( μk , Σ k ¿ .
Observaţii
Funcţia discriminantă din relaţia (9.2) este o funcţie de gradul al doilea în
componentele vectorului x . Din acest motiv metoda obţinută în acest caz
general se numeşte analiză discriminantă pătratică (QDA-Quadratic
Discriminant Analysis), clasele fiind separate prin curbe de gradul al doilea
(vezi ilustrarea din figura 9.1 b), pentru cazul p=2).
Dacă matricea de varianţă-covarianţă este aceeaşi pentru toate cele m
clase, adică, Σk =Σ , k =1,2 ,... , m, după efectuarea calculelor, funcţia
discriminantă devine
1
δ k ( x )=x T Σ −1 μk − μ kT Σ −1 μk + ln ( pk ) (9.3)
2
Se observă că în acest caz funcţia discriminantă este liniară şi corespunde
metodei analizei discriminante liniare (LDA-Linear Discriminant Analysis),
clasele fiind separate prin funcţii de gradul întâi ( vezi ilustrarea din figura
9.1 a), pentru cazul p=2).
ӿ ӿ
ӿ ӿ ӿ ӿ
ӿ ӿ
ӿ ӿ +
ӿ ӿ ӿ o
ӿ ӿ ӿ o o +
ӿ ӿ +
ӿ ӿ o o +
o o o o o
o o o + + ++
+
+ + + + +
+ +
ӿӿooooo+++++ a) b)
Graficul funcţiei logistice este reprezentat în figura 9.2 are forma literei S şi din
acest motiv se numeşte sigmoidă.
ӿ
ӿ
Figura 9.2 Graficul funcţiei logistice
Observaţii
e θ +θ x
0 1
e θ +θ x
0 1 i
hi = , când y i=1
1+e θ +θ x
0 1 i
şi
1
1−hi= , când y i=0
1+ eθ +θ x 0 1 i
O funcţie de cost adecvată este în acest caz este funcţia definită astfel:
−ln ( h ( x ) ) , dacă∧ y=1
c ( h ( x ) , y )=
{
−ln ( 1−h ( x ) ) , dacă∧ y=0
(9.4)
Observaţii
adică
n
1
Remp ( θ 0 , θ1 ) = ∑ − y ln ( h ( xi ) )−(1− y i )ln ( 1−h ( x i ) )) . (9.6)
n i=1 ( i
i=1
deoarece
hiy (1−hi)1− y =h idacă y i=1
i i
şi
hiy (1−hi)1− y =1−hidacă y i=0.
i i
logit.
O generalizare a regresiei logistice în care variabila dependentă y poate lua doar
două valori (din acest motiv acest model este denumit uneori regresie logistică
binară) este regresia logistică multinomială. În regresia logistică multinomială
variabila dependentă y poate lua m>2 valori de ieşire (clase) pe care le vom nota,
pentru simplitatea expunerii, pur şi simplu 1,2 , … , m. Dacă în plus presupunem că
variabila X care generează intrările x i este un vector aleator, atunci cele m
probabilităţi condiţionate sunt modelate astfel (Hastie, Tibshirani şi Friedman,
2009)):
T
eθ 0k +θk x
P ( y=k / X=x )= m−1
, k=1,2 … , m−1
T
θ0i +θi x (9.8)
1+ ∑ e
i=1
1
P ( y=m/ X =x ) = m −1
T
θ 0 i +θi x (9.9)
1+ ∑ e
i=1
Observaţii
Alegerea probabilităţii condiţionate P ( y=m/ X =x ) spre a fi modelată altfel
decât celelalte m−1 probabilităţi este absolut arbitrară şi ţine doar de
uşurinţa prezentării;
Se observă că, astfel definite, probabilităţile satisfac condiţia obligatorie:
m
∑ P ( y=k / X =x ) =1;
k =1
P ( y=k / X=x )
ln
( P ( y=m/ X =x ) )
=θ 0 k +θ Tk x , k =1,2 … ,m−1, (9.10)