Documente Academic
Documente Profesional
Documente Cultură
METODE EXPLICATIVE
UZUALE
139
140 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
respectiv
n q
1X Xn
k k
g = (xj )j=1;p , cu xj = xij = x :
n n j
i=1 k=1
persia empiric
a a lui a este
2 32
n
X n
X Xp
1 1 4
D2 (a) = 2
a (i) = aj (xij xj )5
n n
i=1 i=1 j=1
p
n X
X p
X
1
= aj aj 0 (xij xj ) xij 0 xj 0 :
n
i=1 j=1 j 0 =1
dispersia empiric
a a variabilei a se poate scrie
p X
X p
2 j0=1;p
D (a) = aj aj 0 cov xj ; xj 0 = a0 Ta, unde T = tjj 0 j=1;p
:
j=1 j0=1
Ca si n analiza dispersional
a (vezi, de exemplu, [60]) se poate descom-
pune matricea de covariant a, T, ntr-o component a intraclase (n interiorul
claselor) si o componenta interclase (ntre clase) obtinndu-se formula de de-
scompunere a lui Huygens, sau ecuatia analizei dispersionale.
S
a pornim de la identitatea
X X
xij xkj xkj0 xj 0 = xkj0 xj 0 xij xkj =
i2Ik i2Ik
0 1
X
= xkj0 xj 0 @ xij nxkj A = 0
i2Ik
144 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
si n mod analog
X
xkj xj xij 0 xkj0 = 0:
i2Ik
Notnd cu
q
1 XX
djj 0 = xij xkj xij 0 xkj0
n
k=1 i2Ik
si cu
q
X nk
ejj0 = xkj xj xkj0 xj 0
n
k=1
se poate scrie
T=D+E (1)
j 0 =1;p j 0 =1;p
unde D = djj 0 j=1;p si E = ejj 0 j=1;p :
Astfel, dispersia unei combinatii liniare de variabile, a, se descompune n
a0 Ta = a0 Da + a0 Ea: (2)
a0 Ta Ea = a0 Ea Ta
a0 Ea 1
Ea= Ta j T
a0 Ta
1 a0 Ea
T Ea= a =f (a) a (3)
a0 Ta
Asadar f (a) este maxim
a daca este egal
a cu , valoarea proprie maxim
a
1
a matricii T E iar a este vector propriu corespunzator lui maxim
3.1. ANALIZA DISCRIMINANTA 145
Observatia 3.1.1
1. T 1 E este o matrice p p, n general nesimetric a. Din punct de vedere al
calcului numeric, avnd n vedere c aq p, este mai usor a aa vectorii
si valorile proprii ale unei matrici simetrice de dimensiune q q si a g asi
o exprimare a lui a n functie de aceste elemente.
CC0 T 1
Cw = Cw (4)
Dac
a w este vector propriu corespunz ator lui ; al matricii C0 T 1 C
atunci el veric
a relatia (4) si a si verica relatia (3). Cum si C0 T 1 C 2
Mq q (R) este simetric a, n practic a se diagonalizeaz a aceast
a matrice iar
apoi se aa a = T 1 Cw.
3. max se numeste putere discriminant a si din (1) este mai mic a sau egal a
cu unu. ntr-adev a a0 Ta = a0 Da + a0 Ea: Dar T este
ar, din (1) rezult
pozitiv denita (deoarece este matrice de covariant a)) a0 Ta > 0; (8) a,
deci n egalitatea de mai sus se poate mp arti cu scalarul a0 Ta si se obtine
a0 Da a0 Ea
1= + 0 :
a0 Ta a Ta
obiecte noi sunt asociate uneia sau alteia dintre clasele stabilite, se numeste
faza de lucru/decizionala /de afectare. Uneori faza de instruire si cea de lucru
pot sa coincida sau sa se suprapun a partial. Este ceea ce se ntmpl a n cazul
clasicarii nesupervizate.
Sa consideram c a n multimea obiectelor (reprezentate sub form a de vec-
tori) sunt prezente q clase, notate A1 ; : : : ; Aq . Distingem urm atoarele trei
cazuri de separabilitate:
Cazul 1. Fiecare clas a este separat a de toate celelalte printr-o singura
suprafata de decizie. Exista, deci, q functii de decizie. Notam cu gi (x) : Rp !
R functia de decizie corespunz atoare clasei Ai . Ecuatia suprafetei de decizie
ce separa clasa de toate celelalte clase este gi (x) = 0.
Pentru ecare clas a Ai regula de afectare este
Cazul 3. Exist
a k functii de decizie. Regula de decizie se formuleaz
a
astfel:
x 2 Ai , gi (x) > gj (x) ; (8) j 6= i:
Regiunea de decizie R corespunz
atoare clasei Ai va asadar
Observatia 3.1.2
Separabilitatea de tip 3 implic
a separabilitatea de tip 2. ntr-adev
ar, s
a con-
sider
am
gij (x) = gi (x) gj (x)
si s
a admitem separabilitatea claselor A1 ; : : : ; Aq n conditiile cazului 3. Dac
a
x apartine regiunii clasei Ai , atunci gi (x) > gj (x) ; 8j 6= i. Deci gij (x) >
0; 8j 6= i. Rezult
a asadar c
a, dac
a clasele sunt separabile n conditiile cazului
3, ele sunt separabile si conform cazului 2. Reciproca nu este, n general,
valabila.
cu
w = (w1 ; : : : ; wp )0 si wi 2 R; i = 1; p:
Vectorul w se numeste vector pondere sau vector parametru.
3.1. ANALIZA DISCRIMINANTA 151
hu; x x0 i = u0 (x x0 ) = 0
u0 (z0 + tu x0 ) = 0
152 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
si deci
tu0 u = u0 (x0 z0 )
de unde, tinnd cont c
a kuk = 1, g
asim
u0 (x0 z0 )
t= 2 = u0 (x0 z0 )
kuk
Punctul de intersectie al dreptei 4 cu hiperplanul H va asadar
x1 = z0 + u0 (x0 z0 ) u:
Distanta de la punctul z0 la hiperplan este, deci,
d (H; z0 ) = kx1 z0 k =
0
= u (x0 z0 ) kuk =
0
= u (x0 z0 )
Distanta de la originea spatiului la hiperplan se obtine considernd n
relatia de mai sus z0 = 0 si deci
D = d (H; 0) = u0 x0 :
gi (x) = gj (x)
deci se poate scrie
wi0 x+wi;p+1 = wj0 x+wj;p+1 sau w0 x+wp+1 = 0
unde am notat
w = wi wj
wp+1 = wi;p+1 wj;p+1:
Din relatia de mai sus rezult a c
a ecuatia hiperplanului de separare n
spatiul caracteristicilor se mai poate scrie sub forma
w0 wp+1
x+ =0
kwk kwk
3.1. ANALIZA DISCRIMINANTA 153
Comparnd aceast
a ecuatie cu ecuatia general
a
u0 x u0 x0 = 0
jwp+1 j
D = u0 x0 = :
kwk
d (H; z0 ) = u0 (x0 z0 ) =
wp+1 w0
= z0 =
kwk kwk
1
= w0 z0 + wp+1 :
kwk
d2 (x; Li ) = kx Li k2 = (x Li )0 (x Li ) =
0 0
= xx 2x Li + L0i Li
Am obtinut c
a gi este o functie an
a de decizie. Notnd
1
ci = Li si ci;p+1 = L0i Li :
2
se poate scrie gi sub forma standard
gi (x) = c0i x+ci;p+1:
Suprafata de decizie ce separ
a clasele Ai si Aj are ecuatia
gi (x) = gj (x) :
adic
a, tinnd cont de forma lui gi ; rezult
a
1 0
(Li Lj )0 x L Lj L0i Li = 0;
2 j
ceea ce se mai poate scrie sub forma
1
(Li Lj )0 x (Li + Lj ) = 0:
2
Notnd
1
c = Li Lj si x0 = (Li + Lj ) ;
2
ecuatia suprafetei de decizie devine:
c0 (x x0 ) = 0
Suprafata de separare este, deci, un hiperplan ce trece prin punctul x0
si este ortogonal pe vectorul c. Cu alte cuvinte, hiperplanul de separare este
ortogonal pe dreapta ce uneste prototipurile claselor, pe care o intersecteaz a
ntr-un punct situat la jum atatea distantei dintre prototipuri.
Functia discriminant
a cu distant
a minim a este adecvata pentru cazurile
cnd punctele unei clase tind s a se aglomereze n vecin atatea unui punct pro-
totip, formnd un nor (cluster ) de puncte.
3.2. METODE PROBABILISTE DE DISCRIMINARE 155
3.2.1 Preliminarii
Denitia 3.2.1 Fie ( ; K; P ) un cmp de probabilitate si A; B 2 K cu P (B) >
0: Probabilitatea
P (A \ B)
PB : K ! R cu PB (A) = P (AjB) =
P (B)
Lema 3.2.1
Fie ( ; K; P ) un cmp de probabilitate si fAi gi2I un sistem complet de eveni-
mente. Are loc urm atoarea egalitate (formula lui Bayes a probabilit atii
cauzelor)
cu fP (Ai )g probabilit
ati priorice si fP (BjAi )g probabilit
ati posteriori.
Observatia 3.2.1
f (xjA) = F 0 (xjA) aproape peste tot.
Lema 3.2.2
P (A)f (xjA)
P (AjX = x) = f (x) :
156 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Lema 3.2.3
Daca h este densitatea de probabilitate a variabilei aleatoare (X; Y ), f este
densitatea de probabilitate a variabilei aleatoare X si g este densitatea de
probabilitate a variabilei aleatoare Y , atunci
R
1. f (x) = R h (x; y) dy;
R
2. g (y) = R h (x; y) dx;
h(x;y)
3. f (xjy) = g(y) dac
a g (y) > 0; altfel arbitrar;
4. g (yjx) = h(x;y)
f (x) dac
a f (x) > 0; altfel arbitrar;
R
5. f (x) = R f (xjy) g (y) dy;
R
6. g (y) = R g (yjx) f (x) dx;
f (xjy)g(y) R f (xjy)g(y)
7. g (yjx) = f (x) = (formula lui Bayes pentru den-
R f (xjt)g(t)dt
sit
ati de probabilitate):
sa e minima.
R
n cele de mai sus au fost notate cu P (jji; R) = Pi (x)dx; i 6= j;
Rj
atile de eroare pentru o partitie R dat
i; j = 1; K; probabilit a.
q1 P1 (x) q2 P2 (x)
(2)
q1 P1 (x) + q2 P2 (x) q1 P1 (x) + q2 P2 (x)
Sa ar at
am acum c a (3) este cea mai bun
a procedur
a. Pentru orice partitie
R? = (R1? ; R2? ) a lui X; probabilitatea de misclasare este
Z Z Z
q1 P1 (x)dx+q2 P2 (x)dx = (q1 P1 (x) q2 P2 (x)) dx+ (4)
R2? R1? R2?
Z Z
+q2 P2 (x)dx+q2 P2 (x)dx
R1? R2?
R R R
Dar q2 R? P2 (x)dx+q2 R? P2 (x)dx =q2 P2 (x)dx (= q2 dac a supp P2
1 2
X sau constant a, n caz contrar).
Relatia (4) va minim a daca R2? va include punctele x pentru care
q1 P1 (x) q2 P2 (x) < 0 si va exclude punctele pentru care q1 P1 (x) q2 P2 (x) > 0;
adica R2? = R2 ) R1? = R1 (ca partitii ale aceluiasi spatiu).
a, n plus P PP12 (x)
Dac (x)
= qq21 j i = 0; i = 1; 2; atunci procedura Bayes
este unic
a, exceptie o multime de probabilitate zero.
Dac
a C(1j2) 6= C(2j1) 6= 1 atunci regiunile de decizie se scriu
P1 (x) C(1j2)q2
R1 : x 2X; (5)
P2 (x) C(2j1)q1
P1 (x) C(1j2)q2
R2 : x 2X; <
P2 (x) C(2j1)q1
Observatia 3.2.2
Regiunile de decizie Bayes se nscriu n cazul 3 de separabilitate.
Daca maximul din enuntul de mai sus este atins pentru k K clase,
atunci lui cB (x) i se va asigna una dintre cele k valori, selectat a aleator.
Daca probabilitatea ca maximul s a e atins pentru mai mult de un i,
pentru x dat, este zero, atunci plasatorul si deci si partitia R sunt unice,
modulo o multime de m asura nula.
Nu exista nici o restrictie pentru tipul de densitati P1 ; : : : ; Pk . n parti-
cular, acestea nu trebuie s a e densitati fat
a de m
asura Lebesque.
Data ind importanta conceptului, vom prezenta si alte propriet ati ale
procedurilor de discriminare bayesian a.
Fie r(i; j; R) = C(jji)P (jji; R) costul misclas
arii unei observatii din pop-
ulatia i n populatia j prin procedura de clasare dat a de partitia R a spati-
ului X (numit a n cele ce urmeaza procedura de clasare).
P (1j2; R? ) P (1j2; R) si
?
P (2j1; R ) P (2j1; R)
Dac
a q1 = 0 atunci
P (2j1; R? ) = 1
P1 (x)
P (2j1; R) = P ( bjx 2 1) = P (2j1; R? );
P2 (x)
q2 P1 q2
unde R? este procedura Bayes corespunznd lui q1 a R1? :
= b; indc P2 > q1
q2
si R2? : PP21 q1 .
Cum R este admisibil
a
adic
a X 2 i ) X N ( i ; ) cu i 2 Mp 1 (R) vectorul medie si 2
Mp p (R) matricea de varianta-covariant
a.
Raportul densit
atilor este
1 0 1 (x
P1 (x) exp 2 (x 1) 1)
= 1 0 1 (x
=
P2 (x) exp 2 (x 2) 2)
1 0 1 0 1
= exp (x 1) (x 1) (x 2) (x 2)
2
1 1 0
x0 ( 1 2) ( 1 + 2)
1
( 1 2)
2
3.2. METODE PROBABILISTE DE DISCRIMINARE 163
Observatia 3.2.3
Primul termen al formulei de mai sus este binecunoscuta functie discriminanta
a lui Fisher.
1 1 0
R 1 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) ln c
2
1 1 0
R 2 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) < ln c:
2
Dac
a probabilit
atile priorice q1 si q2 sunt cunoscute, atunci c este dat
de
q2 C(1j2)
c= :
q1 C(2j1)
Observatia 3.2.4
Cazul particular cnd q1 = q2 si C(1j2) = C(2j1) implic
a c = 1 si ln c = 0.
Daca notam cu Li = 1
i prototipul populatiei i; atunci suprafata
de separare a celor dou
a regiuni este hiperplanul
1
(L1 L2 )0 [x (L1 + L2 )] = 0
2
iar clasicatorul obtinut este un clasicator cu distanta minima.
Daca probabilitatile priorice nu sunt cunoscute atunci C = ln c va
ales astfel nct costurile misclasarii s
a e egale. Mai riguros:
0 1(
unde C(ijj) sunt cele doua costuri ale misclasarii, = ( 1 2) 1 2)
este distanta Mahalanobis dintre cele doua populatii, iar (x) este functia de
Rx t2
repartitie a variabilei aleatoare Gauss-Laplace, adica (x) = 1 p12 e 2 dt.
1 0
Demonstratie. Fie U = X0 1 ( 1 2) 2 ( 1 + 2)
1(
1 2) :
Regiunile Bayes sunt, conform Corolarului 3.2.2,
R1 : U C si R2 : U < C;
164 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
0 1 1 0 1 1 0 1
E[U ] = 1 ( 1 2) ( 1 + 2) ( 1 2) = ( 1 2) ( 1 2)
2 2
si dispersie
D2 [U ] = D2 [X0 1
( 1 2 )] =
0 1 2 1
= ( 1 2) D [X] ( 1 2) =
0 1 1
= ( 1 2) ( 1 2) =
0 1
= ( 1 2) ( 1 2) :
1
Notnd distantadintre cele dou
a populatii cu rezult
aU N 2 ; .
1
Daca X N ( 2 ; ) ; atunci U N 2 ; .
n concluzie
1 t 1 2 1 t+ 1 2
1 2 ( 2 ) 1 2( 2 )
f1;U (t) = p e si f2;U (t) = p e
2 2
Cu acestea, egalitatea costurilor misclasic
arii se scrie
Z c (t 1
)
2 Z 1 (t+ 12 )
2
1 2 1
C(2j1) p e 2 dt = C(1j2) p e 2 dt:
1 2 c 2
1
t
n membrul stng al egalit
atii se face transformarea z = p2 , iar n
t+ 12
membrul drept al egalit
atii se face transformarea z = p
3.2. METODE PROBABILISTE DE DISCRIMINARE 165
Cu jacobianul transform
arii (acelasi pentru ambele transform
ari) egal cu
p1 , se obtine n nal
1
Z c
p2 Z 1
1 z2 1 z2
C(2j1) p e 2 dz = C(1j2) c+ 1
p e 2 dz:
1 2 p2 2
R1 y2
si tinnd cont c
a p1 e 2 dy = 1 (x), se obtine egalitatea din enuntul
x 2
teoremei.
Observatia 3.2.5
1. Reprezentarea grac
a a problemei este dat
a n gura urm
atoare:
Zona hasurat
a este zona de misclasare.
S
a notam ca cele doua conditii pentru ca procedura de clasicare s a e
minimala si completa, anume P (P1 (x) = 0jx 2 2 ) = 0 si P (P2 (x) =
0jx 2 1 ) = 0 ct si P ( PP21 (x)
(x)
= bjx 2 1 ) = 0 si P ( PP12 (x)
(x)
= bjx 2 2 ) = 0
sunt ndeplinite.
2. Dac
a C(1j2) = C(2j1) atunci egalitatea probabilit atilor de misclasare
R1 y2
implic arii este p p12 e 2 dy =
a C = 0 si deci probabilitatea misclas
p 2
1 2 .
D2 (x0 d)
166 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
@L 0
= 0 ) 2[( 1 2) ( 1 2 ) ]d =2 d
@d
deoarece este simetrica.
0
Cum ( 1 2 ) d =s este un scalar, ecuatia de mai sus se rescrie
s 1
1 2 = d)d= ( 1 2)
s
deoarece este pozitiv denita, deci inversabil
a.
s
d este proportional cu . Pentru determinarea lui se utilizeaz
a -
normarea lui d, adic
a
s 2 s 1
d0 d =1 ) ( 1 2)
1
( 1 2) =1) = :
k 1 2k
Asadar x0 este functia liniar a care are cea mai mare dispersie ntre clase
(dispersia interclase) relativ la dispersia n clase (dispersia intraclase).
Atunci cnd populatiile sunt cunoscute, criteriul folosit este optim din
punct de vedere al minimiz arii erorii de clasare. Cnd probabilitatile priori
nu sunt cunoscute, procedura genereaz a o clas
a de proceduri admisibile. Ce
se poate spune despre cazul estimatiilor?
3.2. METODE PROBABILISTE DE DISCRIMINARE 167
POPU-
3.2.2.3 CLASIFICAREA BAYES N CAZUL A DOUA
LATII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
NECUNOSCUTI
(i) (i)
Estimatori de resubstitutie (plug-in) Fie x1 ; : : : ; xni 2 N ( i; ); i =
1; 2, dou
a selectii bernoulliene.
Se cunosc rezultatele urm atoare:
ni
1 X (i)
xi = xj ; i = 1; 2;
ni
j=1
ni
2 X
X (i) (i) 0
[(n1 1) + (n2 1)] S = [n1 + n2 2] S = xj xi xj xi
i=1 j=1
atunci
1 (1) 0
V12 = X0 S x(1) x(2) x + x(2) S 1
x(1) + x(2) =
2
0
1 (1)
= X x + x(2) S 1
x(1) x(2) = Z12 S 1
Y12 :
2
Din constructie
(1) (1) 1 1
Y12 N ; +
n1 n2
iar
1 (1) (2) 1 1 (1)
Z12 N ; 1+ + ; dac
aX N ;
2 4n1 4n2
1 (2) (1) 1 1 (2)
Z12 N ; 1+ + ; dac
aX N ;
2 4n1 4n2
si
1 1
cov(Z12 ; Y12 ) = :
2n1 2n2
Dac
a n1 = n2 atunci cov(Z; Y) = 0. n acest caz distributia lui V
cnd X 2 1 este aceeasi cu a lui V cnd X 2 2 . Atunci, dac a R1 =
fx 2 XjV (x) 0g, probabilit
atile de misclasare sunt egale.
168 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Asimptotic, cum
x(1) ! (1)
; x(2) ! (2)
; cnd n1 ; n2 ! 1 si
S ! ; cnd n1 ; n2 ! 1:
rezult
a
1
S x(1) x(2) ! 1 (1) (2)
si
0 0
x(1) + x(2) S 1
x(1) x(2) ! (1)
+ (2) 1 (1) (2)
1 1 (1) 0
R1 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) ln k
2
1 1 (1) 0
R2 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) < ln k:
2
Anderson (n [2]) argumenteaz a ca acest criteriu minimizeaz a costurile
misclasarii dac
a parametrii populatiilor sunt cunoscuti si continu
a: it seems
intuitively reasonable that the above relations should give good results.
Daca se doreste clasicarea selectiilor reunite ca un tot, atunci se uti-
lizeaz
a urm atorii estimatori, respectiv criteriu:
n = n1 + n2 ;
n
1X
x = xj
n
j=1
cu
xj 2 1 =2 2;
Xn
(n1 + n2 + n 3) S = S+ (xj x) (xj x)0
j=1
respectiv
0
1 1
R1 : x (x1 + x2 ) S (x1 x2 ) c
2
Se poate ar
ata c
a n! 1 ) P (1j2); P (2j1) ! 0.
3.2. METODE PROBABILISTE DE DISCRIMINARE 169
Particulariz
ari ale Teoremei 3.2.1.
a) Cazul K = 2 (dou
a clase). Particulariznd regiunile de decizie de mai
sus, se obtine
R1 = fx 2 XjV12 (x) 0g si R2 = X R1 :
Cnd
x(1) +x(2)
p = 1 atunci V12 (x) = 0 ) x = 2 ; "suprafata" de decizie este un punct;
deoarece Vij (x) = Vji (x) si V23 (x) = V13 (x) V12 (x) ; si
R3 = fx 2 XjV32 (x) > 0; V31 (x) > 0g = fx 2 XjV13 (x) < 0; V12 (x) > V13 (x)g
Daca p = 1 (o singur a) si presupunnd x(1) < x(2) < x(3) ;
a caracteristic
atunci regiunile de decizie devin semidrepte si segment de dreapt a, adic
a:
x(1) + x(2)
R1 : x2R cu x < ;
2
x(1) + x(2) x(2) + x(3)
R2 : x2R cu x ;
2 2
x(2) + x(3)
R3 : x2R cu < x:
2
Cnd p = 2 regiunile de decizie devin semiplane (gura 3.2.2.).
2
Xn1
b (0) = 1 4 (1) (0) (1) (0) 0
xj b1 xj b1 +
n1 + n2 + 1
j=1
3
n2
X
(0) (0) 0 (2) (0) (2) (0) 0 5
+ x b1 x b1 + xj b2 xj b2
j=1
Se noteaza
n
X (1)
1
(0) (1) (0) 0 (0) (0) 0
A= xj b1 xj b1 + x b1 x b1 :
j=1
Deoarece
n1
X (1) (1) 0 (0) (0) 0
A = xj x1 xj x1 + n1 x1 b1 x1 b1
j=1
(0) (0) 0
+ x b1 x b1
n1
X (1) (1) 0 n1
= xj x1 xj x1 + (x x1 ) (x x1 )0
n1 + 1
j=1
Rezult
a
b (0) = 1 n1
C+ (x x1 ) (x x1 )0
n1 + n2 + 1 n1 + 1
P
2 P
ni
(1) (1) 0
cu C = xj xi xj xi .
i=1 j=1
Analog, sub HA estimatorii de verosimilitate maxim
a sunt:
(A)
b1 = x1 ;
(A) n2 x2 + x
b2 = ;
n2 + 1
b (A) 1 n2
= C+ (x x2 ) (x x2 )0 :
n1 + n2 + 1 n2 + 1
Raportul de verosimilitate devine, asadar
1+ n2
n2 +1 (x x2 )0 C 1 (x x2 )
= iar
1+ n1
n1 +1 (x x1 )0 C 1 (x x1 )
R1 : x cu C (acele puncte x care maximizeaz
a pe ).
172 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Estimare bayesian a Natura discutiei din acest paragraf este foarte difer-
it
a din punct de vedere conceptual de abordarea anterioar a. Anterior a fost
prezentata o metodologie pornind de la un punct de vedere frecventist: s-a
presupus o selectie aleatoare dintr-o populatie avnd densitatea de probabi-
litate f (x; ) cu x 2 X si 2 . Parametrul necunoscut este presupus
xat. O procedur a de inferent
a frecventist
a depinde de functia de verosimili-
Q
n
tate L ( ) = f (xi ; ) ; unde este necunoscut dar x.
i=1
n demersul bayesian experimentatorul presupune/crede, nainte de a
vedea datele( priori), c a parametrul necunoscut este o variabil a aleatoare
avnd o distributie de probabilitate proprie pe (spatiul parametrilor), notat a
h ( ) si numita distributia priorica (prior distribution) a lui . f (x; ) devine,
n acest context, f (xj ).
Distributia prioric a h ( ) reecta adesea intuitia subiectiva a statis-
ticianului privitoare la ce valori ale lui sunt mai putin probabile cnd se
consider a ntreg spatiul parametrilor, .
Distributia prioric a este, n cazul ideal, dat
a/xat a nainte de nceperea
experimentului (a culegerii selectiei bernoulliene).
Paradigma bayesian a implica combinarea informatiilor priorice cu cele
date de functia de verosimilitate si obtinerea a ceea ce se numeste distributie
posteriori, via teorema Bayes.
Ca fapt istoric este de retinut opozitia vehement a a lui R.A.Fisher la tot
ce era bayesian.
Se cunosc urm atoarele fapte:
- distributia comun
a a lui x si este dat
a de
f (xj ) h ( ) ((8)) x 2 X si 2 :
- distributia marginal
a a lui x este, atunci,
Z
m (x) = f (xj ) h ( ) d
f (xj ) h ( )
h ( jx) = h ( jX = x) = ; m (x) > 0; x 2 X, 2 :
m (x)
Propozitia 3.2.3
Dac a N (m; S) si x N ( ; ) ; atunci h ( jx) este densitatea de probabi-
litate a unei N ( ; C) cu = S (S + ) 1 x + (S + ) 1 m si
C = (S + ) 1 S.
Demonstratie. Dup a observarea lui x; densitatea conditionat
a h ( jx) poate
scris
a
h ( ) f (xj )
h ( jx) = R = Ch ( ) f (xj ) ;
R h ( ) f (xj ) d
cu C factor ce depinde de x dar nu si de .
Din ipotezele propozitiei rezult
a
1 1
h ( jx) = c1 exp ( m)0 S 1 ( m) exp (x )0 1
( x) =
2 2
1 0 1 1 0
= c1 exp mS m S 2 0S 1m
2 2
1 0 1
exp 2 0S 1
x + x0 1
x :
2
n nal se obtine
1 0 1 1 0 1 1
h ( jx) = c2 exp +S 2 x+S m ; (1)
2
unde factorii care nu depind de au fost absorbiti n c1 si c2 .
Deoarece paranteza dreapt a din exponentul egalit atii (1) este o form
a
p
atratica, rezult
a c
a densitatea de probabilitate h ( jx) este o densitate a unei
variabile aleatoare normale. Pentru a determina parametrii acestei legi se scrie
h ( jx) sub forma
1 1 1
h ( jx) = c3 exp ( )0 C 1
( ) = c4 exp 0
C 1
2 C
2 2
(2)
Comparnd (1) cu (2) se obtine
1 1 1 1 1 1 1 1
C = +S si C = x+S m) =C x + CS m:
Se observ
a c
a, dac
aC 1 = 1 +S 1; atunci
1 1
C= ( + S) S = S (S + ) :
ntr-adev
ar
h i 1 h i 1
1 1 1 1
C = (S + ) S =S (S + ) =
= S 1 (S + ) 1
= 1
+S 1 =C 1
h i 1 h i 1
C 1
= S (S + ) 1 = 1
S (S + ) 1 =
1 1 1 1 1
= (S + )S = +S =C :
nlocuind (2) n expresia lui rezult
a formula din enunt.
174 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Corolarul 3.2.3
Dac
a N ; 20 si x N ; 2
1 atunci densitatea posteriori a lui este
1 2 2 1
2 x 1 1 2 1 1
N ; cu = 2 + 2 2 + 2 si = 0
2+
1
2 = 2 + 2 .
1 0 0 1 0 1 0 1
L? ( ; ) L? ( ; (T )) = [ (T ) ]2 :
r? ( ; ?
) = inf r? ( ; ) ; ?
2 B;
2B
unde B este clasa estimatorilor pentru care riscul bayesian este nit.
Z Z
? ?
r ( ; ) = L? ( ; (t)) f (tj ) h ( ) dt d =
Z Z
= L? ( ; (t)) f ( jt) d m (t) dt:
3.2. METODE PROBABILISTE DE DISCRIMINARE 175
@ 2 ?
(t) 2 E [ jt] + =0) = E [ jT (x) = t] :
@
Corolarul 3.2.4
Fie x1 ; : : : ; xn variabile aleatoare independente si identic repartizate N ; 21
Pn
cu necunoscut si 1 > 0 dat. Consider am statistica T = n1 xi ; care este
i=1
sucienta pentru . Se presupune c a distributia priori a lui pe spatiul =
2
R este N ; 0 cu si 0 > 0 2 R dati. Atunci distributia posteriori a lui
conditionat
a de observatiile x1 ; : : : ; xn este, conform propozitiei anterioare,
N ; 2 cu
n 20 2
1
= 2 T (x) + ;
n 20 + n 1 n 2
0 + 2
1
2 2
2 0 1
= 2 + 2:
n 0 1
Observatia 3.2.6
S
a observ am ca este o combinatie convex
a ntre x (= T (x) ) si ; deci se
aa ntre aceste valori.
mi (x) qi
P( i jx) = ; i = 1; 2;
m1 (x) q1 + m2 (x) q2
R
unde mi (x) = i fi (xj ) hi ( ) d este densitatea de probabilitate marginal
a
a lui x conditionat de faptul c
a provine din i .
Este evident ca o procedura bayesian
a de discriminare este
P( jx)
- x2 1 dac
a P(
1
2 jx) = B12 (x) qq12 1;
- x2 2 n caz contrar,
m1 (x)
unde B12 (x) = m2 (x) este cunoscut ca factorul Bayes al populatiei 1
versus 2 .
3.2. METODE PROBABILISTE DE DISCRIMINARE 177
3.2.3 Exemplu
Descrierea datelor
Acest exemplu are ca scop construirea unor functii liniare care sa discrimineze
ct mai bine ntre trei tipuri de irisi pornind de la masuratorile de lungime si
l
atime ale petalelor si sepalelor. La baza exemplului st a un set de date clasic
(tabelul A.5. din Anex a), introdus de Fisher n 1936, n care se identica:
p = 4 variabile independente:
SEPALLEN=lungimea sepalelor,
SEPALWID=l
atimea sepalelor,
PETALLEN=lungimea petalelor,
PETALWID=l
atimea petalelor,
variabla dependent
a (de grupare):
a fost atins num arul de pasi specicat n caseta Number of steps. Deoa-
rece n acest caz nu exista specicatii priori n acest sens, num
arul de
pasi este setat egal cu num arul variabilelor.
Pasul 4.
La pasul patru, toate variabilele au fost introduse n model iar acesta
are o putere de discriminare semnicativ a (Wilks lambda= 0; 023; F = 199:1;
p < 0:0000). n tabelul obtinut prin apasarea butonului Variables in the model
(tabelul 3.2.3), valorile Partial Wilks lambda indica faptul c a PETALLEN si
PETALWID au cele mai mari valori ale puterii de discriminare, deci petalele
sunt cele care deosebesc cel mai bine cele trei tipuri de irisi.
n discriminare, cu toate c
a, dup
a cum vom vedea, ambele functii sunt
statistic semnicative.
Valorile p indic
a faptul c
a, pentru acest exemplu, ambele functii sunt
semnicative din punct de vedere statistic.