Sunteți pe pagina 1din 17

ANALIZA DISCRIMINANT

Scopul metodelor discriminante este de a prezice o variabil calitativ cu k


categorii cu ajutorul a p predictori, n general numerici.
Datele constau n n observaii repartizate n k clase descrise de p variabile
explicative.
n analiza discriminant se disting dou aspecte:
a) descriptiv: se caut combinaiile liniare de variabile care permit mprirea cel
mai bine posibil n cele k categorii i dau o reprezentare grafic (ca n analiza
factorial), care ine seama cel mai bine de aceast mprire.
b) decizional: un nou individ apare, pentru care se cunosc valorile predictorilor.
Este vorba de a decide crei categorii trebuie atribuit individul respectiv. Este o
problem de clasament.

Aceste dou aspecte, corespund grosso-modo distinciei ntre metodele
geometrice i cele probabiliste.

3.2.1. Metode geometrice

Metodele geometrice sunt esenial descriptive. Ele nu folosesc dect noiunile
de distane i nu fac s intervin ipotezele probabiliste.
Fie E un nor n R
p
format din n indivizi, notai e
i
. Acest nor este mprit n k
sub-nori :E
1
, E
2
,..., E
k
cu centrele de greutate g
1
, g
2
,..., g
k
i cu matricile de varian
V
1
, V
2
,..., V
k
.


x x
x x
x x
x
x
x x
x
x
x
x
x
x
x
x
x
E2
E1
E3
Metode statistice de analiz a atributelor necesare ale calitii 54
Fig. 3.4.

Fie g centrul de greutate i V matricea varianelor totale (pentru tot norul E).
Dac cei n indivizi sunt afectai de ponderile p
1
, p
2
,..., p
n
atunci ponderile q
1
,
q
2
,..., q
k
ale fiecrui sub-nor sunt :
e
=
i i
E e
i j
p q .
Atunci:

=
=
=

e
j i
E e
j i j i i
j
j
k
1 = j
j j
i
i i
j
j
g e g e p
q
V
g q g
e p
q
g
)' )( (
1
1


Matricea de varian interclase B, se definete ca matricea de varian a celor
k centre de greutate cu ponderile q
j
:
)' g - q )( g - q q B
j
k
= j
j j
=
1
(
Matricea de varian intraclase W, se definete ca media matricilor V
j
:
=
k
= j
j j
V q W
1


n cazul general, W este inversabil n timp ce B nu este, deoarece cele k centre
de greutate sunt ntr-un sub-spaiu de dimensiune k-1 din R
p
(dac p>k-1, ceea ce se
ntmpl n general), n timp ce B este de dimensiune p.
Deoarece variana total este suma dintre media varianelor i variana
mediilor, are loc relaia urmtoare: V=W+B .

Se presupune g=0 (adic variabilele explicative sunt centrate).

Tabloul datelor de studiat este |A|X| unde :
- A este tabloul logic asociat variabilelor calitative ;
- X este matricea celor p variabile explicative.
n acest caz, centrele de greutate g
1
, g
2
,..., g
k
sunt liniile matricii:
(ADA)
-1
(ADX)
iar matricea varianelor interclase este:
Metode statistice de analiz a atributelor necesare ale calitii 55
B=(XDA)D
q
-1
(ADX)

Dac p
i
=1/n formulele precedente se simplific. Fie n
1
, n
2
,..., n
k
mrimea
subnorilor.
Atunci :

=
=

j
j j
j
j j j
V n
n
W
g g n
n
1
B
1
'
unde =
Ej
i
j
j
e
n
g
1


n continuare se presupune p
i
=1/n, i=1,n.

Analiza factorial discriminant

Analiz factorial discriminant (AFD) const n cutarea de noi variabile,
numite variabile discriminante, corespunztoare direciilor din R
p
care separ cel mai
bine n proiecie cele k grupuri de observaii.
De exemplu, n figura 3.5., axa 1 are o bun putere discriminant n timp ce
axa 2 nu permite separarea celor dou grupe de observaii n proiecie pe ea.

Se presupune R
p
nzestrat cu metrica M.
Se noteaz cu a axa discriminant i cu u factorul asociat axei
discriminante, u=Ma. Xu va fi variabila discriminant.
Axa discriminant este vectorul propriu al matricii M
-1
V
-1
BM asociat celei mai
mari valori proprii.



x
x
x
x
x
x
x
x
x
x
x
x
x
Axa 2
Axa 1
Axa 1
Axa 2
Metode statistice de analiz a atributelor necesare ale calitii 56
Fig. 3.5

Axei discriminante a i se asociaz factorul discriminant u astfel nct u=Ma.
Factorul discriminant u este vectorul propriu al matricii V
-1
B asociat valorii
proprii
1
: V
-1
Bu=
1
u.
Factorii discriminani i variabilele discriminante Xu, sunt independeni n
raport cu metrica M.
Din comoditate se alege M=V
-1
deci:

=
=

u Bu V
a a BV
1
1
1
1


Observaie: 0s
1
s1:
1.
1
=1 atunci: aMBMa=aMVMa
n acest caz, n proiecie pe a dispersiile intraclase sunt nule. Cei k nori sunt
fiecare ntr-un hiperplan ortogonal pe a.
Avem discriminare perfect dac centrele de greutate se proiecteaz n puncte
diferite.



Fig. 3.6.

2. Dac
1
=0 atunci: aMBMa=0
n acest caz cea mai bun ax nu permite separarea centrelor de greutate g
i
.
Este cazul n care ele sunt confundate.
Norii sunt concentrici i nu este posibil nici o separare liniar.
Se poate totui s existe o posibilitate de discriminare neliniar.

x
x
x
x
x x
x
x
x
x
x x
x x
g
1
g
1
Metode statistice de analiz a atributelor necesare ale calitii 57

Fig. 3.7.

Valoarea proprie este o msur pesimist a puterii de discriminare a unei
axe.
Figura urmtoare arat c poate totui discrimina perfect i n cazul n care
<1 (grupurile sunt bine separate).


Fig. 3.8.

n cazul general n care n>p>k i n care variabilele nu sunt legate prin relaii
liniare, numrul valorilor proprii diferite de zero, deci numrul axelor discriminante,
este egal cu k-1.
n cazul n care k=2, k-1=1 deci exist o singur variabil discriminant.
Axa discriminant este atunci n mod necesar dreapta care unete cele dou
centre de greutate g
1
i g
2
: a=(g
1
-g
2
).
Factorul discriminant va fi : u=V
-1
(g
1
-g
2
) sau u=W
-1
(g
1
-g
2
).


Fig. 3.9.


Se definete funcia lui Fisher ca: W
-1
(g
1
-g
2
).
x
x
x
x
x
x
x x
x x x
x
x
x
x
x
x x
Grup 1
Grup 2
.
g
1
=g
2
x
x x
x
x
x x
x
x
x
x
x
x
x
x x
x
x
Grupa 1
Grupa 2
g1 g2
g
Metode statistice de analiz a atributelor necesare ale calitii 58
n general, din motive de estimare, n locul lui W
-1
se ia
1
2

.
+
+
= W
n n
n n
2 1
2 1
.

Reguli geometrice de atribuire

Dup obinerea celei mai bune reprezentri a celor n indivizi n k clase se
poate formula o regul de atribuire.
Regula general const n calcularea distanelor observaiei e la cele k centre
de greutate ale fiecrei clase, iar apoi la atribuirea celei mai mici distane.
Pentru aceasta trebuie definit metrica care urmeaz a fi utilizat.
1. Regula Mahalanobis-Fisher: const n utilizarea metricii W
-1
(sau V
-1
,
ceea ce este echivalent).

i i i i
2
i i i
2
g W e g W g e W e g e d g e W g e g e d
1 1 1 1
' 2 ' ' ) , ( ) ( )' ( ) , (

+ = =
Cum eW
-1
e nu depinde de grup, regula const n a cuta:
) 2 / ' ' ) ' 2 '
1 1 1 1
i i i i i i
g W g g W e max( sau g W e g W g min(



Se observ c aceast regul este liniar n raport cu coordonatele lui e.
Pentru fiecare individ trebuie calculate k funcii liniare de aceste coordonate i
cutat valoarea maximal.

Propoziie:
Pentru cazul n care k=2, individul e este atribuit grupei 1 dac valoarea
funciei discriminante Fisher este superioar pragului 1/2(g
1
- g
2
)W
-1
(g
1
- g
2
) i
grupei 2 dac este inferioar acestui prag.

Se observ c se poate aplica regula geometric indiferent dac spaiul este R
p

sau R
k-1
.

Observaie:
Dac k=3, frontierele de atribuire sunt hiperplanele ortogonale planului
determinat de cele trei centre de greutate.
Distanele Mahalanobis la g
1
, g
2
, g
3
pot fi citite direct utiliznd graficul a dou
variabile canonice discriminante normalizate la 1 (n sensul varianei intraclase).
Metode statistice de analiz a atributelor necesare ale calitii 59

4. Insuficiena regulilor geometrice

Utilizarea regulilor precedente conduce la atribuiri incorecte atunci cnd
dispersile grupelor sunt foarte diferite ntre ele : nimic nu justific atunci folosirea
aceleiai metrici pentru grupe diferite.

ntr-adevr dac se consider figura urmtoare, e este mai aproape de g
1
dect
de g
2
, deci e va fi atribuit grupei 1. Este mult mai natural ns, ca individul e s fie
atribuit grupei 2, dei puterea de atracie este mai mic. De aici rezult
contradicia.

Fig. 3.10.

Diverse soluii utilizeaz metrica local M
i
astfel c :
) ( )' ( ) , (
i i i i
2
g e M g e g e d = , cele mai multe lund M
i
proporional lui V
i
-1
.

Problema optimizrii unei reguli de decizie geometrice nu poate fi rezolvat
fr referin la un model probabilist. ntr-adevr, problema este de a ti cum se
comport aceast regul pentru noi observaii, ceea ce impune construirea de ipoteze
distribuionale asupra repartiiei n spaiul noilor observaii. Aici sunt atinse limitele
metodelor descriptive. n subcapitolul urmtor vor fi prezentate condiiile n care ele
conduc la reguli optimale.

5. Metoda Disqual - metod de discriminare pentru variabile calitative

Atunci cnd predictorii sunt p variabile calitative X
1
, X
2
,..., X
p
cu respectiv m
1
,
m
2
,..., m
p
modaliti, se poate utiliza procedeul urmtor :
e
g2
g1
Metode statistice de analiz a atributelor necesare ale calitii 60
- se efectueaz o analiz de coresponden multipl pentru variabilele X
1
, X
2
,...,
X
p
, deci o analiz de coresponden a tabloului disjunctiv X=(X
1
' X
2
'...'X
p
);
- se nlocuiesc cele p variabile calitative prin cele q coordonate pe axele
factoriale;
- se efectueaz o analiz factorial discriminant pentru aceste q variabile
numerice z
1
, z
2
,..., z
q
.
Un factor discriminant d este o combinaie liniar de z
j
care sunt combinaii
liniare de X
i
. Se exprim d ca o combinaie liniar de indicatorii X
i
, ceea ce revine la
atribuirea unei valori numerice sau scor, fiecrei categorii a fiecrei variabile. Atunci
d este egal cu suma scorurilor obinute de categoriile celor p variabile. Aceasta revine
la transformarea fiecrei variabile calitative ntr-o variabil numeric discret cu m
valori.

Atunci cnd k=2 aceast metod este optimal n sensul urmtor : lund toi
factorii posibili ai ACM ( m p)
i
i
, cuantificarea variabilelor X
i
este cea care d
distana Mahalanobis cea mai mare ntre dou grupe.
n practic totui, nu se utilizeaz dect factorii care prezint n acelai timp i
o inerie i o putere separatoare ntre clase suficient.

3.2.2. Metode probabiliste

Metodele probabiliste se ocup de clasarea indivizilor. Problema clasificrii
apare atunci cnd un anchetator face un numr de msurtori asupra unui individ i
dorete ca pe baza acestor msurtori s-l claseze ntr-una din mai multe categorii de
indivizi.

Se presupune c exist un numr finit de populaii din care individul poate
proveni i fiecare populaie este caracterizat de o probabilitate de distribuie a
msurtorilor. Individul este considerat ca o observaie aleatoare a acestei populaii.

Ideea general pentru construirea unei proceduri de clasificare este de a
minimiza probabilitatea de misclasificare, sau i mai exact, minimizarea efectelor
negative ale misclasificrii.
Metode statistice de analiz a atributelor necesare ale calitii 61

Se presupune c o populaie t este mprit n m grupe : t
1
, t
2
,..., t
m
cu
funciile de densitate p
1
(x), respectiv p
2
(x),..., p
m
(x).( m 1, = i x x X P x p
i
i
), ( ) ( t e = = )

Fie X spaiul observaiilor. Se dorete mprirea acestui spaiu n m regiuni
distincte dou cte dou i care reunite s acopere tot spaiul X.
R=(R
i
)
i=1,m
astfel nct X= j i R R ]i R
j i
m
= i
i
= u =
1
. O observaie aparine lui
R
i
dac ea provine din populaia t
i
.

Fie C(j/i) costul clasrii unei observaii n populaia t
j
cnd ea provine de fapt
din populaia t
i
.

Probabilitatea de misclasificare a unei observaii din t
i
n t
j
este :

j
R i
dx x p = j/i) P ) ( (

Se presupune c sunt cunoscute probabilitile a priori q
1
, q
2
,..., q
m
ale
populaiilor (probabilitile ca un nou individ s provin din una din populaiile t
1
,
t
2
,..., t
m
).
n acest caz, costul erorii totale de misclasificare este :

=
m
= i
m
i j
1 = j
i
R j/i, P j/i) C q
1
) ( (

Acest cost trebuie s fie ct mai mic. Deci, trebuie gsit o partiie a lui X,
R=(R
i
)
i=1,m
pentru care costul erorii totale de misclasificare s fie minim. Atta timp
ct cunoatem probabilitile a priori ale populaiilor, se poate defini probabilitatea
condiionat ca o observaie s provin dintr-o populaie, cunoscnd valorile
componentelor vectorului x=(x
1
,...,x
p
).

Probabilitatea condiionat ca o observaie s provin din populaia t
i
este :
Metode statistice de analiz a atributelor necesare ale calitii 62

m
1 = k
k k
i i
x p q
x p q
) (
) (


Costul erorii de misclasificare a unei populaii n t
j
este :
(j/i) C
x p q
x p q
m
j i
1 = i
m
1 = k
k k
i i

=
) (
) (


Dac j este astfel nct costul erorii de misclasificare a unei populaii n t
j
s
fie minim, atunci costul erorii de misclasificare va fi minim. Deci, se determin j
pentru care se realizeaz :
) ( ) ( ( min
=
m
j i
1 = i
i i
j
j/i) C x p q

Teorem:
1

1) Dac q
i
este probabilitatea a priori ca o observaie x s provin din populaia
t
i
cu densitatea de repartiie p
i
(x), i=1..m i dac costul de misclasificare a unei
observaii din t
i
n t
j
este C(j/i) atunci regiunile clasificrii, R
1
,...,R
m
care
minimizeaz costul erorii totale de misclasificare, sunt definite astfel :
x este n regiunea R
k
dac :
k j ; m 1,.., = j j/i) C x p q k/i) C x p q
m
j i
1 = i
i i
m
k i
1 = i
i i
= <
= =
( ) ( ( ) (
Dac relaia anterioar este adevrat cu excepia a h indici pentru care
inegalitatea se transform n egalitate, atunci acest punct x poate fi atribuit oricrei din
cele h+1 regiuni.
2) Dac:

m 1,.., = i
m, 1,.., = k
, m 1,.., = j
j/i) C x p q k/i) C x p q x P
i
m
j i
1 = i
i i
m
k i
1 = i
i i

=
|
|
|
.
|

\
|
H

=
= =
0 / ( ) ( ( ) (

atunci procedura de minimizare este unic cu excepia unei mulimi de msur 0.


1
Anderson T.W. An introduction to multivariate statistical analysis, Wiley, New York, 1984
Metode statistice de analiz a atributelor necesare ale calitii 63
O regul de afectare R=(R
i
)
i=1,m
care satisface teorema se numete regul
Bayesian.

n cazul n care probabilitile a priori nu sunt cunoscute se poate defini
eroarea total de misclasificare necondiionat pentru o procedur de clasificare.
Eroarea total de misclasificare se poate defini cu condiia ca observaia s provin
dintr-o anumit populaie.
Astfel, eroarea total de misclasificare condiionat de faptul c observaia
provine din t
i
este :

=
m
i j
= j
R r(i, = ) R (j/i, P j/i) C
1
) (

O procedur R este definit ca fiind cel puin la fel de bun ca R* dac
r(i,R)sr(i,R*), i=1,..,m.
O procedur R este definit ca fiind mai bun ca R* dac

-
s
*)
*) )
R r(i, < ) R r(i, a[ m 1, = j
m 1, = i R r(i, R r(i,
.
O procedur R este prin definiie admisibil dac nu este nici o procedur R*
mai bun ca ea.
O clas de proceduri este prin definiie complet dac pentru orice procedur R
din afara clasei exist R* n clas care este mai bun ca R.
O clas de proceduri este prin definiie minimal i complet dac nici una din
submulimile sale diferit de mulimea vid nu este complet.

Teorem:
2

Dac q
i
>0 i=1,..,m atunci o procedur Bayes este admisibil.

Teorem :
3

Dac C(i/j)=1 j i = i Pr{p
i
(x)=0/t
j
}=0 atunci o procedur Bayes este
admisibil.

Teorem:
16


2
Anderson T.W. An introduction to multivariate statistical analysis, Wiley, New York, 1984
3
Anderson T.W. An introduction to multivariate statistical analysis, Wiley, New York, 1984
Metode statistice de analiz a atributelor necesare ale calitii 64
Dac s s = =

H = k 0 m 1, = j i, j; i / k
x p
x p
Pr
k
j
i
, 0
) (
) (
atunci orice procedur
admisibil este o procedur Bayes.

Teorem:
16

Dac s s = =

H = k 0 m 1, = j i, j, i / k
x p
x p
Pr
k
j
i
, 0
) (
) (
atunci clasa procedu-
rilor Bayesiene este minimal i complet.

Cazul modelului normal multidimensional

Populaiile sunt presupuse a avea distribuii normale.
Se presupune c mediile populaiilor sunt diferite iar dispersiile lor sunt egale.
Deci :

E
E
=

) ( )' (
2
1
exp
) (det ) 2 (
1
) (
1
2 / 1 2 /
j j
p
j
x x x p u u
t

Parametrii sunt presupui cunoscui.
Cunoscndu-se probabilitile a priori q
1
,..., q
m
i costurile erorii de
misclasificare, se cunoate i forma funciilor
=
m
j i
1 = i
i i
j/i) C x p q ( ) ( j=1,..,m.
Se pot defini regiunile R
j
astfel:

= =
= =
m
j i
1 = i
i i
m
k i
1 = i
i i
k
j
j/i) C x p q k/i) C x p q min x R ( ) ( ( ) ( /

Se presupune : C(j/i)=1 i,j=1,..,m.

Se definesc funciile :
) ( ) (
2
1
) (
) (
) (
) ( ) ( 1 ) ( ) (
,
k j
I
k j
k
j
k j
x
x p
x p
log x u u u u u E

= =


Dac probabilitile a priori sunt cunoscute atunci :
j k , m 1, = k
q
q
x u x R
j
k
k j j

= > = log ) ( /
,


Metode statistice de analiz a atributelor necesare ale calitii 65
Teorem:
4

Dac q
i
este probabilitatea a priori ca o observaie s provin din t
i
~N(u
(i)
,E)
i=1,.,m i dac costurile de misclasificare sunt egale, atunci regiunile de clasificare
R
1
,..., R
m
, care minimizeaz costul total de misclasificare (

=
m
= i
m
i j
1 = j
i
R j/i, P q
1
) ( ) sunt
definite de relaia:
j k , m 1, = k
q
q
x u x R
j
k
k j j

= > = log ) ( /
,

unde u
j,k
(x) sunt definite de relaia:
) ( ) (
2
1
) (
) (
) (
) ( ) ( 1 ) ( ) (
,
k j
I
k j
k
j
k j
x
x p
x p
log x u u u u u E

= =



Se observ c:
- fiecare u
j,k
(x) este o funcie de clasificare n raport cu populaiile j i k
- u
j,k
(x)=- u
k,j
(x)
Atta timp ct aceste funcii sunt liniare, regiunea R
i
este mrginit de
hiperplane.

Cazul n care k=2
)
`

+ E + s E =
)
`

+ E + > E =


1
2
1
2
q
q
ln x x R
q
q
ln x x R
) ( ) (
2
1
) ( ' /
) ( ) (
2
1
) ( ' /
2 1
1
2 1 2 1
1
2
2 1
1
2 1 2 1
1
1
u u u u u u
u u u u u u

Dac: q
1
=q
2
=0.5 se obine regula Fisher estimnd E cu ) W
2 - n
n
( W
2 - n
n
= E
.

Se definete scorul sau statistica lui Anderson ca:

1
2
q
q
ln x x S( E + E =

) ( ) (
2
1
) ( ' )
2 1
1
2 1 2 1
1
u u u u u u
Ea este legat de probabilitatea a posteriori a apartenenei la grupa 1.
Atunci : - x va fi n R
1
dac S(x)>0
- x va fi n R
2
dac S(x)s0.


4
Anderson T.W. An introduction to multivariate statistical analysis, Wiley, New York, 1984
Metode statistice de analiz a atributelor necesare ale calitii 66
ntr-adevr :
{ }

)
`

E + E + = + =

+
= = H

x x
2
1
x x
2
1
- exp
q
q
x p q
x p q
p
1


x p q x p q
x p q
p din vine x Pr
2
1
) ( ) ( ) ( ) ( 1
) (
) (
1
) ( ) (
) (
1
1
1 2
1
2
1 1 1
2 2
2 2 1 1
1 1
u u u u

=
)
`

= x S(
p
1
ln( x D
2
1
x D
2
1
exp
q
q
p

2 2
1
2
) ) 1 ) , ( ) , ( 1
1
2 1
u u
)) exp( 1
)) exp(
)) 1
1
x S(
x S(
x exp(-S(
p
+
=
+
= i se numete funcia logistic a scorului
(a statisticii).
Cnd p
1
=p
2
=1/2 :

+
=
)) , ( ) , ( ( 1
1
2 1
u u x D x D
2
1
- exp
p
2 2


Cu rezerva caracterului realist al ipotezei de multinormalitate, aceste rezultate
sunt mult mai precise ca o simpl decizie cu ajutorul distanei cea mai scurt.

3.2.3. Erori de clasificare

Dac k=2 densitatea de probabilitate ntr-un punct x este f(x)=q
1
p
1
(x)+ q
2
p
2
(x).
Fie g
1
(x)= q
1
p
1
(x) i g
2
(x)= q
2
p
2
(x), numite scoruri discriminante.

Eroarea de clasificare pentru o procedur R=(R
1
, R
2
) este dat de :

e e
+ =
1 2
) ( ) ( )
R x
2
R x
1
x g x g R t(

Procedura este optimal dac eroarea de clasificare t* este :
) t( inf = t* R
R 9 e
unde 9 este mulimea tuturor procedurilor de clasificare.

Se definesc variabilele aleatoare n
i
(x)=numrul de indivizi care aparin
populaiei t
i
i au paternul x, i=1,2.
Fie mrimea eantionului n, fixat.
Se estimeaz probabilitile a priori: 1,2 = i ,
n
) ( n
q

e
A
=
X x
i
i
x

Metode statistice de analiz a atributelor necesare ale calitii 67
Se estimeaz densitile: 1,2 = i ,
n
) ( n
=
) ( n
) ( n
) ( p
i
i
X x
i
i
i
x
x
x
x

e
A
= .
n acest caz un estimator al erorii de clasificare este :

=
=
+ =
A A A
A A A
e
A
e
A A

) ( p q ) ( g
) ( p q ) ( g
unde ) ( g ) ( g ) ( t
2 2 2
1 1 1
2 1
1 2
x x
x x
x x R
R x R x


Dac regula Bayesian optimal se estimeaz prin :

{ }
{ }

) ( n ) ( n /
) ( n ) ( n /
: unde ) , (
2 1 2
2 1 1
2 1

< e =
> e =
=
A
A
A A A
x x X x R
x x X x R
R R R
atunci se definete: - eroarea aparent:
A A
e
A
e
A A A
+ =
1 2
) ( g ) ( g ) ( t
2 1
R x R x
x x R
- eroarea actual:
A A
e e
A
+ =
1 2
) ( g ) ( g ) t(
2 1
R x R x
x x R
Observaie:
1. Deoarece R*=(R*
1
, R*
2
) cu
{ }
{ }

) ( g ) ( g / *
) ( g ) ( g / *

2 1 2
2 1 1

< e =
> e =
x x X x R
x x X x R
este optimal
fiind Bayesian, atunci : t*=t(R*)=
e
s
X x
x x
2
1
)) ( g ), ( g min(
2 1
(pentru c g
1
i g
2
sunt
probabiliti).
2.
e
A
9 e
A A A
= =
X x
x x R R R R )) ( n ), ( min(n
n
1
) ( t inf ) ( t deci , * pentru estimare o este
2 1
R


Teorema Glick (1972):
5

Dac estimatorii p i k
i
A
, ,.., =1 sunt punctual nedeplasai (sau mai general ei
satisfac inegalitatea : X x x E x e s
A A
)) ( p , q ( ) ( p q
i i i i
) atunci : ) t( *) t( )) ( t (
A A A
s s R R R E
Deci eroarea aparent este o estimaie optimist a erorii optimale, n timp ce
eroarea actual este o estimaie pesimist a erorii optimale.

3.2.4.Estimaii practice ale erorii de clasificare

1. Metoda eantionului test

5
Glick - J.A.S.A. 67(-72), Pag 116-121
Metode statistice de analiz a atributelor necesare ale calitii 68
n acesat metod se folosete toat informaia eantionului pentru definirea
regulii de afectare a unui nou individ. Aceast regul este apoi testat pe acelai
eantion, adic fiecare individ din eantion este atribuit unei grupe dup regula
descris anterior.
Estimarea erorii de clasament astfel obinut are o deplasare optimist
deoarece regula de afectare este testat pe indivizii care au contribuit la construcia sa
(excepie fcnd cazul normal).
Avantajul acestei metode const n faptul c folosete ntreaga informaie a
eantionului.

2. Metoda validrii ncruciate
Fie E eantionul iniial, Card(E)=n.
Se construiesc E
1
, E
2
astfel nct : - E= E
1
E
2

- E
1
E
2
=C
- card(E
1
)=card(E
2
)=n/2
E
1
se numete eantion de nvare
E
2
se numete eantion de testare

Regula de afectare este construit pe eantionul de nvare E
1
i testat pe
eantionul de testare E
2
, obinnd astfel eroarea de clasificare.
Avantajele majore ale metodei sunt c nu presupune nici o ipotez
suplimentar asupra predictorilor, care s influeneze calitatea estimaiei i c se
aplic foarte bine cnd volumul de selecie este mare.
Dezvantajele majore ale metodei sunt :
- cnd eantionul este de volum redus este greu de mprit n dou ;
- nu folosete ntreaga informaie a eantionului ;
- trebuie construit partiia eantionului: trebuie alei indivizii care vor face
parte din eantionul test i cei care vor face parte din eantionul de nvare.

3. O generalizare a metodei validrii ncruciate
Se genereaz un ir de partiii ale eantionului E:
Metode statistice de analiz a atributelor necesare ale calitii 69
{ } r 1, = j
n/2 E card( E card(
E E
E E E
: E E
j j
j j
j j
r
j
j j

= =
C =
=
=
) )
,
) (
2
) (
1
) (
2
) (
1
) (
2
) (
1
1
) (
2
) (
1


Submulimile {
) (
2
) (
1
,
j j
E E } sunt alese la ntmplare. Regula de afectare este
construi pentru toi j=1,..,r, considerndu-se
) (
1
j
E eantionul de nvare i
) (
2
j
E
eantionul de testare. Pentru fiecare j vor rezulta p
j
indivizi prost clasai n raport cu
regula definit la pasul respectiv.
Estimarea erorii de clasificare prin aceast metod va fi :
r
j
j
1 =
p
r
1
care este mai
bun dect cea obinut prin metoda 2.

4. Metoda Lachenbruch
Aceast metod ine cont de aproape toat informaia eantionului i conduce
la o estimaie a costului erorii de clasament mai bun dect cele furnizate de metodele
descrise anterior.
Aceast metod const n extragerea unui individ x
i
din eantionul total i
construirea unei reguli de afectare pe cei (n-1) indivizi rmai n eantion.
Aceast regul se testeaz pe eantionul de dimensiune 1, format din individul x
i
.
Se definete

=
clasat bine este nu dac` 1
clasat bine este dac` 0
n
i
i
i
x
x

Se repet procedeul descris anterior pentru toi indivizii x
i
din eantionul E.
Estimarea erorii de clasificare prin aceast metod este:
n
i
i
1 =
n
n
1
.
Unul din dezavantajele acestei metode este c ea duce la un timp de calcul
excesiv, iar un altul este c dispersia estimatorului este foarte mare.