Documente Academic
Documente Profesional
Documente Cultură
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
Tipuri de raionament
Raionament deductiv
Raionament inductiv
nvarea automat
nvarea
Motivaie
Ce presupune nvarea
nvarea supervizat
Problema de clasificare
Se d o mulime de instane
(obiecte)
Mulimea de antrenare
Instanele au atribute
Fiecare instan are atribute
cu anumite valori
De obicei, ultimul atribut
este clasa
10
Tipuri de atribute
Nominal
Ordinal
Interval
11
Clasificarea i regresia
12
Exemple de aplicaii
13
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
14
15
16
17
Specificarea testului
18
Specificarea testului
Nominal
Ordinal
Continuu
Binar
Multiplu
19
Atribute nominale
Partiionarea multipl
Partiionarea binar
20
Atribute ordinale
Partiionarea multipl
Partiionarea binar
?
Florin Leon, Inteligenta artificiala, http://florinleon.byethost24.com/curs_ia.htm
21
Atribute continue
22
Discretizarea
23
Discretizarea
24
Discretizarea
25
Partiionarea optim
26
Msuri de impuritate
Convenie: 0 log2 0 = 0
27
Msuri de impuritate
Valoarea maxim:
instanele sunt
distribuite egal ntre
clase
Valoarea minim (0):
toate instanele
aparin unei singure
clase
28
Exemple
29
Partiionarea
ni
GINI split GINI (i)
i 1 n
unde:
30
Ctigul informaional
31
Cheat = Yes 0
Cheat = No 3
Refund = No 7 instane
Cheat = Yes 3
Cheat = No 4
Gini = 0
32
Status
Cheat = Yes 1
Cheat = No 1
Cheat = Yes 0
Cheat = No 4
Cheat = Yes 2
Cheat = No 2
33
Se sorteaz valorile
Se parcurg liniar valorile, actualizndu-se numrarea
instanelor i calculndu-se indexul Gini
Se alege poziia de partiionare cu indexul Gini minim
Cheat
No
No
No
Yes
Yes
Yes
No
No
No
No
100
120
125
220
Taxable Income
Valori sortate
60
Poziii de part.
70
55
75
65
85
72
90
80
95
87
92
97
110
122
172
230
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
Yes
No
Gini
0.420
0.400
0.375
0.343
0.417
0.400
0.300
0.343
0.375
0.400
0.420
34
Cheat
No
No
No
Yes
Yes
Yes
No
No
No
No
100
120
125
220
Taxable Income
Valori sortate
60
Poziii de part.
70
55
75
65
85
72
90
80
95
87
92
97
110
122
172
230
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
Yes
No
Gini
0.420
0.400
0.375
0.343
0.417
0.400
0.300
0.343
0.375
0.400
0.420
35
Prima partiionare
GiniRefund = 0.343
GiniStatus = 0.3
GiniIncome = 0.3
36
Procedura recursiv
Married
Single
37
Al doilea nivel
Atribute rmase
Refund, Income
Status = Divorced
38
Al doilea nivel
39
Al doilea nivel
Status = Single
Cheat = Yes 0
Cheat = No 1
Refund = No 3 instane
Cheat = Yes 2
Cheat = No 1
Gini = 0
40
Al doilea nivel
Status = Single
41
Al doilea nivel
GiniRefund = 0.333
GiniIncome = 0.333
S considerm Refund
42
Arborele final
MarSt
Divorced
Refund
Married
Single
NO
Refund
Yes
No
Yes
NO
YES
NO
No
Income
<80
80
NO
YES
43
Decizia alternativ
Income
<97
MarSt
Divorced
YES
Married
NO
97
NO
Single
YES
44
Aplicarea modelului
Instana de test
Refund
Yes
Refund Marital
Status
Taxable
Income Cheat
No
80K
Married
10
No
NO
MarSt
Single, Divorced
TaxInc
< 80K
NO
Married
NO
> 80K
YES
Aplicarea modelului
Refund
Yes
Refund Marital
Status
Taxable
Income Cheat
No
80K
Married
10
No
NO
MarSt
Single, Divorced
TaxInc
< 80K
NO
Married
NO
> 80K
YES
Aplicarea modelului
Refund
Yes
Refund Marital
Status
Taxable
Income Cheat
No
80K
Married
10
No
NO
MarSt
Single, Divorced
TaxInc
< 80K
NO
Married
NO
> 80K
YES
Aplicarea modelului
Refund
Yes
Refund Marital
Status
Taxable
Income Cheat
No
80K
Married
10
No
NO
MarSt
Single, Divorced
TaxInc
< 80K
NO
Married
NO
> 80K
YES
Aplicarea modelului
Refund
Yes
Refund Marital
Status
Taxable
Income Cheat
No
80K
Married
10
No
NO
MarSt
Single, Divorced
TaxInc
< 80K
NO
Married
NO
> 80K
YES
Aplicarea modelului
Refund
Yes
Refund Marital
Status
Taxable
Income Cheat
No
80K
Married
10
No
NO
MarSt
Single, Divorced
TaxInc
< 80K
NO
Married
Se clasific instana:
Cheat = No
NO
> 80K
YES
Algoritmi de inducie
52
53
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
54
Clasificatorul bayesian
55
Clasificatorul bayesian
56
57
Exemplu de clasificare
58
Exemplu de clasificare
59
Considerente practice
60
Considerente practice
Estimarea m:
61
Considerente practice
62
Atribute continue
Abordarea 1. Discretizarea
Valori: Da / Nu
63
Atribute continue
64
Atribute continue
65
Exemplu de clasificare
(Income|Cheat = Yes) = 90
(Income|Cheat = Yes) = 4.082
66
Exemplu de clasificare
(Income|Cheat = Yes) = 90
(Income|Cheat = Yes) = 4.082
67
Exemplu de clasificare
68
Exemplu de clasificare
69
Exemplu de clasificare
70
Exemplu de clasificare
71
Avantaje
Calcule simple
Robustee la zgomot i atribute irelevante
Aplicabilitate
Aplicaii de succes
Diagnoz
Clasificarea documentelor text
Detecia spam-ului
72
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
73
Se memoreaz instanele de
antrenare
Se folosesc pentru a prezice
clasele instanelor noi
Instan nou
74
75
Clasificarea k-NN
Necesit:
76
Reprezentarea instanelor
Instane:
IMC
IMC
IMC
IMC
=
=
=
=
18.5, V = 20
27, V = 32
39, V = 27
20, V = 25
Florin Leon, Inteligenta artificiala, http://florinleon.byethost24.com/curs_ia.htm
77
k=1
k=2
k=3
78
Numrul de vecini
k=1
k=2
k=3
79
80
Diagramele Voronoi i
grdina zen Ryoanji
81
Metrici de distan
Distana euclidian: p = 2
Distana Manhattan: p = 1
82
Scalarea
83
Numrul de dimensiuni
Blestemul dimensionalitii
84
Ponderarea instanelor
wi = 1 / d(xq, xi)2
85
86
87
Exemplu: ponderarea
Noua instan:
xq = (No, Married, 80K)
w(x1) = 1 / 1.4422 =
0.481 (No)
w(x2) = 1 / 0.1252 =
64 (No)
w(x3) = 0.996 (No)
w(x4) = 0.941 (No)
w(x5) = 0.992 (Yes)
w(x6) = 64 (No)
w(x7) = 0.362 (No)
w(x8) = 1.000 (Yes)
w(x9) = 1040.583 (No)
w(x10) = 0.996 (Yes)
k = 10
Decizia: suma
Deci: f(xq) = No
88
Ponderarea atributelor
Metode:
89
Selecia atributelor
90
Clasificarea bazat pe
cei mai apropiai vecini
91
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
92
93
94
95
96
97
98
Generalizarea
99
100
101
Weka
102
nvarea supervizat.
Tehnici de clasificare
1.
2.
3.
4.
5.
6.
7.
103
Integrarea
Reguli
Instane
Prototipuri
104
Clasificarea NNGEP
Instanele similare
sunt agregate n
exemplare
generalizate
(hiper-paralelipipede)
Exemplarele
generalizate nu se
suprapun
105
Clasificarea NNGEP
106
Clasificarea NNGEP
107
Prototipuri
ntruct un exemplar
generalizat conine mai
multe instane, media
statistic a acestora nu
coincide neaprat cu
centrul geometric al
hiper-paralelipipedului
corespunztor
Prototipul poate fi diferit
de centrul geometric
Florin Leon, Inteligenta artificiala, http://florinleon.byethost24.com/curs_ia.htm
108
Actualizarea prototipurilor
Rezultate
110
Interpretare
111
Concluzii
112