Documente Academic
Documente Profesional
Documente Cultură
e este o model de clasificare in care functia de invatare este reprezentata de un arbore; se utilizeaza pentru clasificarea unor obiecte descrise de atribute. Se mai numeste arbore de clasificare descrie date. Analiza Deciziilor: arborele de decizie reprezinta un model grafic al deciziilor (in conditii de incertitudine) si a consecintelor posibile ale acestora, inclusiv al starilor posibile ale mediului; se utilizeaza pentru a identifica startegia optima in raport cu un criteriu dat. Se mai numeste si diagrama de decizie. vom retine denumirea arbore de clasificare pentru primul si diagrama de decizie pentru al doilea
1
Arbori de clasificare
Reprezinta una din metodele cele mai utilizate in clasificare si predictie In raport cu retelele neuronale poate fi usor interpretat ca o reprezentare grafica a unor reguli mult mai accesibil utilizatorului Definitie, concepte, elemente componente Constructia arborelui invatare supervizata
procedura generala de constructie selectarea atributelor algoritmul ID3
O tehnica de invatare reprezinta o metoda de construtie a modelului de clasificare dintr-un set de date de invatare Tehnici de invatare: clasificatorul Bayes, arbori de clasificare, retele neurale, etc.
3
erori de antrenare pentru setul exemplelor de antrenare eroare aparenta erori de generalizare pentru setul exemplelor de testare eroare de test: reprezinta eroarea asteptata a modelului in raport cu instantele ce urmeaza a fi clasificate
5
Arborele de clasificare
Defintie: arborele de decizie este o metoda de clasificare in care functia target este reprezentata de un arbore constind din noduri si arce directionate Elemente componente: noduri decizionale - atribute
noduri radacina noduri decizionale interne
Tip
org
atribute numerice: transformarea variabilei continue in variabila discreta valoare lipsa a unui atribut in setul de date
se atribuie exemplului valoarea cu cele mai multe realizari in cadrul exemplelor asociate nodului se atribuie valoarea cu cele mai multe realizari in cadrul clasei careia ii apartine exemplul se atribuie probabilitati pe baza frecventelor valorilor atributului si exemplele cu valori lipsa se distribuie valorilor atributului proportional cu probabilitatea fiecaruia
8
inaintea partitionarii
dupa partitionare
un nod cu ditributia (1 0) are impuritate 0, un nod cu distributia (0.5 0.5) are impuritate maxima
9
Presupunem setul exemplelor S partitionat in N subseturi (clase) disjuncte S1,..,Sn astfel incit: =S pentru fiecare ij probabilitatea ca o instanta este: sa apartina clasei j
Unde
Se poate spune ca entropia masoara incertitudinea cu privire la apartenenta unui exemplu la o clasa
Prin conventie
11
Fie atributul A cu dom(A)=(a1,..,am) si partitiile corespunzatoare ale setului de exemple: S=(Sa1,..,Sam) Entropia medie a setului de exemple dupa partitionarea functie de valorile atributului este:
unde
Sai = setul de exemple corespunzatoare valorii ai naij= numarul de exemple corespunzatoare valorii ai si clasei j nai= numarul total de exemple corespunzatoare valorii ai
12
Acelasi exemplu:
Daca partitonam setul de exemple dupa valorile atributului A, indicile gini al setului de exemple devine:
13
sau generalizind
Observatie. Raportul
reprezinta
unde
probabilitatea conditionata a ipoteei conform careia exemplul apartine clasei j atunci cind a fost observata valoarea ai a atributului A:
rezulta:
14
in termenii arborelui de decizie, functia cistig masoara diferenta dintre impuritatea nodului parinte, inainte de ramificare si impuritatea nodurilor copil, dupa ramificare.
Criteriul de optim pentru alegerea atributului care urmeaza sa fie testat in nodul parinte si dupa ale carui valori va fi ramicat este
15
observatie pas 2
16
18
Constructia arborelui de decizie -algoritmul ID3Function ID3 (A, C, S) begin daca S=vida atunci intoarce un singur nod cu eticheta failure altfel daca toate elementele lui S in aceiasi clasa atunci intoarce un sigur nod frunza etichetat cu aceea clasa altfel daca A=vida atunci intoarce nod frunza etichetat cu disjunctia tuturor claselor din S altfel begin selecteaza atributul a cu cel mai mare Gain(a) si intoarce arbore cu nod radacina etichetat a si ramuri etichetate cu valorile ai ale lui a sterge a din multimea atributelor A pentru fiecare valoare ai atributului a begin creeaza partitia (Si) corespunzatoare valorii ai a atributului a intoarce arbore apelind ID3(A,C,Si) end end end Input: (A: multimea atributelor; C: multimea claselor; S: multimea exemplelor de invatare)
19
Constructia arborelui de decizie -algoritmul ID3 Strategia utilizata este de tip top-down fara intoarcere (greedy search). Masura impuritatii este entropia Algoritmul: Dindu-se setul de exemple S, si clasele (deciziile), c, corespunzatoare, atunci: 1. Alege nodul radacina atributul A cu cel mai mare cistig informational relativ la S 2. Pentru fiecare valoare v pe care A o poate lua, construieste o ramura din acel nod 3. Pentru fiecare ramura din A corespunzatoare valorii v, calculeaza Sv.
daca Sv contine exemple numai dintr-o categorie c, atunci pune c nod frunza (clasa). altfel, exclude atributul A din setul atributelor si pune un nod nou in arborele de decizie, unde noul atribut care va fi testat este cel cu cel mai mare cistig informational raportat la S v (observatie: nu la S). Cu acest nou nod procedura se reia de la pasul 2 cu S inlocuit cu Sv.
sau
20
Constructia arborelui de decizie -algoritmul ID3 1. alegerea nodului radacina: A2 alege atributul (din atributele ramase) cu cea mai mica entropie
A2
21
22
criteriul (
pentru lui Yates
) se alege astfel:
Chi-patrat corectia pentru continuitate a testul exact al lui Ficher
pentru EF>10
pentru EF< 5
pas 3. Se alege din tabelul distributiei functiei valoarea functie de gradul de libertate gl=(r-1)(c1) si a unui factor de importanta dorit si se compara cu valoarea calculata la punctul 2, daca: atunci concluzia este dependenta atunci concluzia este independenta
23
Concluzii
Anumite clase nu testeaza toate proprietatile unui anumit obiect Pentru aceeasi multime de exemple, exista mai multi arbori de decizie care le clasifica corect Algoritmul ID3
alege cel mai simplu arbore de decizie care acopera toate exemplele din multimea initiala este robust la erori in date (lipsa valorii unui atribut, erori instanta-clasa)
24