Documente Academic
Documente Profesional
Documente Cultură
- Arbori de decizie -
Avantaje model
Am ales arborii de decizie drept model de clasificare pentru
problema de clasificare Bank Marketing deoarece analiza arborilor de
decizie/clasificare reprezinta una dintre principalele tehnici data mining.
Tehnica este flexibila datorita faptului ca prezinta avantajul unei
vizualizari sugestive ( arborele ce sintetizeaza clasificarea obtinuta).
Arborele de decizie este un instrument de clasificare si predictie.
Regulile associate lui trebuie sa fie usor de interpretat, utilizat intr-o
baza de date. Clasificatorul rezultat in urma aplicarii arborelui de decizie
asupra problemei de rezolvat este sub forma unei structura
arborescente in care nodurile sunt:
- nod frunza: valoarea atributul tinta (clasa);
- nod de decizie: testul facut asupra unui singur atribut
valoare.
Algoritmii dezvoltati pentru invatarea arborilor de decizie se
bazeaza pe metoda Greedy, adica o constructive recursive de sus in
jos de tip divide and conquer. Algoritmii Greedy sunt algoritmi care
utilizeaza rezolvarea metaeuristica, a problemelor, prin identificarea
optimelor locale si incercarea de gasire a optimului global.
Principalele avantaje ale metodei sunt:
- permit generarea de reguli usor interpretabile;
- tehnica flexibila deoarece ofera vizibilitate asupra celor mai
importante campuri pentru clasificare;
- clasifica fara a depune eforturi mari d.p.d.v. al calculelor;
- permit utilizarea variabilelor categoriale si numerice.
Utilizarea arborilor de decizie ca instrument DM:
Pas 1: Descrierea atributelor valoare;
Pas 2: Predefinirea claselor;
Pas 3: Identificarea claselor discrete;
Pas 4: Utilizarea unui volum semnificativ de date de antrenare.
Variabilele de intrare:
1 - age (numeric)
2 - job : tipul de job (categorical: 'admin.','blue-collar', 'entrepreneur',
'housemaid', 'management', 'retired', 'self-employed', 'services', 'student',
'technician', 'unemployed', 'unknown')
3 - marital : statut marital (categorical: 'divorced','married','single','unknown';
note: 'divorced' means divorced or widowed)
4 - education (categorical: 'basic.4y', 'basic.6y', 'basic.9y', 'high.school', 'illiterate',
'professional.course', 'university.degree', 'unknown')
5 - default: are credit neachitat? (categorical: 'no','yes','unknown')
6 - housing: are imprumut ipotecar? (categorical: 'no','yes','unknown')
7 - loan: are credit de nevoi personale? (categorical: 'no','yes','unknown') #
related with the last contact of the current campaign:
8 - contact: tip de contact de comunicare (categorical: 'cellular','telephone')
9 - month: ultimul contact - luna din an(categorical: 'jan', 'feb', 'mar', ..., 'nov',
'dec')
10 - day_of_week: ultimul contact ziua din saptamana (categorical: 'mon', 'tue',
'wed', 'thu', 'fri')
11 - duration: durata ultimului contact in secunde (numeric).
12 - campaign: numarul de contacte realizate pentru acest client in timpul acestei
campanii (numeric, include ultimul contact)
13 - pdays: numarul de zile care au trecut dup ace clientul a fost contactat ultima
data dintr-o campanie anterioara (numeric; 999 inseamna ca nu a fost recent
contactat)
14 - previous: numarul de contacte efectuate inainte de aceasta campanie pentru
acest client (numeric)
15 - poutcome: rezultatul campaniei de marketing precedente (categorical:
'failure','nonexistent','success')
16 - emp.var.rate: rata de variatie a ocuparii fortei de munca indicator
trimestrial (numeric)
17 - cons.price.idx: indicele preturilor de consum indicator lunar (numeric)
Variabila de iesire ( tinta dorita/ticheta/ atributul rezultat in
urma realizarii modelului ):
18 - y - has the client subscribed a term deposit? (binary: 'yes','no')
1. Masuri de performanta
2. Estimarea erorii
3. Testarea semnificatiei statistice
Masuri de performanta
Estimarea erorii
Realizeaza o estimare obiectiva a performantei unui clasificator.
Datele sunt impartite in 3 parti:
- date de antrenare: clasificatorul invata sa asocieze
clase atributelor;
- date de validare: determina eroarea de predictive a
modelului;
- date de test: masoara eroarea de generalizare a
abordarii.
Testarea semnificatiei statistice
Se foloseste cand performantele unui algoritm nou se
compara cu cele ale algoritmilor standard. Se testeaza care este cel
mai bun algoritm pentru o problema data.
Matricea de confuzie