Documente Academic
Documente Profesional
Documente Cultură
2012
2 Tehnici Avansate de Data Mining
1. Introducere
Regresia Logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile independente xi
(categoriale, continue) i o variabil dependent (nominal, binar) y. O astfel de variabil
4 Tehnici Avansate de Data Mining
dependent apare, de regul, atunci cnd reprezint apartenena la dou clase, categorii
present/absent, da/nu, acceptat/respins, etc.
Ecuaia de regresie obinut, ofer informaii despre:
- importana variabilelor n diferenierea claselor;
- clasificarea unei observaii ntr-o clas;
Arborii de Decizie
Arborii de decizie reprezint un instrument puternic pentru clasificare i predicie
fiind reprezentaii de reguli.
Utilizarea arborilor de decizie ca instrumente data mining presupune:
- descrierea atributelor valoare ( un atribut valoare reprezint un obiect sau caz ce
poate fi exprimat n termenii unei colecii fixe de atribute);
- predefinirea claselor, respectiv a atributelor valoare int (o clas se constitue
dintr-o categorie n care se ncadreaz exemplele stabilite dinainte, implicit datele
supervizate);
- identificarea claselor discrete (un caz poate aparine sau nu unei clase particulare
i de aceea trebuie s existe mai multe cazuri dect clase);
- utilizarea unui volum semnificativ de date de antrenare (se folosesc de obicei sute
sau mii de cazuri de antrenare);
ntre principalele avantaje ale metodei arborilor de decizie pot fi menionate:
- arborii de decizie permit generarea de reguli uor interpretabile;
- arborii de decizie clasific fr a depune eforturi mari din punct de vedere al
calculelor;
- arborii de decizie permit utilizarea att a variabilelor categoriale ct i numerice;
- arborii de decizie ofer o imagine clar asupra cmpurilor care sunt cele mai
importante pentru predicie sau clasificare;
Pe de alt parte aceast metod prezin i anumite dezavantaje, cum ar fi:
- arborii de decizie sunt mai puin adecvai n cazul problemelor de estimare atunci
cnd scopul este reprezentat de predicia valorii unui atribut de tip numeric;
- arborii de decizie sunt supui erorilor n problemele de clasificare cu multe clase
i cu un numr relativ mic de example de antrenare;
- procesul de antrenare al arborilor de decizie poate fi dificil.
Baza de date conine 1.000 de nregistrri, din care 700 de nregistrri descriu clienii
buni-platnici iar 300 clienii ru-platnici. Setul de date cuprinde 21 de atribute din care 14
sunt de tipul Numerical iar 7 sunt de tipul String. Totodat setul de date conine 20 de
variabile independente (variabile de intrare) i o variabil dependent (variabil de ieire-
target).
Descrierea setului de date:
repairs
education
vacantion
retraining
business
others
AMOUNT - input interval Credit amount
< 100 DM = 1
SAVINGS input ordinal Savings account/bonds
100 500 DM = 2
500 1000 DM = 3
>= 1000 DM = 4
unknown/no savings
account = 5
unemployed = 1
EMPLOYED input ordinal Present employment
> 1 year = 2 since
1 4 years = 3
4 7 years = 4
>= 7 years = 5
INSTALLP - input ordinal Installment rate in
percentage of
disposable income
1 = male: divorced,
MARITAL input ordinal Personal status and
separated gender
2 = female: divorced,
separated, married
3 = male: single
4 = male: married,
widowed
5 = female: single
none
COAPP input nominal Other
co-applicant debtors/guarantors
guarantor
RESIDENT - input ordinal Date beginning
permanent residence
1 = real estate
PROPERTY input ordinal Property
2 = if not 1: building
society savings
agreement / life
insurance
3 = if not : car or other,
not in attribute 6
4 = unknown/no property
AGE - input interval Age in years
7 Tehnici Avansate de Data Mining
bank
OTHER input nominal Other installment plans
stores
none
rent
HOUSING input nominal Housing
own
for free
EXISTCR - input ordinal Number of existing
credits at this bank
1 = unemployed /
JOB input ordinal Job
unskilled nonresident
2 = unskilled resident
3 = skilled employee/
official
4 = management/ self-
employed/ highly
qualified employee/
oficer
DEPENDS - input binary Number of depends
none
TELEPHONE input binary Telephone
yes
yes
FOREIGN input binary Foreign worker
no
GOOD_BAD good target binary Good or bad credit
bad rating
Tabelul 2. Descrierea variabilelor folosite
Diagrama proiectului
Implementarea aplicaiei
8 Tehnici Avansate de Data Mining
Rndurile reprezint valorile int iar coloanele reprezin deciziile. n aceast matrice
se evideniaz faptul c este de cinci ori mai grav s acceptm un client ru-platnic dect a
respinge un client bun-platnic. Dac acceptm un client bun-platnic vom avea profit iar
pierderea va fi negativ. Dac respingem un client fie el bun sau ru platinic nu vom avea nici
profit i nici pierdere.
5. Se adaug nodul Data Partition i se stabilesc proprietile acestuia (metoda de
partiionare i procentele associate datelor de antrenare, validare i test).
Folosind acest nod putem transforma o variabil interval ntr-un grup de variabile.
Deoarece suntem interesai n aplicaia noastr s folosim un grup particular de vrst vom
creea un grup de variabile pentru variabila AGE, AGETransformBucket(4).
Rezultate:
Rezultate:
Se observ c eroarea medie optim a fost realizat la iteraia 43. Dup iteraia 43
apare o supraantrenare doar n ceea ce privete datele de validare.
9. Se adaug nodul Tree i i se stabilesc proprietile.
Rezultate:
14 Tehnici Avansate de Data Mining
Tabelul din colul din stnga sus rezum procesul de clasificare general. Cellalt
tabel afieaz valorile de antrenare i de validare pentru creterea complexitii arborelui.
NODE : 5 THEN
N : 66 NODE : 13
GOOD : 93.0% N : 225
BAD : 7.0% GOOD : 98.1%
BAD : 1.9%
IF other IS ONE OF: BANK STORES
AND checking IS ONE OF: 3 4 IF coapp EQUALS CO-APPLICANT
THEN AND employed IS ONE OF: 1 2
NODE : 6 AND other EQUALS NONE
N : 45 AND checking IS ONE OF: 3 4
GOOD : 91.1% THEN
BAD : 8.9% NODE : 18
N : 1
IF duration < 22.5 GOOD : 0.0%
AND savings IS ONE OF: 1 2 3 BAD : 100.0%
AND checking IS ONE OF: 1 2
THEN IF coapp EQUALS NONE
NODE : 8 AND employed IS ONE OF: 1 2
N : 134 AND other EQUALS NONE
GOOD : 87.1% AND checking IS ONE OF: 3 4
BAD : 12.9% THEN
NODE : 19
IF 22.5 <= duration N : 43
AND savings IS ONE OF: 1 2 3 GOOD : 93.7%
AND checking IS ONE OF: 1 2 BAD : 6.3%
THEN
NODE : 9
N : 85
GOOD : 69.2%
BAD : 30.8%
Tabelul 3. Rezultate reguli care stau la baza construirii arborelui
Scopul modelelor de predicie este de a fi aplicate pe un nou set de date care nu conin
o valoare target i de a clasifica solicitanii de credit, ca metoda am ales reelele neuronale.
11. Se adaug nodul Input Data Source (credit2.xls) i i se stabilesc proprietile (rol:
Score).
12. Se adaug nodul Score i I se stabilesc proprietile (SettingsApply training
data score code to score data set i Score codeAssessment).
13. Se adaug nodul Distribution Explorer i i se stabilesc proprietile.
Cnd marcm credit2.xls Enterprise Miner creeaz automat mai multe variabile
marcate cum ar fi valorile prezise, reziduri, clasificri. Dintre acestea cele mai importante
sunt : EL_GOOD_BAD (conine valorile pierderilor anticipate pentru luarea deciziei bune) i
D_GOOD_BAD (atribuie statutul acceptat sau respins solicitanilor din setul de date).
Rezultate:
Se observ c celor 75% din solicitani li se atribuie decizia accept iar celor 25% li se
atribuie decizia reject.
14. Se adaug nodul SAS Code.
Am utilizat nodul SAS Code pentru a creea un set de date ce conine doar clienii care
prezint un risc de credit bun (statut=accept).