Sunteți pe pagina 1din 19

UNIVERSITATEA TEHNIC GH.

ASACHI IAI
FACULTATEA DE AUTOMATIC I CALCULATOARE

Data Mining
Inteligen artificial
- referat -

Bli Rare, Hulea Mircea, Olariu Cristian

- 2002/2003 -

Data Mining este o tehnologie noua si puternica cu un mare potential in ajutorarea companiilor

de a se concentra asupra celor mai importante informatii din depozitul lor imens de date.
Data Mininga fost definite ca :
Analiza automata a unor seturi de date largi si complexe cu scopul de a descoperi tipare
semnificante sau tendinte care altfel ar trece neobservate.
Elementele cheie care fac din uneltele Data Mining o forma distincta de software sunt :
Analiza

automata

Data Mining automatizeaza procesul de cercetare amanuntita a datele din trecut cu


scopul de a descoperi noi informatii. Aceasta este cea mai importanta diferenta intre data mining
si statistica , unde , un model este divizat de un statistician pentru a trata o problema specifica de
analiza. Tot aceasta diferenta face distinctie intre data mining si sistemele experte , unde ,
modelul este construit de un inginer din reguli extrase din experienta si munca unui expert.
Fazele descoperirii automate , de asemenea , fac distictia de OLAP , intrebari simple si
instrumente de raport , care sunt folosite pentru verificarea ipotezelor formulate de utilizator. Data
Mining nu se bazeaza pe utilizator in definirea unei intrebari specifice , ci numai in formularea
unui obiectiv cum ar fi identificarea revendicarilor frauduloase.
Seturi

de date largi sau complexe

Una din atractiile data mining este aceea ca face posibila analiza unor seturi de date foarte
largi intr-o perioada rezonabila de timp. Data Mining este de asemenea convenabila pentru
problemele complexe care implica grupari de date relativ mici dar in care sunt multe campuri sau
variabile de analizat. Oricum , pentru problemele simple si relativ mici , de analiza a datelor , pot
exista solutii mai simple , mai ieftine sau mai eficiente.

Descoperirea de tipare semnificante sau tendinte care altfel ar trece


neobservate

Obiectivul in data mining este de a descoperi relatii intre date ce ar putea oferi intelesuri
utile.
Instrumentele data mining pot scana bazele de date si pot identifica tipare , ascunse
anterior , intr-un singur pas. Un exemplu , al descoperirii de tipar , este analiza datelor vanzarii cu
amanuntul , pentru identificarea asa-ziselor produse fara legatura , care sunt adesea vandute
impreuna. Alte probleme de descoperire a unui pattern(tipar) includ detectarea tranzactiilor
frauduloase cu carti de credit , scaderea performantelor intr-o retea si identificarea datelor
anormale care pot fi erori de introducere a datelor. Ultima semnificatie acestor tipare va fi evaluata
de un expert in domeniu un manager de marketing sau un administrator de retea deci
rezultatele trebuie sa se afle intr-o forma in care expertii sa o poata intelege.
Instrumentele Data Mining , pot deasemenea automatiza procesul de gasire a informatiilor
predictive in baze de date mari. Intrebari care in mod normal necesitau analize vaste , isi pot gasi
acum raspunsul , rapid , din date. Un exemplu tipic de problema predictiva este cea a descoperii
nivelului sectorului de piata tintit. Data Mining foloseste datele din ultimele oferte postale
promotionale pentru a identifica tintele cele mai probabile ce pot maximiza profitul , la
urmatoarele oferte . Alte probleme predictive includ prevenirea falimentului sau a altor forme ale
acestuia si identificarea segmentelor de populatie care sa reactioneze in mod similar la diverse
evenimente.

Tehnicile data mining pot renunta la beneficiile automatizarii platformelor sofware si


hardware existente pentru a spori valoarea resurselor informationale existente , si pot fi
implementate pe produse si sisteme noi odata ce aceste sunt disponibile on-line. Cand , aceste
tehnici , sunt implementate pe sisteme de procesare client/server sau paralele de mare performanta
, pot analiza baze de date masive si pot da raspunsuri la intrebari cum ar fi : Care clienti sunt mai
pasibili sa raspunda la viitoarea mea oferta postala promotionala , si de ce?.
Tehnologia Data Mining este pregatita pentru aplicatii deoarece ea este sustinuta de 3
tehnologii care acum sunt suficient de dezvoltate , cum ar fi :
1. Colectii de date masive
2. Computere multi-procesor puternice
3. Algoritmi de cautare a datelor
Bazele de date comerciale se dezvolta ajungand la niveluri fara precedent , in special in
sectorul cu amanuntul. Nevoia continua de motoare computationale imbunatatite , poate acum fi
satisfacuta printr-o maniera eficienta de cost , cu tehnologia multi-procesoare paralele. Algoritmii
de data mining incorporeaza tehnici care au existat de cel putin 10 ani , dar numai recent au fost
implementati ca instrumente dezvoltate , sigure , usor de inteles , care in mod consistent folosesc
metode statistice mai vechi.
Componentele principale ale tehnologiei data mining s-au aflat sub dezvoltare de decenii
, in domenii de cercetare ca statistica , inteligenta artificiala si invatarea masinilor inteligente. In
prezent , dezvoltarea acestor tehnologii in concordanta cu motoarele de baze de date relationale de
inalta performanta si vastele eforturile de integrare a datelor , fac ca acestea sa fie foarte practice
pentru domeniile de depozitare a datelor.
Cheia intelegerii diferitelor fatete ale data mining este distingerea intre aplicatiile ,
operatiile , tehnicile si algoritmii data mining.

Aplicatii

Operatii

Tehnici

Piata bazelor de date


Clasificarea clientilor
Retinerea clientilor
Detectia fraudei
Verificarea creditului
Analiza site-urilor web
Clasificare si predictie
Clustering
Analiza asocierilor
Prevederea
Retele neuronale
Arbori de decizie
Algoritmi vecin apropiat
Bayesian naiv
Analiza de cluster

Aplicatii
O aplicatie data mining este o implementare a tehnologiei data mining ce rezolva un task
specific sau o problema de cercetare. Exemple ale ariilor de aplicatie includ :
companie farmaceutica isi poate analiza puterea de vanzare si rezultatele , din perioada recenta
, pentru a imbunatati obiectivele medicilor sai si pentru a determina ce activitati de piata vor
avea cel mai mare impact in urmatoarele luni. Datele trebuie sa includa activitatea de piata a

competitiei , dar si informatii despre sistemul de ingrijire a sanatatii local. Rezultatele pot fi
distribuite departamentului de vanzari printr-o retea WAN ( wide-area network) , ceea ce va
determina ca reprezentatii departamentului sa revizuiasca recomandarile din perseptiva
atributelor cheie din procesul de decizie. Analizele continue si dinamice a datelor depozitate ,
permit ca cele mai bune proceduri sa fie aplicate in situatiile de vanzari specifice.

companie de carti de credit isi poate controla vastul depozit de date ce cuprind tranzactii ale
clientilor pentru a identifica clientii care ar putea fi cei mai interesati de achizitionarea unui
nou produs credit. Folosind un mic test prin posta , pot fi identificate atributele clientilor care
denota interes pentru noul produs. Proiecte recente au indicat o scadere a costurilor de 20 ori
pentru campaniile postale.

companie diversificata de transport cu o mare putere de vanzare poate aplica data mining
pentru a identifica cele mai bune planuri de viitor pentru serviciile sale. Folosind data mining
pentru a analiza experienta propriilor clienti , aceasta companie poate construi o segmentare
unica identificand atributele prospectelor de mare valoare. Aplicarea acestei segmentari unei
baze de date a unei afaceri generale , cum ar fi cele oferite de Dun&Bradstreet , poate produce
o lista a prospectelor cu prioritatile , dupa regiune.

mare companie de bunuri de consum poate aplica data mining pentru a-si imbunatati
procesul de vanzare cu amanuntul. Datele din panourile de consum , expedieri , si activitatea
competitiei pot fi folosite pentru intelegerea motivelor schimbarii marcilor si a stocurilor. Prin
intermediul acestei analize , fabricantul poate alege ce strategie promotionala se incadreaza cel
mai bine in profilul segmentului de clienti tinta.

Operatii
O aplicatie care foloseste tehnologia data minig va implementa una sau mai multe
operatii data mining (de multe ori numite task-uri). Fiecare operatie reflecta o modalitate diferita
de distingere a tiparelor sau a orientarilor intr-un set complex de date.

Clasificarea si predictia
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale data
mining. Este o operatie care ajuta organizatiile sa descopere anumite tipare in banci de date largi
si complexe cu scopul de a rezolva probleme specifice de afaceri.
Clasificarea este un proces de subdivizare a unui set de date cu referinta la un numar de
specific de rezultate. De exemplu , daca vrem sa clasificam clientii in 2 categorii : mari si mici ,
facem referinta la ricul afacerii pentru fiecare. Categoria sau clasa in care este plasat fiecare client
, este rezultatul clasificarii noastre.
O metoda neprelucrata ar fi sa clasificam clientii dupa venitul lor ce se incadreaza
deasupra sau dedesubtul unui prag. O abordare mult mai subtila ar fi aceea de a incerca sa gasim o
relatie lineara intre 2 factori diferiti , cum ar fi venitul si varsta , pentru a diviza setul de date in
doua grupari. Problemele de clasificare ale lumii reale , de obicei , implica mult mai multe
dimensiuni si prin urmare necesita o delimitare intre clase diferite , mult mai complexa.
Un exemplu de clasificare : O organizatie de servicii comerciale doreste sa identifice acei clienti
care ar putea fi interesati de o noua oportunitate de investitie. In trecut a mai lansat pe piata un
astfel de produs si detine date ce arata care din clintii sai au raspuns la oferta precedenta. Scopul

este de a intelege ce factori identifica pe clientii care au raspuns pozitiv la oferta , pentru ca efortul
depus la marketing si la vanzari sa fie concentrat mai eficient.
Exista , in inregistrarea clientilor , un camp care este setat ca fiind true sau false in
functie de raspunsul clientului la oferta. Campul este denumit camp tinta sau
variabila dependenta pentru clasificare. Scopul este de a analiza in ce mod alte atribute ale
clientilor ( cum ar fi nivelul venitului , tipul job-ului , varsta , sexul , starea civila , vechimea
clientului , si alte tipuri de investitii sau produse cumparate ) influenteaza clasa din care fac parte (
clasa indicata de campul tinta). Aceasta informatie va fi stocata in alte campuri din inregistrarea
clintului. Campurile distincte incluse in analiza sunt denumite campuri sau variabile independente
sau predictorii.
Tehnici de clasificare : Modul in care instrumentele data mining analizeaza datele , si tipul de
informatie pe care il ofera , depinde de tehnicile pe care le foloseste. Cele mai comune tehnici ale
clasificarii sunt : arborii de decizie si retelele neurale. Daca este folosit un arbore de decizie vom
avea un set de conditii ramificate care impart cu succes clientii in grupuri , definite de valorile din
variabilele independente. Scopul este de a putea produce un set de reguli sau un model de un
anumit fel , care poate identifica un procent ridicat de corespondenti. O conditie a arborelui de
decizie poate fi formulata in felul urmator : clientii care sunt de sex masculin , sunt casatoriti , au
venituri peste 50.000 $ si care sunt proprietari de locuinta , raspund ofertei noastre. Conditia va
selecta un procent mult mai ridicat de clienti decat daca se aplica o selectie aleatoare a clientilor.
In contrast , o retea neuronala identifica in ce clasa apartine un client , dar nu ne poate spune
de ce. Factorii care determina clasificarea nu sunt disponibili pentru analiza , dar raman impliciti in
retea. Un alt set de tehnici utilizate pentru clasificare sunt algoritmii celui mai apropiat vecin ( knearest neighbour algorithms ).
Intelegerea si predictia : Tehnici sofisticate de clasificare ne ajuta sa descoperim tipare noi in
seturi de date largi si complexe. Clasificarea este , prin urmare , un puternic ajutor in intelegerea
unei probleme particulare , chiar daca acesta este ratele raspunsurilor la o campanie publicitara
postala , sau influenta a diversi factori la probabilitatea ca un pacient sa se insanatoseasca de la
cancer.
In unele imprejurari , o intelegere imbunatatita este suficienta. Aceasta poate sugera initiative
noi si poate procura informatii care imbunatatesc luarea deciziilor in viitor. Oricum , in multe
cazuri motivul dezvoltarii unui model de clasificare precisa este de a imbunatati capabilitatea de
predictie.
De exemplu , stim ca , in trecut , 60% din clientii care sunt de sex masculin , sunt casatoriti ,
si au venituri peste 60.000$ au raspuns la promotie ( comparativ cu numai 3% din toti clientii
vizati ). Prin urmare , exista o sansa mai mare ca sansa medie , ca noi clienti ce se incadreaza in
profil , sa fie de asemenea interesati de produsul nostru. In practica , data mining poate descoperi
relatii mult mai complexe ce implica numeroase variabile predictor , oferind astfel o segmentare
mult mai rafinata a clientilor.
Se spune ca un model de clasificare ar trebui sa fie realizat dupa date istorice , pentru care
se cunoaste rezultatul pentru fiecare inregistrare. Acesta este apoi aplicat unui nou set de date
neinregistrate , cu scopul de a prezice rezultatul pentru fiecare inregistrare.
Exista diferente importante intre a clasifica date cu scopul de a intelege comportamentul
clientilor existenti si a folosi acea clasificare pentru a prezice comportamentul viitor. Pentru seturi
de date din trecut , este adesea posibil sa se produca un set de reguli sau o functie matematica care
sa clasifice cu precizie fiecare inregistrare. De exemplu , daca continuati sa va perfectionati
regulile , o sa ajungeti la o regula , pentru fiecare individ , de forma urmatoare : 100% dintre
clientii numiti Smith care locuiesc pe strada Arcada 28 au raspuns la oferta noastra. O asemenea

regula ne ajuta foarte putin in clasificarea unui nou client. In acest caz , se spune ca modelul este
supra-incarcat pentru setul de date.
Construirea unui model predictiv bun , implica ocolirea supra-incarcarii prin testarea si
armonizarea modelului , pentru a se asigura faptul ca poate fi generalizat noilor date.

Clustering
Clustering-ul este o operatie necontrolata. Este folosita acolo unde se doreste a se gasi
grupuri de inregistrari similare in datele noastre , fara nici o alta preconditie pe care o implica acea
asemanare. Clustering-ul este folosit pentru identificarea grupurilor de interes dintr-o baza de date
a clientilor , care nu au mai fost recunoscute anterior. De exemplu , poate fi utilizata pentru a
identifica similaritati in utilizarea telefonului clientilor , cu scopul de a inventa si a vinde noi
servicii telefonice.
Clustering-ul este obtinut , de obicei , prin utilizarea metodelor statistice , cum ar fi
algoritmul de inteles-k ( k-means algorithm) , sau o forma speciala a retelei neuronale numita
harta retea Kohonen. Oricare ar fi metoda utilizata , operatia de baza este aceeasi. Fiecare
inregistrare este comparata cu un set de cluster-e existente , care sunt definite de centrul lor. O
inregistrare este atribuita cluster-ului de care este cel mai aproape , si acesta , in schimb , schimba
valoarea care defineste cluster-ul. Sunt facuti mai multi pasi pana cand un set de date sa-si
reatribuie inregistrarile si sa-si modifice centrii cluster-ilor , pana la gasirea solutiei optime.
De exemplu , cautand cluster-e printre cumparatorii din supermarket , ar putea fi nevoie de
analiza mai multor factori , printre care numarul de vizite lunare , totalul cheltuielilor la o vizita ,
cheltuieli pe categorii de produse , timpul vizitei si metoda de plata.
Clustering-ul este adesea interpretata ca un exercitiu de explorare inainte de continua in
cautarea datelor cu tehnica clasificarii. Din acest motiv , o buna cunoastere vizuala este un ajutor
in plus pentru cluster-ing : te face sa cunosti lucrul cu cluster-e , cu scopul de a recunoaste daca
cluster-ele identificate au sens si daca te ajuta in contextul afacerii.

Analiza asocierii si analiza secventiala


Analiza asocierii este o forma necontrolata a data mining care cauta legaturi intre
inregistrarile dintr-un set de date. Analiza asocierii este cateodata definita ca analiza cosului de
consum , care este cea mai folosita aplicatie a sa. Scopul este de a descoperi , de exemplu , ce
articol este cel mai des cumparat in acelasi timp , pentru a ajuta comerciantii cu amanuntul sa
organizeze programe stimulente si sa-si aranjeze magazinele cat mai eficient.
Sa consideram urmatorul exemplu cu berea si taria :
500.000 tranzactii
20.000 tranzactii contin tarie (4%)
30.000 tranzactii contin bere (6%)
10.000 tranzactii contin si bere si tarie (2%)
Caracterul general ( Support ) masoara cat de des articolele apar impreuna , sub forma unui
procent din totalul tranzactiilor. In acest exemplu , berea si taria apar impreuna 2% din total
(10.000/500.000).
Increderea sau predictibilitatea (Confidence) masoara cat de mult depinde un articol de altul.
Deoarece 20.000 tranzactii se refera la tarie si 10.000 la bere , cand oamenii cumpara tarie , in 50%
din cazuri cumpara si bere. Increderea pentru urmatoarea regula este 50% : Cand oamenii
cumpara tarie , cumpara de asemenea si bere in 50% din cazuri. Inversare regulii , enuntata

astfel : Cand oamenii cumpara bere , cumpara deasemenea si tarie in 1/3 din cazuri , are o
incredere de 33,33% (calculata ca 10.000/30.000).
Remarcati ca cele doua reguli au acelasi suport ( 2% calculat anterior ). Suportul nu este
dependent de directia (sau implementarea) regulii; este dependent de setul de componente din
regula.
Daca nu cunoastem nimic despre ce altceva a mai fost cumparat , putem face urmatoarea
afirmatie despre datele disponibile : Oamenii cumpara tarie 4% din timp. Oamenii cumpara bere
6% din timp. Aceste numere : 4% si 6% sunt numite increderea asteptata de a cumpara tarie sau
bere , indiferent de celelalte cumparaturi.
Diferenta de nivel (Lift) masoara raportul dintre increderea unei reguli si increderea asteptata ca
al doilea produs sa fie cumparat. Lift este o masura a fortei unui efect. In exemplul nostru ,
increderea in regula de cumparare tarie-bere este 50% , in timp ce increderea asteptata este 6% , ca
un client aleator va cumpara bere. Deci , diferenta de nivel oferita de regula tarie-bere este 8.33
(=50% / 60%).
Regula tarie-bere ar fi putut fi exprimata in termenii Lift astfel: Oamenii care cumpara
tarie sunt de 8.33 ori mai tentati sa cumpere si bere.
Interactiunea dintre tarie si bere este foarte puternica. Un obiectiv cheie al unei asociatii sau a
unui exercitiu data mining este de a gasi reguli care au o diferenta de nivel substantiala , ca
aceasta.
Chiar daca regulile cu incredere ridicata si factori suport sunt importante , cele cu nivele mai
scazute pot descoperi tipare mai putin evidente care descopera noi oportunitati de marketing.
O necesitate cheie pentru analiza asociativa o reprezinta capacitatea analizarii unor baze de date
foarte mari. Numerele implicate pot fi descurajatoare: marii vazatori cu amanuntul monitorizeaza
peste 100000 de linii de productie si efectueaza milioane de tranzactii pe saptamana.
Analiza asociativa nu se limiteaza numai la aplicatiile pentru vanzari cu amanuntul. De
exemplu,o companie de asigurari, o poate folosi pentru a vedea legaturile dintre cerintele pentru
asigurare de sanatate in diferite conditii. Se poate folosi de asemenea analiza secventiala pentru a
urmari, de-a lungul timpului, relatiile dintre cerinte.
Analiza secventiala, uneori, este considerata ca o operatie separata de tip data mining, cu
toate ca noi o grupam cu analiza asociativa. Analiza secventiala priveste mai mult legaturile dintre
cumparari, decat relatiile care exista intre articole intr-o singura tranzactie. Analiza secventiala in
mod normal furnizeaza reguli cum ar fi:
10 % dintre clientii care au cumparat un cort, au cumparat in timp de o luna un rucsac.

Prognoza
Clasificarea identifica un anume grup sau clasa din care provine articolul. O prezicere bazata
pe un model de clasificare va fi, prin urmare, o consecinta distincta, identificand un client ca fiind
raspunzator sau nu sau a unui pacient cu risc mai mare sau mai mic de a face infarct. Prognoza, pe
de alta parte, se preocupa cu prezicerea unor valori continui cum ar fi valorile impartasite, nivelul
stocului pietei, sau pretul din viitor a unei marfi cum ar fi petrolul.
Prognoza este adesea facuta cu functii de regresiune metode statistice pentru examinarea
relatiilor intre variabile pentru a prezice valoarea urmatoare. Pachetele statistice, cum sunt SAS si
SPSS, furnizeaza o larga varietate de astfel de functii care pot manipula probleme din ce in ce mai
complexe. Totusi, asemenea functii statistice de obicei necesita o cunostere semnificativa o
tehnicilor folosite si a conditiilor initiale care se aplica implementarii lor. Uneltele datei mining pot
de asemenea furniza functii pentru prognoza. In particular, retelele neuronale au fost folosite pe
arii mari pentru prognoza stocurilor de pe piata.
Se poate face o distinctie importanta intre doua tipuri diferite a problemei prognozei.

Problema mai simpla este prognozarea unei singure valoari continue bazate pe o serie de exemple
neordonate. De exemplu, prezicerea venitului unei persoane bazandu-ne pe detalii personale. Multe
dintre uneltele datei mining pot furniza aceasta forma de prezicere folosind, de exemplu, retelele
neuronale, sau in unele cazuri, arbori de decizie.
O problema mai complexa este prezicerea unei sau mai multor valori bazate pe tiparul
secvential, cum este nivelul stocului pietei pentru urmatoarele 30 de zile bazat pe cifrele din 6 luni
anterioare. Putine unelte ale datei mining suporta aceasta forma de prognoza. Suportul limitat
pentru prognoza pe timp indelungat reflecta in parte complexitatea algoritmica marita a problemei,
si partial nevoia de a pregati si a prezenta datele uneltei datei mining in mod corect si de a furniza
iesirea in formatul dorit. Unde se suporta aceasta prognoza, de obicei este nevoie de analisti pentru
a face mai multa preprocesare a datelor si postprocesare a rezultatelor.

Tehnici
O operatie de tip data mining se obtine folosind una dintr-un numar de tehnici sau metode.
Fiecare tehnica poate ea insasi sa fie implementata in diferite moduri, folosind diferiti algoritmi.

Algoritmi clustering
Analiza clusterilor reprezinta un proces de identificare a relatiilor care exista intre articole pe baza
asemanarilor si deosebirilor dintre ele. Spre deosebire de clasificare, clusteringul nu necesita
identificarea in prealabil a unei variabile tinta.Un algoritm verifica gruparile potentiale din
multimea datelor si incearca sa obtina o delimitare optima a articolelor bazandu-se pe acele

grupari.
Clusterele sunt de obicei plasate in jurul unui centru sau valoare medie. Modul initial de
definire si reglare a centrelor variaza de la algoritm la algoritm. O metoda este de a incepe cu o
multime aleatoare de centre, care sunt apoi reglate, adaugate si eliminate pe masura ce analiza
avanseaza.
Pentru a identifica articolele care provin dintr-un cluster, trebuie folosita un fel de masura
care uniformizeaza asemanarile dintre articolele dintr-un cluster si deosebirile fata de articolele din
alte clustere. Asemanarile si deosebirile dintre articole se masoara de obicei ca fiind distanta de la

ele la toate celelalte si la centrele clusterelor din spatiul multidimensional, unde fiecare dimensiune
reprezinta una dintre variabilele care sunt comparate.

Nearest Neighbour(cel mai apropiat vecin)


Cel mai apropiat vecin (mai precis k-cel mai apropiat vecin, de asemenea k-NN) reprezinta o
tehnica de prezicere potrivita pentru modelele de clasificare.
Spre deosebire de alti algoritmi predictivi, datele de antrenare nu sunt scanate sau procesate
pentru crearea unui model. In schimb, datele de antrenare reprezinta modelul. Cand se prezinta un
nou caz sau instanta modelului, algoritmul cauta in toate datele pentru a gasi o submultime de
cazuri care se aseamana cel mai mult el, si il foloseste pentru a prezice consecinta.
Exista doua drivere principale in algoritmul k-NN: numarul celor mai apropiate cazuri ce vor
fi folosite (k) si o metrica pentru a masura ce inseamna de fapt cel mai apropiat.
Fiecare folosire a algoritmului k-NN necesita ceea ce numim valoare pozitiva intreaga a lui
k. Aceasta determina cate cazuri deja existente au fost studiate cand se prezice un nou caz. K-NN
se refera la o familie de algoritmi pe care ii putem intelege ca 1-NN, 2-NN, 3-NN, si asa mai
departe. De exemplu 4-NN indica faptul ca algoritmul va folosi cele mai apropiate 4 cazuri pentru
prezicerea unui caz nou.
Dupa cum termenul cel mai apropiat implica, k-NN se bazeaza pe conceptul de distanta, si
acesta necesita o metrica pentru a determina distantele. Toate metricile trebuie sa aiba ca rezultat
un numar specific in ceea ce priveste comparatiile. Oricare metrica este folosita este atat arbitrara
cat si extrem de importanta. Este arbitrara pentru ca nu exista nici o definitie de control a ceea ce
reprezinta o metrica buna. Este importanta deoarece alegerea unei metrici afecteaza mult
prezicerile. Aceasta inseamna ca este nevoie de un expert in afaceri pentru a ajuta la determinarea
unei metrici bune. Pentru a clasifica un nou caz, algoritmul calculeaza distanta de la noul caz la
fiecare caz (linie) din datele de antrenare. Pentru noul caz se prezice sa aiba aceeasi consecinta ca
si consecinta predominanta din cazurile k apropiate din datele de antrenare.

Un exemplu de risc pentru credit:


Se considera o banca ce cauta sa minimizeze lipsurile de la imprumuturi. Ofiterii de la
imprumuturi trebuie sa fie in masua sa identifice potentialele riscuri pentru credit din timpul
ciclului de aprobare a imprumutului. Problema este una de clasificare simpla: a prezice daca un
solicitant prezinta sau nu un risc mare sau mic pentru credit. Urmatorul tabel prezinta multimea de
date de antrenare pentru aceasta problema. Pentru simplitate dimensiunea a fost limitata la 5
inregistrari o multime foarte mica de date.

Aceasta multime de date contine informatii despre oameni carora institutia le-a imprumutat
bani. Cel care i-a imprumutat a determinat daca fiecare solicitant a prezentat un risc mare sau mic
pentru credit. Deoarece Riscul este ceea ce noi vrem sa prezicem , el reprezinta coloana

dependenta, care este de asemenea numita variabila tinta. Celelalte coloane folosite pentru a
construi modelul sunt cunoscute ca fiind coloane independente. In acest exemplu ei includ nivel de
datorie (Inalt sau scazut), nivelul venitului(inalt sau scazut), si starea civila(casatorit sau
necasatorit). Coloana Nume va fi ignorata deoarece este foarte putin probabil ca numele unei
persoane sa afecteze riscul sau pentru credit. In exemplul nostru, toate coloanele, cu exceptia
coloanei Nume, au doua valori posibile. Restrangerea la doua valori este numai pentru a pastra
exemplul simplu.
Vom folosi k=3 sau 3-NN. Pentru masurarea distantei noastre vom folosi o metrica simpla
care este calculata prin sumare de scorurile fiecarei coloane independente din cele trei, unde scorul
pentru o coloana este 0 daca cele doua instante sunt aceleasi si 1 daca sunt diferite.
Acum putem calcula distanta dintre Peter si Sue. Cele trei scoruri de pe coloana pentru Peter
si Sue sunt 1,0, si 0 deoarece ele au valori diferite numai in coloana Datorie. Distanta dintre Peter
si Sue suma acestor scoruri este egala cu 1. Daca cele doua cazuri au toate valori in comun,

distanta lor este zero.


Acest tabel insumeaza toate distantele dintre toate inregistrarile din multimea noastra de date
de antrenare. Observati ca aceasta matrice este simetrica; este nevoie numai numerele de sub(sau
deasupra) diagonalei cu zerouri. Totusi, prezentarea in acest mod face mai simpla observarea
toturor distantelor pentru orice caz la o singura privire.
Acum putem sa aplicam tehnica k-NN pentru a vedea cum clasifica datele noastre de
antrenare. Amintiti-va ca am ales k=3, asadar ne intereseaza cei mai apropiati trei vecini ai lui
Peter. Distantele din coloana 1 ii prezinta pe Peter, Sue, si Mary ca fiind cei mai apropiati trei
vecini ai lui Peter pentru ca ei au cele mai mici scoruri de distanta.
Dar cum poate Peter sa fie vecinul sau? Nu este cumva invalid, sa folosim informatiile pe
care le avem despre Peter pentru a prezice consecintele pentru Peter ? Ei bine intr-un fel este, dar
aceasta absolut nu difera de oricare alt model cand este testat cu datele de antrenare. Iata de ce este
nevoie sa folosim intotdeauna o multime diferita de date de antrenare pentru a valida un model.
Valorile Riscului pentru cei mai apropiati trei vecini ai lui Peter (Peter insusi, Sue si Mary)
sunt Mic, Mic si respectiv Mare. Riscul prezis pentru Peter reprezinta valoarea care este cea mai
frecventa printre cei k vecini, sau Mic, in acest caz.
Cine sunt cei mai apropiati trei vecini ai lui Sue? Cu siguranta insasi Sue, dar in ceea ce-i
priveste pe Peter, John si Fred, care sunt toti la aceeasi distanta (1) de Sue? Putem sa-i includem pe
toti trei, sau sa-I excludem pe toti trei cu un vot proportional(2/3 fiecare in acest caz). Decizia este
in intregime la latitudinea celor care implementeaza algoritmul. Pentru exemplul nostru, vom
folosi 2/3 voturi pentru fiecare, rezultand voturile Mic(Sue insasi), 2/3 Mic, 2/3 Mare si 2/3 Mare,
ajungand la un consens de Mic.
Urmatorul tabel enumereaza prezicerile de la algoritmul 3-NN. Precizia pentru 3-NN cu
multimea de antrenare este de 80 la suta. Rezultatele folosirii algoritmului 2-NN in acest caz vor fi
exact aceleasi.

Deoarece atat valoarea lui k cat si metrica distantei au un impact extraordinar asupra calitatii
modelului, este importan sa le alegem cu atentie.
Care este valoarea buna pentru k? Algoritmul 1-NN incearca sa gaseasca un caz in multimea
de antrenare care se potriveste cel mai bine cu cazul pe care incercam sa-l prezicem. Cand este
gasit, valoarea prezisa este admisa ca fiind consecinta cazului care se potriveste. Pentru 1-NN
precizia pentru multimea de antrenare va fi de 100 la suta dupa definitie. Totusi, 1-NN, datorita
faptului ca el cauta numai o cea mai buna potrivire, este extrem de sensbil la zgomot si nu va
reflecta niciodata nici un fel de tipar in date. Multi algoritmi comerciali incep cu 10 valoare default
a lui k. Cea mai buna valoare pentru k va necesita cateva experimente cu datele la mana,
comparand rezultatele pentru valori diferite a lui k in contrast cu o multime de date de test.
k-NN nu face o trecere prin date pentru invatare. Din nefericire, acest lucru nu face k-NN-ul
un algoritm in mod special eficient, in particular cu multimi mari de date de antrenare. Acest lucru
se intampla datorita faptului ca procesarea este amanata pana cand se fac prezicerile. Apoi fiecare
caz nou care este prezis necesita o trecere completa prin datele de antrenare pentru a calcula
distanta dintre instanta tinta si fiecare instanta din multimea de antrenare. Algoritmul urmareste
cele mai apropiate k instante asa cum procedeaza cu toata multimea de antrenare, prezicand o
consecinta atunci cand trecerea se finalizeaza.
In timp ce tehnica celui mai apropiat vecin are un concept simplu, selectia lui k si alegerea
metricilor de distanta reprezinta provocari precise. Absenta oricarui proces real de antrenare face
distinctie intre tehnica celui mai apropiat vecin si alte metode predictive. Atat k cat si metricile de
distantatrebuiesc setate si ambele necesita o anumita experimentare. Constructorul modelului va
trebui sa construiasca multiple modele, validandu-l pe fiecare cu multimi de test independente
pentru a determina ce valori sunt potrivite.

Retele Neuronale
O diferenta cheie intre retelele neuronale si oricare alta tehnica este aceea ca retelele
neuronale opereaza numai direct pe numere. Rezulta ca orice date nenumerice din coloanele
independente sau independente trebuiesc convertite in numere inainte sa putem folosi datele intr-o
retea neuronala.
Urmatorul tabel prezinta mostra noastra a datelor pentru riscul pentru credit cu toate
variabilele bivaloare transformate in valori de 0 si 1. Inalt din coloanele Datorie si Venit, Casatorit,
si Mic din coloana Riscau fost toate inlocuite de 1. Scazut din coloanele Datorie si Venit,
Necasatorit, Mare din coloana Risc au fost inlocuite de 0.Nu este necesara conversie coloanei
numepentru ca nu este folosita ca o coloana independenta sau dependenta.

Luati in considerare, mai intai, o retea neuronala antrenata care poate fi folosita la prezicerea
riscurilor mari si mici pentru problema noastra de clasificare ricul pentru credit. Aceasta retea
contine sase noduri, care au fost marcate cu A pana la F. Nodurile spre stanga (A, B si C) sunt
noduri de intrare si constituie nivelul de intrare. Nodurile de intrare corespund coloanelor cu
variabile independente in problema ricului pentru credit.(Datorie, Venit, si Stare civila)
Nodul spre dreapta (F) este nod iesire si formeaza nivelul de iesire. In acest caz exista numai
un singur nod de iesire, corepunzator coloanei Risc, coloana dependenta. Dar tehnicile retea
neuronala in general nu restrictioneaza numarul coloanelor de iesire. Faptului ca pot exista iesiri
multiple reprezentand multiple preziceri simultane este un mod prin care retelele neuronale difera
de multe alte tehnici de prezicere.

Cele doua noduri din mijloc (D si E) sunt noduri ascunse si constituie un singur nivel ascuns.
Numarul nodurilor ascunse si, din aceasta cauza, numarul nivelelor ascunse sunt setate la discretia
utilizatorului. Numarul nodurilor ascunse creste adesea cu numarul de intrari si cu complexitatea
problemei. Prea multe noduri ascunse poate duce la supraspecializare( unde reteaua a devenit atat
de specilizata incat se potriveste perfect cu multimea de antrenare dar este putin cam neajutorata

pentru cazuri noi), si prea putine noduri ascunse poate avea ca rezultat modele de joasa precizie.
Gasirea unui numar potrivit de noduri ascunse reprezinta o parte importanta a oricarui efort de data
mining cu retele neuronale. Numarul de noduri intrari, ascunse si iesiri este cunoscut ca topologia
retelei neuronale sau ca arhitectura retelei.
Diagrama prezinta ponderile pe sagetile dintre noduri. In mod normal, nu exista ponderi pe
sagetile care vin in nivelul intrare sau care ies din nivelul de iesire. Valorile celorlalte ponderi sunt
determinate in timpul procesului de antrenare si invatare a retelei neuronale. Observati ca
ponderile pot fi atat pozitive cat si negative. De obicei,algoritmii care folosesc o retea neuronala
restrang ponderile la un interval ingust cum ar fi intre plu si minus 1 sau intre plus si minus 10.Cu
toate ca ponderile sunt de obicei numere reale am folosit intregi pentru a simplifica calculele.
Inima unui algoritm bazat pe retele neuronale implica o serie de operatii matematice care
folosesc ponderile pentru a calcula o suma ponderata a intrarilor la fiecare nod. In plus, fiecare nod
are de asemenea o functie de comprimare care transforma suma ponderata a intrarilor intr-o
valoare de iesire. Pentru reteaua noastra neuronala vom folosi o foarte simpla functie de
comprimare:
Daca suma ponderata a intrarilor este mai mare decat 0, iesirea este 1, altfel iesirea este 0
Ecuatiile pentru valorile de iesire la nodurile D, E si F pot fi acum scrise dupa cum urmeaza:

Urmatorul tabel prezinta datele monstra, cu trei variabile independente (Datorii, Venit si
Stare Civila) transformate in numere, riscul actual si valorile calculate pentru nodurile D,E si F.
Valoarea de iesire pentru F(1 din prima coloana) reprezinta valoarea prognozata a riscului pentru
Peter. Ea este egala cu actuala valoare deci reteaua neuronala a facut o prezicere corecta in acest
caz. De fapt, reteaua noastra face prognoze corecte pentru toate cele 5 linii din multimea de
antrenare,dupa cum este prezentat in acest tabel:

Gasirea combinatiei optime a ponderilor este o importanta problema de cautare. Un numar de


tehnici de cautare au fost folosite pentru gasirea celei mai bune combinatii de ponderi. Cel mai

des utilizata este clasa de algoritmi numita gradient descent (reducere graduala). Un algoritm
gradient descent porneste cu o solutie, de obicei un set de ponderi care au fost generate aleator.
Apoi se prezinta retelei un caz din setul de invatare. Reteaua (initial cu ponderi aleatoare) este
folosita pentru a calcula un rezultat, acesta este comparat cu rezultatul dorit si diferenta, numita
eroare este la randul ei calculata. Apoi ponderile sunt modificate usor astfel incat daca se prezinta
acelasi caz din nou, eroarea sa fie mai mica. Aceasta reducere graduala a erorii a dat numele
clasei de algoritmi.
Cel mai cunoscut algoritm gradient descent se numeste back-propagation (propagare inapoi).
Acesta efectueaza prelucrarea invers, pornind de la nodul de iesire si calculand pe rand contributia
fiecarui nod precedent la eroare. Astfel este posibila calcularea nu numai a contributiei fiecarui
nod, ci si a fiecarei ponderi la eroare. In acest mod, eroarea este propagata inapoi prin toata
reteaua, avand ca rezultat ajustari asupra fiecarei ponderi care a contribuit la eroare.
Ciclul se repeta pentru fiecare caz din setul de invatare, efectuandu-se modificari usoare ale
ponderilor dupa fiecare caz prelucrat. Cand intregul set de invatare a fost procesat, va fi procesat
din nou. Fiecare parcurgere a intregului set se numeste epoca. Este posibil ca antrenarea retelei sa
necesite sute sau chiar mii de epoci. In acest mod, chiar daca prelucrarea unui caz conduce la
modificari minore ale ponderilor, la sfarsit modificarile sunt semnificative datorita efectului de
acumulare.
Algoritmii retelelor neuronale utilizeaza diferite reguli de oprire pentru a controla sfarsitul
procesului de antrenare a retelei. Exemple de reguli uzual intalnite :
Oprire dupa un numar specificat de epoci
Oprire cand eroarea scade sub o valoare predefinita
Oprire cand eroarea nu a mai fost redusa dupa un anumit numar de epoci

Nave-Bayes
Nave-Bayes este o tehnica de clasificare care este si predictiva si descriptiva. Ea analizeaza
relatia dintre fiecare variabila independenta si variabila dependenta pentru a deriva o probabilitate
conditionala pentru fiecare relatie.
Nave-Bayes necesita o singura parcurgere a setului de invatare pentru a genera un model de
clasificare, ceea ce o face sa fie cea mai eficienta tehnica de data-mining. Insa Nave-Bayes nu
opereaza cu date continue, asa ca orice variabila, independenta sau dependenta, care contine
valori continue trebuie sa fie incapsulata. De exemplu, daca una din variabilele independente este
varsta, valorile trebuie transformate din valori specificate exact in categorii cum ar fi : pana in 20
de ani, intre 21 si 30 de ani, peste 60 de ani, etc.
Folosirea tehnicii Nave-Bayes de clasificare este un proces destul de simplu. In timpul
antrenarii, probabilitatea fiecarui rezultat (valoare a variabilei dependente) este calculata prin
numararea aparitiilor acelui rezultat in setul de date pentru antrenare. Aceasta se numeste
probabilitate precedenta. De exemplu, daca Good Risk apare de 2 ori cand sunt analizate 5 cazuri,
atunci probabilitatea precedenta pentru Good Risk este 0.4. Putem gandi probabilitatea precedenta
in urmatorul mod: Daca nu stiu nimic despre o persoana care solicita un imprumut, exista o
probabilitate de 0.4 ca persoana sa reprezinte Good Risk. Pe langa probabilitatile precedente,
Nave-Bayes calculeaza si frecventa aparitiei fiecarei variabile independente in combinatie cu
fiecare variabila (rezultat) dependenta. Aceste frecvente sunt utilizate pentru a calcula
probabilitatile conditionale care sunt combinate cu probabilitatea precedenta pentru a face
predictiile.
Sa consideram problema riscului de credit a carei scop este sa prezica daca solicitantul unui
imprumut va fi Good sau Poor Risk. In exemplul nostru, toate coloanele atat cele independente,
cat si cele dependente, sunt pe categorii, asa ca nu mai este necesara incapsularea unor valori in
categorii prin gruparea lor.

Din datele existente, vom categorisi frecventa de aparitie pentru fiecare Risk (Good sau
Poor) dupa fiecare valoare din coloanele cu variabile independente. De exemplu, in linia 3 avem
2 cazuri in care Income este High si Risk este Good si un caz in care Income este High si Risk
este Poor.

Putem calcula usor likelihood (probabilitatea) ca una din variabilele independente sa aiba o
anumita valoare, cunoscandu-se nivelul de risc (Risk) folosind frecventa de aparitie (Count) si
impartind la Total by Risk (pe ultima linie). De exemplu, probabilitatea ca Good Risk sa aiba
High Income este 1.00 (vezi linia 3), deoarece ambele cazuri cu Good Risk au High Income. In
acelasi mod, probabilitatea condiotionala ca Poor Risk sa aiba Low Income este 0.67, deoarece in
2 cazuri din 3 Poor Risk are Low Income (linia 4).
Ultima linie este folosita si pentru a calcula probabilitatile precedente pentru Good si Poor
Risk. Conform datelor din tabel, probabilitatea precedenta pentru Good este 0.40 (2 din 5 cazuri)
iar prioritatea precedenta pentru Poor este 0.60 (3 din 5 cazuri).
Daca se da un anumit caz, putem calcula un scor, legat de probabilitatea posterioara, pentru
ambele valori ale Risk prin inmultirea probabilitatii precedente cu toate probabilitatile
(likelihood) din tabelul anterior pentru variabilele independente (Teorema lui Bayes). Cel mai
mare scor devine valoarea prezisa.

De exemplu, prima linie (pentru Peter) in setul de antrenare are High Debt, High Income si
Married este Yes. In primul tabel, probabilitatile (likelihood) asociate acestor valori pt. Good Risk
sunt 0.5, 1.0 si 1.0 respectiv. Produsul acestor valori si al probabilitatii precedente pentru Good
este 0.20 (0.5x1x1x0.4). Pentru Poor Risk probabilitatile sunt 0.33, 0.33 si 0.67. Cu o
probabilitate precedenta pentru Poor Risk de 0.60, scorul pentru Poor este 0.044
(0.33x0.33x0.67x0.6). Deoarece scorul pentru Good este mai mare, prezicem ca Peter va avea
Good Risk.

Al doilea tabel prezinta riscul actual, scorurile pentru Good Risk si Poor Risk si riscul prezis
pentru toate cazurile. Cu toate rezultatele prezise corect, algoritmul are o acuratete de 100% pe
acest set. Desi acesta este un semn bun, trebuie sa validam acest model prin incercarea prezicerii
rezultatelor pentru date test separate, dar nu efectua acest pas in lucrarea de fata.
Scorurile calculate pot fi usor convertite in probabilitati posterioare reale prin impartirea
fiecarui scor la suma tuturor scorurilor pentru acel caz. De exemplu, probabilitatea ca Peter sa fie
Good Risk este cca 82% (0.2 impartit la 0.244 = 0.2+0.044).
Observam ca nu este nevoie sa cunoastem valorile pentru toate variabilele independente
pentru a face o prezicere. De fapt, chiar daca nu cunoastem nici una din valori, tot putem face o
prezicere folosind doar probabilitatea precedenta. Daca cunoastem doar valoarea pentru Income,
putem folosi probabilitatile conditionale asociate cu Income pentru a modifica probabilitatile
posterioare si sa facem o prezicere. Aceasta capacitate de a face preziceri folosind informatii
partiale constituie un important avantaj al tehnicii Nave-Bayes.
Folosirea teoremei lui Bayes in calcularea scorurilor in acest mod este valabila doar daca
presupunem independenta statistica intre variabilele independente, cum ar fi Debt si Income (de
aici si termenul nave). In ciuda faptului ca de obicei aceasta presupunere nu e corecta,
algoritmul are rezultate bune in practica.

Arbori de decizie
Arborii de decizie reprezinta una din cele mai folosite tehnici de data-mining. Sunt usor de
folosit, rezultatele sunt inteligibile de catre un utilizator obisnuit, se adreseaza unei game largi de
probleme de clasificare si sunt eficienti in prelucrarea unui volum mare de date.
Un algoritm pe baza de arbori de decizie imparte setul de date cu scopul de a construi un
model care clasifica fiecare inregistrare in termeni de camp tinta sau variabila. Un exemplu este
un arbore de decizie care imparte un set de date dupa cum clientii au cumparat sau nu un anumit
produs.
Cei mai utilizati algoritmi pe baza de arbori de decizie sunt CHAID, CART si C4.5. CHAID
(Chi-square automatic interaction detection) and CART (Classification And Regression Trees) au
fost dezvoltati de statisticieni. CHAID poate produce un arbore cu multiple sub-noduri pentru
fiecare impartire. CART necesita mai putina pregatire a datelor decat CHAID, dar intotdeauna
imparte setul de date in doar 2 parti. C4.5 vine din universul masinilor inteligente capabile de
invatare si este bazat pe teoria informatiei.
Pentru a genera un arbore de decizie dintr-un set de date de antrenare este necesar sa
impartim datele progresiv in subseturi mai mici. Fiecare iteratie ia in considerare datele dintr-un
singur nod. Prima iteratie prelucreaza nodul radacina, care contine toate datele. Iteratiile
urmatoare lucreaza pe noduri derivate care vor contine sub-seturi de date.
In fiecare iteratie este necesar sa alegem acea variabila independenta care imparte cel mai
eficient datele. Aceasta inseamna ca subseturile produse trebuie sa fie cat mai omogene in
raport cu variabila dependenta.
Vom folosi un algoritm mai simplu, ID3 (un predecesor al lui C4.5) pentru a produce un
arbore de decizie din setul nostru de date pentru riscul de credit. Algoritmul ID3 utilizeaza
conceptul de entropie din teoria informatiei pentru a masura incertitudinea dintru-un set, in raport
variabila dependenta. Entropia se masoara pe o scara de la 0 la 1. Daca un set este impartit 50-50
intre Good si Poor Risk, am fi in totalitate nesiguri daca o persoana aleasa la intamplare din set ar
avea Good sau Poor Risk. In acest caz, entropia este 1. Daca tot setul ar avea Good Risk, n-ar
exista nici o indoiala si entropia este 0.

Vom incepe prin a masura entropia intregului set de antrenare. Gasim proportia p1 de Good
Risk si proportia p2 de Poor Risk in set. Formula lui Shannon pentru entropie este :

Unde consideram
daca p=0, si i parcurge subseturile de date.
Exista 2 Good Risk si 3 Poor Risk in setul complet de antrenare, si, prin urmare :

Apoi vom lua in considerare toate posibilitatile de a imparti setul - dupa Debt, Income,
Married si vom calcula entropia celor doua subseturi pentru fiecare caz.
Mai intai dupa Debt:

Subsetul cu High Debt are un Good Risk si un Bad Risk. Prin urmare :

Subsetul cu Low Debt are un Good Risk si doua Poor Risk, deci

Deoarece exista 2 High Debt si 3 Low Debt, entropia medie (sau asteptata) pentru cele 2 subseturi
rezultate in urma impartirii dupa Debt este

Cu alte cuvinte, impartind dupa Debt reduce entropia cu :


Calcule similare arata ca impartind setul de antrenare dupa Income reduce entropia cu 0.41998, in
vreme ce impartirea dupa Married reduce entropia cu 0.17095.
Deci impartirea dupa Income este cea mai eficienta modalitate de a reduce entropia in setul
de date de antrenare si, prin urmare, produce 2 subseturi care sunt cele mai apropiate ca
omogenitate.

Al doilea din aceste subseturi (Low Income) are numai Poor Risk. Intrucat este in totalitate
omogen, entropia sa este 0 si nu mai este nimic de prelucrat pe acea ramura. Dar prima ramura
contine atat Good cat si Poor Risk. Are o entropie de 0.91830 si trebuie sa fie impartit dupa o a
doua variabila independenta. Ramane sa decidem daca aceasta este Debt sau Married.
Mai intai sa consideram impartirea dupa Debt.

Subsetul cu High Debt are un Good Risk si nici un Poor Risk. Este perfect omogen si
are entropia 0.
Subsetul cu Low Debt are un Good Risk si un Poor Risk. Este impartit in parti egale si
are entropia 1.
Intrucat exista o High Debt si doua Low Debts, entropia medie pentru cele 2 subseturi
este:
Cu alte cuvinte, impartirea subsetului cu High Income dupa Debt reduce entropia
setului cu:
Insa daca impartim dupa Married, obtinem doua subseturi complet omogene si astfel
entropia e redusa la 0. De aceea vom alege impartirea dupa Married.

Nu mai este necesara nici o impartire si am obtinut un arbore de decizie care poate fi
folosit pentru analiza a noi cazuri. Putem exprima aceasta sub forma unui set de reguli :

S-ar putea să vă placă și