Bine ați venit la Scribd!

Săriți peste schemele de tip carusel

Arbori de Decizie

Încărcat de

Mada Madutza

0% au considerat acest document util (0 voturi)

2 vizualizări15 pagini

Titlu original

5. Arbori de Decizie

Drepturi de autor

Formate disponibile

PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

Drepturi de autor:

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

2 vizualizări15 pagini

Arbori de Decizie

Încărcat de

Mada Madutza

Drepturi de autor:

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 15

Căutați în document

Arbori de decizie

Decision Trees (DT)

Ruxandra Stoean
rstoean@inf.ucv.ro
http://inf.ucv.ro/~rstoean
Bibliografie

 Leo Breiman, Jerome Friedman, Charles J. Stone, R.A.

Olshen, Classification and Regression Trees, Chapman and
Hall/CRC; 1 edition (January 1, 1984)

 Florin Gorunescu, Data Mining: Concepts, Models and

Techniques, Intelligent Systems Reference Library, Volume 12,
Springer, 2011

 Dianne Cook, Deborah F. Swayne, Graphics for Data Analysis.

Interactive and Dynamic With R and Ggobi, Springer, 2007
Introducere
 Tehnica foarte apreciata in ML:
 Posibilitate de vizualizare a modelului de clasificare a datelor
 Invatare white box, spre deosebire de masini cu suport
vectorial, retele neuronale (black box)
 Utilizarea datelor de orice tip

 Procedeul de discriminare a claselor problemei:

 Se partitioneaza recursiv datele de antrenament
 Procesul se opreste cand se obtin noduri terminale cu aceeasi
categorie
Inductia DT
 Constructia DT este un proces inductiv (decision tree
induction)

 Numerosi algoritmi:
 Hunt
 CART
 ID3
 C4.5
 etc.
Structura DT
 Fiecare nod intern exprima un test relativ la un atribut al
problemei care partitioneaza obiectele

 Fiecare arc semnifica partitia rezultata in urma aplicarii

testului ce corespunde acelui nod

 Nodurile terminale reprezinta clasa (dominanta intre clasele

problemei) ce a rezultat pe acea ramura.
Alegerea testului pentru un nod
 Masura eficientei partitionarii datelor in nodul curent pe baza
unei perechi (atribut, valoare) este data de trei criterii
clasice:
 Indexul Gini (Gini index) de partitionare care trebuie sa aiba
valoare minima
 Castigul de informatie (information gain) maxim
 Sau entropie minima
 Masura de clasificare gresita
 Eroarea minima a partionarii generate de nod
Alte aspecte
 Probabilitati prealabile (prior probabilities):
 Se poate specifica probabilitatea apartenentei unui obiect la o
clasa
 De obicei, acest parametru este proportional cu numarul de
obiecte din fiecare clasa
 Costuri de clasificare gresita (misclassification costs):
 Se poate specifica daca o clasa este mai important a se
determina mai precis decat alta
 De obicei, acest parametru este egal cu 1 – costuri egale pentru
toate clasele
Extragerea regulilor din DT
 Reguli de tip DACA-ATUNCI (IF-THEN)

 Are loc o coborare pe arce

 Se realizeaza o conjunctie intre valorile (testele) nodurilor

intermediare pana la frunze pentru partea conditionala a unei
reguli

 Concluzia unei reguli este data de frunza atinsa in coborare

Pachetul rpart

 Implementeaza arbori de clasificare si regresie

 Pentru inductie utilizeaza algoritmul CART (Breiman, 1984)

 Criteriul de partionare bazat pe indexul Gini sau pe

information gain.
Exemplu
library(rpart)
library(datasets)

# 150 de date, cate 50 din fiecare clasa: setosa, versicolor, virginica

data(iris)
dat <- iris

# partionare dupa criteriul Gini (implicit)

rpart.model <- rpart(Species~., dat, method="class")
rpart.model

plot(rpart.model, margin = 0.05); text(rpart.model, use.n = TRUE,

cex = 0.8)
Modelul construit
Arborele rezultat
Predictie 1/2
# clasa reala: setosa
nou1 <- data.frame(Sepal.Length = 5.1, Sepal.Width = 3.5, Petal.Length =
1.4, Petal.Width = 0.2)
predict(rpart.model, nou1, type = c("class"))

# clasa reala: versicolor

nou2 <- data.frame(Sepal.Length = 6.3, Sepal.Width = 2.5, Petal.Length =
4.9, Petal.Width = 1.5)
predict(rpart.model, nou2, type = c("class"))

# clasa reala: virginica

nou3 <- data.frame(Sepal.Length = 6.5, Sepal.Width = 3.0, Petal.Length =
5.5, Petal.Width = 1.8)
predict(rpart.model, nou3, type = c("class"))
Predictie 2/2
Exercitii

 Implementati in R un model de arbore de decizie pentru

problema diagnozei diabetului (Pima Indians Diabetes) [1].

[1] https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes

S-ar putea să vă placă și

Arbori de Decizie
Document7 pagini
Arbori de Decizie
Adriana Nicu
0% (1)
Arbori de Decizie
Document7 pagini
Arbori de Decizie
Madalina
Încă nu există evaluări
PProiectAD Voloh Padure Apetrei
Document85 pagini
PProiectAD Voloh Padure Apetrei
Delia Radu
Încă nu există evaluări
05 ML Dectrees
Document47 pagini
05 ML Dectrees
Anca Vlad
Încă nu există evaluări
Curs 4
Document78 pagini
Curs 4
Zoica Grecu
Încă nu există evaluări
Teorie TDM v2
Document6 pagini
Teorie TDM v2
Bogdan Adm
Încă nu există evaluări
Metode Ansamblu
Document20 pagini
Metode Ansamblu
Nicu
Încă nu există evaluări
Dintre Algoritmii Care Se Pot Folosi În Timpul Analizei Primare
Document1 pagină
Dintre Algoritmii Care Se Pot Folosi În Timpul Analizei Primare
Adrian Secrieru
Încă nu există evaluări
AD Algoritmul QUEST
Document7 pagini
AD Algoritmul QUEST
Raluca Apetrei
Încă nu există evaluări
Data Mining Algoritmi de Regresie
Document3 pagini
Data Mining Algoritmi de Regresie
Alex Rigani
Încă nu există evaluări
Arbori de Clasificare
Document13 pagini
Arbori de Clasificare
GEORGIANA-DENISA SAMOILA
Încă nu există evaluări
Utilizarea Tehnologiilor de Tip Data Mining in Inteligenta Computationala Invatarea Nesupervizata
Document16 pagini
Utilizarea Tehnologiilor de Tip Data Mining in Inteligenta Computationala Invatarea Nesupervizata
Tudor
Încă nu există evaluări
Teorie IC
Document18 pagini
Teorie IC
Iulia Andreea B
Încă nu există evaluări
Algoritmi Genetici
Document8 pagini
Algoritmi Genetici
Mircea N. Cârţişorean
Încă nu există evaluări
Curs 7 Intro ML
Document37 pagini
Curs 7 Intro ML
Oana Drăgan
100% (1)
K Nearest Romana
Document5 pagini
K Nearest Romana
berlosu
Încă nu există evaluări
Arbori de Decizie c7
Document24 pagini
Arbori de Decizie c7
Patricia Ghita
0% (2)
Tipuri de Variabile
Document7 pagini
Tipuri de Variabile
Alexandru Alin
Încă nu există evaluări
Note Curs Lab 3
Document11 pagini
Note Curs Lab 3
Adriana Padure
Încă nu există evaluări
Sisteme Inteligente - Referat
Document8 pagini
Sisteme Inteligente - Referat
Pereteatcu Adelina
100% (2)
4b.curs CIP
Document55 pagini
4b.curs CIP
verdescu mihaita
Încă nu există evaluări
Lab4 KNN
Document4 pagini
Lab4 KNN
Andreea Olescu
Încă nu există evaluări
Proiect Analiza Discriminant Si Ierarhizare
Document49 pagini
Proiect Analiza Discriminant Si Ierarhizare
Paşcău Ioana Cristina
Încă nu există evaluări
Clusterizare Bazata Pe Densitati
Document21 pagini
Clusterizare Bazata Pe Densitati
Mariaelisa Bogoi
Încă nu există evaluări
Bioinfo13 Lab7
Document4 pagini
Bioinfo13 Lab7
Alexandru Velici
Încă nu există evaluări
Structuri de Date Și Algoritmi: SDA - Cursul 3
Document23 pagini
Structuri de Date Și Algoritmi: SDA - Cursul 3
Denisa Ilisie
Încă nu există evaluări
Curs4 - Comunicare Intreprindere
Document31 pagini
Curs4 - Comunicare Intreprindere
Iulian
Încă nu există evaluări
K-Nearest Neighbor Algorithm
Document7 pagini
K-Nearest Neighbor Algorithm
Andry Zabica
Încă nu există evaluări
Popescu Rozica-Maria (Tache) - Contributions To The Theory of Topological Indices (Contribuţii La Teoria Indicilor Topologici) PDF
Document26 pagini
Popescu Rozica-Maria (Tache) - Contributions To The Theory of Topological Indices (Contribuţii La Teoria Indicilor Topologici) PDF
drapostol
Încă nu există evaluări
Grupare Clasificare Fuzzy
Document22 pagini
Grupare Clasificare Fuzzy
Elvis Boghiu
Încă nu există evaluări
Lpowerpoiititi
Document45 pagini
Lpowerpoiititi
Степа Попов
Încă nu există evaluări
Regresia Liniara
Document16 pagini
Regresia Liniara
Diana Parliteanu
Încă nu există evaluări
Curs 1
Document27 pagini
Curs 1
Patricia Isabell
Încă nu există evaluări
Asdc 4
Document47 pagini
Asdc 4
Dan 421
Încă nu există evaluări
Sda Curs3 Info
Document21 pagini
Sda Curs3 Info
dorumihai
Încă nu există evaluări
C2 - Alg - Complexitate, Cautari Si Sortari 2021
Document46 pagini
C2 - Alg - Complexitate, Cautari Si Sortari 2021
Cătălina Ioana Blagă
Încă nu există evaluări
Cursuri SDA Curs 1
Document28 pagini
Cursuri SDA Curs 1
Tht Wolfeschlegel Vlad
Încă nu există evaluări
Sda
Document348 pagini
Sda
alminutza
Încă nu există evaluări
Data Mining În Afaceri: - Notițe
Document32 pagini
Data Mining În Afaceri: - Notițe
GEORGIANA-DENISA SAMOILA
100% (1)
Curs2 - Comunicare Intreprindere
Document18 pagini
Curs2 - Comunicare Intreprindere
Iulian
Încă nu există evaluări
Instruirea de Performanta La Disciplina PDF
Document6 pagini
Instruirea de Performanta La Disciplina PDF
Eugenia Maria Ohota
Încă nu există evaluări
DoctCursS 2007
Document16 pagini
DoctCursS 2007
Florin Dobre
Încă nu există evaluări
Conexiuni SDand AED
Document21 pagini
Conexiuni SDand AED
sys
Încă nu există evaluări
Asdc 1
Document35 pagini
Asdc 1
Catalina Caraman
Încă nu există evaluări
Suport Structuri de Date ROSE
Document48 pagini
Suport Structuri de Date ROSE
SAndrew
Încă nu există evaluări
Curs 1 IS
Document26 pagini
Curs 1 IS
Andreea Ghinea
Încă nu există evaluări
L2 Iopc 21
Document26 pagini
L2 Iopc 21
Marian Victor Capezan
Încă nu există evaluări
DataMining IlicaIoanaMinola
Document25 pagini
DataMining IlicaIoanaMinola
rodicasept1967
Încă nu există evaluări
Lab - 11 - Detectie Peak - 2020
Document4 pagini
Lab - 11 - Detectie Peak - 2020
Florin Condurat
Încă nu există evaluări
Ingineria Sistemelor Cu Inginerie Artificiala Masina Vector Suport
Document17 pagini
Ingineria Sistemelor Cu Inginerie Artificiala Masina Vector Suport
Anghel Alexandru
Încă nu există evaluări
Cursuri 1-5
Document237 pagini
Cursuri 1-5
Miruna -Alondra
Încă nu există evaluări
Suport Tic
Document26 pagini
Suport Tic
bad_belloq
Încă nu există evaluări
L8 - Metode de Clustering A Datelor Microarray
Document8 pagini
L8 - Metode de Clustering A Datelor Microarray
simosimona
Încă nu există evaluări
Sisteme de Recunoastere A Formelor
Document21 pagini
Sisteme de Recunoastere A Formelor
mi6an4ik
100% (1)
Algoritm Exemplu
Document31 pagini
Algoritm Exemplu
Paulina Voicu
Încă nu există evaluări
Ingineria Calitatii - Histograma
Document15 pagini
Ingineria Calitatii - Histograma
alexandra
Încă nu există evaluări
Lucrul cu baze de date
De la Everand
Lucrul cu baze de date
Nicolae Sfetcu
Încă nu există evaluări