Data Mining 2

Curs 1:
Introducere în Data Mining
Data Mining - Curs 1 (2017) 1

Preliminarii
Cum aţi traduce Data Mining?
1. Analiza datelor
2. Explorarea datelor
3. Exploatarea datelor
4. Extragerea de cunoştinţe din date
5. Mineritul datelor

Preliminarii
• De ce Data Mining? – o scurtă motivaţie
• Ce este Data Mining? – concepte de bază
• Ce nu este Data Mining? – tematici corelate
• Categorii de date
• Principalele tipuri de prelucrări
• Organizarea cursului şi criterii de evaluare

De ce Data Mining?
La ora actuală se colectează şi devine accesibil un volum foarte mare
de date de diferite tipuri şi provenind din diferite surse:
 tranzacţii comerciale (ex: hipermarket-uri)
 tranzacţii financiare (ex: bancomate)
 utilizarea unor resurse web (ex: comerţ electronic, alte servicii
web)
 interacţiuni sociale(ex: reţele sociale)
 date satelitare (ex: date privind Pământul şi atmosfera and
atmosphere colectate folosind senzori plasaţi pe sateliţi)
 date genomice (ex: date referitoare la nivelul de exprimare a
genelor colectate folosind dispozitive de tip microarrays)
 date medicale(ex: înregistrări medicale în format electronic)
 documente în format electronic (ex: documente scanate – în
biblioteci, arhive electronice etc.)
…
De ce Data Mining?
• Toate aceste date încorporează o mulţime de cunoştinţe care ar
trebui extrase în diferite scopuri:
• Pentru a se genera recomandări (ex: pentru a ghida

activitatea de marketing, pentru a sugera produse clienţilor)
• Detectarea comportamentului anormal (ex: acces fraudulos la
un cont bancar)
• Predicţie (ex: în meteorologie, evoluţia pieţei/ preţurilor)
• Identificarea de tipare (ex: identificarea rolului unei gene)
• Asistarea deciziei medicale (ex: furnizarea unor sugestii
privind diagnosticul potenţial)

De ce Data Mining?
Exemplu 1: Date referitoare la fertilizarea in vitro
[Witten, Frank, Hall – Data Mining. Practical Machine Learning Tools and Techniques -
http://www.cs.waikato.ac.nz/ml/weka/book.html]
Se porneşte de la: embrioni descrişi prin 60 de caracteristici

Problema: selectarea acelor embrioni care au şanse de supravieţuire
Date: înregistrări istorice cu caracteristici ale embrionilor şi informaţii privind
viabilitatea lor (fertilizare cu succes sau fără succes)
Exemplu 2: Procesarea aplicaţiilor pentru împrumut

Se porneşte de la: chestionar cu informaţii financiare şi personale (ex: vârsta,
date privind locul de muncă, starea de sănătate, starea financiară etc)
Problema: decizia dacă se acordă împrumutul sau nu
Date: înregistrări istorice conţinând informaţii personale şi financiare precum
şi privind rambursarea acestuia (dacă a fost rambursat la timp sau au existat
probleme)

De ce Data Mining?
Exemplu 3: Predicţia încărcării unei reţele de distribuţie a energiei
electrice (estimarea cererii viitoare de putere electrică – util pentru
companiile distribuitoare)
Se cunoaşte: un model de încarcare a reţelei în cazul unor condiţii climatice

normale
Problema: predicţia încărcării minime/ maxime la anumite momente (de
exemplu din oră în oră)
Date: înregistrări istorice privind condiţiile meteo (temperatura, umiditatea,
viteza vântului, gradul de acoperire a cerului) şi gradul de încărcare a reţelei
Exemplu 4: Analiza coşului de cumpărături

Date: bază de date cu tranzacţii (o tranzacţie conţine informaţii despre
produsele cumpărate de către fiecare client)
Problema: identificarea grupurilor de produse care apar frecvent împreună
în aceeaşi tranzacţie (ex: pâine şi lapte)

De ce Data Mining?
Exemplu 5: Detectarea anomaliilor
Date: date privind tranzacţii financiare
Problema: identificarea unei schimbări în comportamentul utilizatorilor
Exemplu 6: Identificarea profilelor utilizator

Date: fişiere cu date de conectare la un server web (log files)
Problema: identificarea unor profile de utilizatori (grupuri de utilizatori
caracterizaţi prin comportament similar)
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0"

200 2326

Ce este Data Mining?
Există diferite definiţii:
Data mining = “colectarea, curăţirea, procesarea, analiza datelor şi

extragerea de informaţii sau cunoştinţe utile din ele” [C.Aggarwal –
Data Mining. The Textbook, 2015]
• Colectare: există diferite surse de date (senzori, documente scrise,

servere web, dispozitive de tip microarray etc)
• Curătire: eliminarea zgomotului (a inconsistenţelor sau a datelor eronate)
şi tratarea valorilor absente
• Procesare: transformarea datelor într-un format standardizat
• Analiza: identificarea tiparelor, a regularităţilor, a asocierilor sau a
relaţiilor existente în date
• Extragere cunoştinţe: formularea unor reguli concise şi aplicabile (care ar
putea fi folosite de către utilizatori)

Ce este Data Mining?
Există diferite definiţii:
Data mining = “extragerea din date a cunoştinţtelor implicite, anterior
necunoscute şi potenţial utile” [http://www.cs.waikato.ac.nz/ml/weka/book.html] sau
“explorarea şi analiza, prin mijloace automate sau semi-automate, a unei
cantităţi mari de date cu scopul de a identifica tipare utile/ relevante” [Tan,
Steinbach, Kumar – Introduction to Data Mining, 2004]
Uneori acest
proces este
denumit
descoperirea Extragerea
cunoştinţelor cunoştintelor
Analiza
iar termenul
data mining
Procesare
referă doar o (transformare)
etapă a Curăţire (pre-
acestui procesare)
colectare
proces
Ce nu este Data Mining?
Exemplu: se consideră o bază de date ce conţine informaţii despre
clienţii unei bănci:
• Căutarea tuturor clienţilor ce locuiesc într-un oraş specificat nu

este o prelucrare specifică pentru data mining
• Determinarea numărului de clienţi care au în cont o sumă mai mică
sau mai mare decât o valoare specificată nu este o prelucrare
specifică pentru data mining
… astfel de probleme se rezolvă prin interogări simple ale bazei de
date
Pe de altă parte:
• Identificarea clienţilor cărora li se poate acorda un împrumut
• Identificarea operaţiunilor anormale într-un cont
… sunt probleme care necesită expertiză umană şi/sau instrumente
de data mining
Domenii înrudite
Data mining este un domeniu înrudit cu: Altă definiţie
Data mining =
 Statistica – unele tehnici din data mining au rădăcini şi se Aplicarea metodelor
bazează pe metode statistice de învăţare automată
 Invăţare automată = extragerea de modele din date pentru extragerea de
printr-un proces de învăţare – cele mai multe modele din cunoştinţe din date
data mining se bazează pe metode de învăţare
 Baze de date – cele mai multe date sunt stocate în
baze de date
 Alte domenii:
 Vizualizare: instrumente pentru vizualizarea datelor
 Optimizare: multe procese de extragere a modelelor
din date se bazează pe optimizarea unor criterii
 Algebră liniară: datele sunt frecvent organizate în
matrici, a.i. sunt frecvent folosite prelucrări asupra
matricilor
Alţi termeni corelaţi: data science, big data
Categorii de date
Date structurate = set of înregistrări/instanţe/articole conţinând un număr fix de
câmpuri/ atribute/caracteristici
Obs:
• Fiecare instanţă corespunde unui obiect/entitate de analizat (ex: client,
pacient, tranzacţie, zi etc.)
• Fiecare atribut corespunde unei caracteristici măsurabile a obiectului (ex:
vârsta, greutate, venit, temperatură etc.)
Exemple: http://www.tankonyvtar.hu/en/tartal
• Tablouri bi-dimensionale (i.e. Matrice de date) om/tamop425/0032_terinformatika/
ch04s04.html
o Baze de date relaţionale
o Foi de calcul
• Tablouri multi-dimensionale
o Imagini multi-spectrale

Categorii de date
Date structurate = set of înregistrări/instanţe/articole conţinând un număr fix de
câmpuri/ atribute/caracteristici
Exemplu: Car Evaluation Database [http://archive.ics.uci.edu/ml/datasets.html]

1728 instanţe 6 atribute
Scop: clasificarea unei maşini în una din patru categorii: inacceptabilă,
acceptabilă, bună, foarte bună
Atribute
Instanţa Preţ Preţ între- Nr uşi Capacita- Dim. Siguranţa Clasa
cumpărare ţinere te bagaj
1 Very high Very high 2 2 small low inaccept.

2 Very high high 4 4 big medium inaccept.
3 Very high medium 5more 4 big medium accept
4 low low 5more 4 big medium bună

Categorii de date
Date semi - structurate = date care nu au o structură standard (i.e. Nu toate
instanţele au aceleaşi atributre); există totuşi unele elemente (e.g. tags) care ajută la
identificarea unei structuri în date
Exemplu: fişier XML al unui CV [http://www.eife-l.org]
Scop: prelucrarea automată a CV-urilot cu scopul identificării expertizei (sarcină tipică pentru
departamentele HR)
….
<Address type="Residence">
<oa:AddressLine sequence="1">myaddress</oa:AddressLine>
<oa:CityName>mycity</oa:CityName>
<CountryCode>FR</CountryCode>
<oa:PostalCode>29630</oa:PostalCode>
<UserArea> <europass:CountryLabel
xml:lang="fr">France</europass:CountryLabel>
</UserArea>
</Address>
...
Obs: datele semi-structurate sunt de regulă transformate în date structurate înainte
de a aplica tehnici de data mining
Categorii of data
Date nestructurate = nu sunt organizate într-o manieră predefinită (nu există un
model al datelor) – sunt de obicei texte în format liber şi scopul urmărit este
extragerea de informaţii din text.
Exemplu: documente text
Prelucrări:
 sumarizarea documentelor (extragere cuvinte cheie, idei principale)
 Identificarea entităţilor cu nume (ex: nume de persoane, nume de instituţii,
locuri geografice etc)
Dificultăţi:
 Datele pot fi ambigue (ex: Numele unei persoane poate apare în diferite
variante: Ioan Popescu, I. Popescu, Popescu Ioan)
 Prelucrarea datelor de tip text necesită metode specifice prelucrării limbajului
natural (ex: etichetarea părţilor de vorbire –substantive, verbe, adjective …)

Tipuri de prelucrări
Prelucrări predictive
Scop: predicţia unor valori necunoscute sau viitoare ale unor atribute
pe baza valorilor celorlalte atribute
Variante:
• Clasificare = identificarea clasei (categoriei) căreia ar trebui să îi
aparţină o anumită instanţă (pe baza valorilor atributelor ei)
Exemple: datele referitoare la fertilizarea in vitro, la evaluarea
cererilor de împrumut bancar
• Regresie = estimarea valorii unui atribut pe baza valorilor altor

atribute
Exemplu: predicţia încărcării reţelei de distribuţie a energiei
electrice
Tipuri de prelucrări
Prelucrări descriptive
Scop: identificarea unor tipare interpretabile care permit descrierea
sau explicarea datelor
Variante:
• Clustering (grupare) = identificarea unor grupuri naturale în date
Exemplu: identificarea profilelor utilizator
• Asociere = descoperirea unor regul de asociere între atribute

Exemplu: analiza coşului de cumpărături
• Excepţii sau anomalii = identificarea entităţilor (instanţe) care par

anormale într-un anumit sens (de obicei semnificativ diferite de
celelalte)
Exemplu: detecţia activităţii frauduloase
Clasificare
Ce se cunoaşte?
• O colecţie de instanţe (înregistrări) pentru care se cunoaşte clasa căreia
îi aparţtin (set de antrenare)
• Fiecare dintre instanţe conţine un set de atribute, iar unul dintre aceste
atribute este eticheta clasei
Ce se doreşte?
• un model care captează legătura dintre atributul clasă şi celelalte
atribute (modelul este extras pornind de la setul de antrenare printr-un
proces numit învăţare supervizată)
Care este scopul final?

• Să se folosească modelul extras din date pentru a identifica clasa căreia
îi aparţine o instanţă nouă (care nu face parte din setul de antrenare)
Observaţie: un model util trebuie să fie caracterizat printr-o bună acurateţe;

acurateţea modelului poate fi estimată utilizând date pentru care se cunoaşte
clasa căreia îi aparţin dar care nu au fost utilizate în extragerea modelului (set
de validare)

Clasificare
Exemplu:
• Diagnoza medicală = asociază unei înregistrări medical o clasă

(prezenţa sau absenţa unei boli)
Exemplu subset dintr-un set de date (breast-cancer-wisconsin - format arff–

vezi Lab 1)
@relation wisconsin-breast-cancer
@attribute Clump_Thickness integer [1,10]
@attribute Cell_Size_Uniformity integer [1,10]
@attribute Cell_Shape_Uniformity integer [1,10]
@attribute Marginal_Adhesion integer [1,10]
@attribute Single_Epi_Cell_Size integer [1,10]
@attribute Bare_Nuclei integer [1,10]
@attribute Bland_Chromatin integer [1,10]
@attribute Normal_Nucleoli integer [1,10]
@attribute Mitoses integer [1,10]
@attribute Class { benign, malignant}@data
5,1,1,1,2,1,3,1,1,benign
5,4,4,5,7,10,3,2,1,benign
3,1,1,1,2,2,3,1,1,benign
8,10,10,8,7,10,9,7,1,malignant
1,1,1,1,2,10,3,1,1,benign

Clasificare
Exemplu:
• Filtru anti-spam = identificarea clasei (ilegitim=spam/legitim=ham)

unui mesaj (e-mail sau SMS)
Exemplu subset date (SMS spam collection dataset from UCI Machine
Learning Repository)
ham What you doing?how are you?

ham Ok lar... Joking wif u oni...
ham dun say so early hor... U c already then say...
ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H*
ham Siva is in hostel aha:-.
spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use
from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop
spam Sunshine Quiz! Win a super Sony DVD recorder if you can name the capital of
Australia? Text MQUIZ to 82277. B
spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize
on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU
….
Regresie
Ce se cunoaşte?
• O colecţie de instanţe caracterizate prin atribute numerice (set de
antrenare)
Ce se urmăreşte?
• Un model al dependenţei între unul dintre atribute (atributul de prezis)
şi celelalte atribute (predictori)

• Să se prezică valoarea atributului de interes pe baza valorilor
cunoscute ale celorlalte atribute.
Observaţie
• se poate presupune de la început că modelul de regresie satisface
anumite proprietăţi (este liniar sau neliniar); modelul poate fi fixat, ca în
regresia statistică, sau poate fi flexibil (ca în cazul reţelelor neuronale
sau a altor modele din inteligenţa computaţională)

Regresie
Exemple:
– Predicţia volumului de vânzări a unui produs nou în funcţie de cheltuielile
pentru publicitate.
– Predicţia vitezei vântului în funcţie de temperatură, umiditate, presiunea
aerului etc.
– Predicţia evoluţiei în timp a indicilor bursieri.
Set de date: predicţia consumului de combustibil în funcţie de caracteristicile
maşinii
@relation autoMpg
@attribute cylinders { 8, 4, 6, 3, 5} @attribute displacement real
@attribute horsepower real @attribute weight real @attribute acceleration real
@attribute model { 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82}
@attribute origin { 1, 3, 2}
@attribute MilesPerGallon real
@data
8,307,130,3504,12,70,1,18
8,350,165,3693,11.5,70,1,15
8,318,150,3436,11,70,1,18
8,304,150,3433,12,70,1,16
….
Clustering
Ce se cunoaşte?
• Un set de data (nu neapărat structurate)

• O măsură de similaritate/disimilaritate între date (este specifică
problemei)
Ce se urmăreşte?
• Identificarea unui model care descrie modul în care pot fi grupate

datele în clustere astfel încât datele aparţinând aceluiaşi cluster sunt
mai similare între ele decât datele aparţinând unor clustere diferite
• Să se poată verifica dacă două date aparţin aceluiaşi cluster sau nu

• Să se identifica clusterul adecvat unei date
• Să se identifice/vizualizeze modul în care se grupează datele
Observaţie: pentru unele metode de grupare nu e necesar să se cunoască

datele primare fiind suficient să se cunoască matricea de (di)similaritate
Clustering
Exemple:
• Gruparea clienţilor = identificarea de grupuri de clienţi cu obiceiuri

similare de cumpărare
• Sumarizarea datelor / gruparea documentelor = identificarea de grupuri

de documente pe baza conţinutului
• Extragerea profilelor de utilizatori = identificarea grupurilor de utilizatori ai

unui serviciu web caracterizaţi prin comportament similar
• Segmentarea imaginilor = identificarea de regiuni omogene în imagini

15
10
5
5 0 5 10 15

Analiza excepţiilor
Ce se cunoaşte?
• Un set de data (nu neapărat structurate)
• O măsură de similaritate/disimilaritate între date (este specifică

problemei)
Ce se urmăreşte ?
• Identificarea unui model care corespunde comportamentului
normal

• Identificarea excepţiilor, adică a datelor care se abat semnificativ
de la model (valori atipice)
Observaţie: este oarecum complementară grupării datelor

Analiza excepţiilor
Exemple:
• Sisteme de detecţie a intruşilor
– Apeluri sistem anormale sau trafic anormal în reţea pot sugera prezenţa unei
activităţi maliţioase
• Fraudă bancară
– Un comportament neobişnuit în utilizarea unei cărţi de credit (e.g.utilizarea
cardului din locaţii geografice neobişnuite sau la ore neobişnuite) poate
sugera o posibilă activitate frauduloasă
• Diagnoza medicală
– Structuri anormale observate pe imagini MRI(magnetic resonance imaging),
PET (positron emission tomography) sau secvenţe EKG pot indica preyenţa
unor patologii

Reguli de asociere
Ce se cunoaşte?
• Un set de înregistrări, fiecare conţinând obiecte (entităţi) dintr-o
colecţie
Ce se urmăreşte?
• Să se gasească un model care să permită estimarea prezenţei
unui obiect în ipoteza prezenţei altor obiecte

• Identificarea unor tipare de asociere între obiecte

Reguli de asociere
Exemplu: analiza coşului de cumpărături (fiecare instanţă
corespunde unei tranzacţii = listă de produse cumpărate)
T1: {lapte, pâine, carne, apă}

T2: {pâine, apă}
T3: {pâine, unt, carne, apă}
T4: {apă}
Rezultate:
• Itemset frecvent: {pâine, apă} - suport 75% (perechea de
produse apare în 3 din 4 tranzacţii) – se poate spune că “pâinea
şi apa sunt cumpărate frecvent împreună”
• Regulă de asociere: pâine->apă (100% nivel de încredere: în
toate cazurile atunci când este cumpărată pâine este cumpărată şi
apă)

Structura cursului
1. Introducere (acest curs)
2. Pre-procesarea datelor
3. Tehnici de clasificare
4. Tehnici de grupare
5. Reguli de asociere
6. Regresie şi analiza seriilor temporale
7. Analiza excepţiilor
8. Meta-modele şi tehnici de tip ansamblu
9. Tehnici specifice (text mining, web mining)
Course materials: http://www.info.uvt.ro/~dzaharie/dm2017

- lectures
- lab

Structura laboratorului
1. Seturi şi colecţii de date. Introducere în Weka
2. Pre-procesarea datelor (curăţare, transformare, reducere
dimensiune)
3. Clasificarea datelor (clasificatori bazaţi pe instanţe, arbori şi
reguli de decizie)
4. Clasificarea datelor (modele probabiliste, reţele neuronale,
vectori suport)
5. Gruparea datelor (algoritmi partiţionali, ierarhici, bazaţi pe
densitate)
6. Reguli de asociere. Modele de regresie.
7. Analiza seriilor temporale. Metode de tip ansamblu. Text mining.

Bibliografie
• C.C. Aggarwal, Data Mining – The Text Book, Springer, 2015
• M. H. Dunham. Data Mining. Introductory and Advanced Topics, Pearson

Education 2003
• F. Gorunescu, Data Mining. Concepts, Models and Techniques, Springer,

2011
• C. D. Manning, P. Raghavan and H. Schütze, Introduction to Information

Retrieval, Cambridge University Press. 2008.
• I.H. Witte, E. Frank, M.A. Hall. Data Mining – Practical Machine Learning
Tools and Techniques, Morgan Kaufmann Publishers, 2011

Evaluare
 Examen cu acces la materiale bibliografice (20%) – 20 întrebări/
90 minute
 Proiect (60%):
 Raport (6-12 pagini)
 Aplicaţie (în Weka, R, Python sau alt limbaj de programare)
 Slide-uri pt prezentarea de la examen (cca 10 minute)
 Activitate laborator (20%)

 participare
 teme

Exemple de aplicaţii
(Store Product Placement) A merchant has a set of d products together with
previous transactions from the customers containing baskets of items bought
together. The merchant would like to know how to place the product on the
shelves to increase the likelihood that items that are frequently bought
together are placed on adjacent shelves.
Ce prelucrare este adecvată?
(Product Recommendations) A merchant has an n × d binary matrix D

representing the buying behavior of n customers across d items. It is
assumed that the matrix is sparse, and therefore each customer may have
bought only a few items. It is desirable to use the product associations to
make recommendations to customers.

(Store Product Placement) A merchant has a set of d products together with
previous transactions from the customers containing baskets of items bought
together. The merchant would like to know how to place the product on the
shelves to increase the likelihood that items that are frequently bought
together are placed on adjacent shelves.
Reguli de asociere
(Product Recommendations) A merchant has an n × d binary matrix D

representing the buying behavior of n customers across d items. It is
assumed that the matrix is sparse, and therefore each customer may have
bought only a few items. It is desirable to use the product associations to
make recommendations to customers.
Clustering

(Medical ECG Diagnosis) Consider a set of ECG time series that are
collected from diﬀerent patients. It is desirable to determine the anomalous
series from this set.
(Web Log Anomalies) A set of Web logs is available. It is desired to

determine the anomalous sequences from the Web logs.

(Medical ECG Diagnosis) Consider a set of ECG time series that are
collected from diﬀerent patients. It is desirable to determine the anomalous
series from this set.
(Web Log Anomalies) A set of Web logs is available. It is desired to

determine the anomalous sequences from the Web logs.
Detecţie anomalii
Clasificare

Sumar
Data mining:
 Aplicaţie
 Task (acţiune)
 Metoda (algoritm)
Elemente cheie:
 Stabilirea întrebării adecvate

 Identificarea datelor adecvate
 Pregătirea datelor
 Selectarea algoritmilor adecvaţi
 Interpretarea rezultatelor

Sumar: a roadmap for a data scientist
"A data scientist is a person who is better at statistics than any software
engineer and better at software engineering than any statistician."

Curs 2:
Pre-procesarea datelor
Data Mining -Curs 2 (2017) 1

Structura
• Reminder: etape extragere cunoştinţe din date
• Extragerea caracteristicilor
• Tipuri de atribute
• Curatirea datelor
• Reducerea dimensiunii datelor
• Transformarea caracteristicilor

Etape extragere cunoştinţe din date
Extragere
cunoştinţe
analiză
transformare
curăţire
colectare

Etape extragere cunoştinţe din date
Exemplu: un comerciant care deţine un sistem de comerţ electronic
este interesat să obţină informaţii referitoare la comportamentul
clienţilor săi cu scopul de a recomanda anumite produse
Surse de date:
• Fişiere de tip log cu informaţii de conectare
98.206.207.157 - - [31/Jul/2013:18:09:38 -0700] "GET
/productA.htm HTTP/1.1" 200 328177 "-" "Mozilla/5.0 (Mac OS X)
AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0
Mobile/10B329 Safari/8536.25” "retailer.net"
• Informaţii demografice colectate în procesul de înregistrare al
utilizatorilor - stocate într-o bază de date (ex: e-mail, telefon,
oraş, categorie de vârstă, categorie profesională)
Cum ar putea fi folosite aceste informaţii?

Etape extragere cunoştinţe din
date
Cum ar putea fi folosite aceste informaţii?
Comerciantul ar dori să determine care sunt produsele achiziţionate
de către fiecare client
Aceasta necesită:
• Stabilirea corespondenţei între înregistrările din fişierele cu
informaţii de logare şi baza de date cu informaţii privind clienţii
(problema: erorile pot conţine erori care îngreunează procesul ->
poate fi necesară curăţirea datelor)
• Agregarea tuturor informaţiilor de logare corespunzătoare unui
client (Problema: nu toate informaţiile sunt neapărat utile -> ar
putea necesita selecţie)
• Integrarea informaţiilor din ambele surse de date (ar putea
necesita transformarea datelor)
Etape extragere cunoştinţe
Principalele etape
din date
 Colectarea datelor (din diferite surse)
 Pre-procesarea datelor
• Extragerea caracteristicilor (specifice problemei de rezolvat)
• Curăţirea datelor (ex: eliminarea înregistrărilor eronate sau completarea
valorilor absente)
• Selecţia caracteristicilor (ignoră atributele irelevante, redundante sau
inconsistente)
• Transformarea datelor/ atributelor
o Transformarea valorilor unui atribut:
o Numeric -> nominal/ordinal (e.g. valoarea vârstei este transformată
într-o categori: foarte tânăr, tânăr, bătrân, foarte bătrân);
o Nominal -> logic/binar (e.g. fiecărei valori posibile a unui atribut
nominal i se asociază un atribut binar )
o Transformă un set de atribute în alt set de atribute care poartă mai
multă informaţie (e.g. explică mai bine variabilitatea din date)
 Analiza datelor (extragerea de cunoştinţe din date)
Extragerea caracteristicilor
Scop:
• Extragerea caracteristicilor semnificative din datele brute (datele pot
proveni din diferite surse)
Particularitate:
• Procesul de extragere depinde de specificul domeniului şi necesită
expertiză în domeniul respectiv
Exemple: extragerea caracteristicilor din

• imagini
• documente (XML, PDF)
• web logs
• date privind trafic în reţea

Extragerea informaţiilor privind textura dintr-o imagine:
Abordare bazată pe histogramă:

• Construirea histogramei color (pentru fiecare bandă
de culoare şi pt fiecare regiune din imagine)
H(v)=numărul de pixeli care au valoarea v
• Calcul valori statistice:
• medie
• varianţă
• energie
• entropie
• [alţi indicatori statistici (skewness, kurtosis)]
• Obs: dacă imaginea este partiţionată în K2 regiuni şi
pt fiecare regiune şi fiecarea bandă de culoare sunt
calculate 4 mărimi statistice atunci imaginii i se
asociază un vector cu 12 K2 caracteristici numerice
Extragerea caracteristicilor de textură dintr-o imagine:
Alte variante (ex: [http://www.eletel.p.lodz.pl/programy/cost/pdf_1.pdf]):

• Matrici de co-ocurenţă

Extragerea caracteristicilor dintr-un document:
1. XML - date semistructurate
<PersonalData><PersonDescriptors><DemographicDescriptors><Natio
nality>francaise</Nationality>
</DemographicDescriptors>
<BiologicalDescriptors><DateOfBirth>1978-01-16</DateOfBirth>
<GenderCode>1</GenderCode>
</BiologicalDescriptors>
</PersonDescriptors>
</PersonalData>
…
Prin parsare, se pot extrage caracteristicile demografice:
Nationalitz Date of birth Gender
Francaise 1978-01-16 1

Extragerea caracteristicilor dintr-un document:
2. Fişier text – date nestructurate
3. Exemplu (abordarea bazată pe bag-of-words):
“In document classification, a bag of words is a sparse vector of occurrence
counts of words; that is, a sparse histogram over the vocabulary. In computer
vision, a bag of visual words is a vector of occurrence counts of a vocabulary
of local image features.”
a) Eliminarea cuvintelor de legătură (stop words)
“document classification bag words sparse vector occurrence counts words

sparse histogram vocabulary computer vision bag visual words vector
occurrence counts vocabulary local image features.”

Extragerea caracteristicilor dintr-un document – fişier text: abordarea de tip
bag-of-words
b) Reducerea cuvintelor la rădăcina lor – stemming (algoritm Porter)

sparse histogram vocabulariy computer vision bag visual words vector
occurrence counts vocabulariy local image features”
[http://textanalysisonline.com/nltk-porter-stemmer]
“document classif bag word spars vector occurr count word spars histogram
vocabulari comput vision bag visual word vector occurr count vocabulari local
imag featur”

bag-of-words
c) Calculul frecvenţelor:
imag featur”
Caracteristici extrase:
(bag,2), (classif,1), (comput,1), (count,2), (document,1), (featur,1),
(histogram,1), (imag,1), (local,1), (occurr,2), (spars,2), (vector,2), (vision,1),
(visual,1), (vocabulari,2), (word,3)

Extragere caracteristici din fişier log:
192.168.198.92 - - [22/Dec/2002:23:08:37 -0400] "GET / HTTP/1.1" 200 6394

www.yahoo.com "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1...)" "-"
192.168.198.92 - - [22/Dec/2002:23:08:38 -0400] "GET /images/logo.gif HTTP/1.1"
200 807 www.yahoo.com "http://www.some.com/" "Mozilla/4.0 (compatible; MSIE
6...)" "-"
192.168.72.177 - - [22/Dec/2002:23:32:14 -0400] "GET /news/sports.html HTTP/1.1"
200 3500 www.yahoo.com "http://www.some.com/" "Mozilla/4.0 (compatible; MSIE
...)" "-"
Prin parsarea fişierului se pot extrage:

Client IP address Date Time Request command etc.
192.168.198.92 22/Dec/2002 23:08:37 GET / HTTP/1.1
192.168.198.92 22/Dec/2002 23:08:38 GET /images/logo.gif HTTP/1.1
192.168.72.177 22/Dec/2002 23:32:14 GET /news/sports.htmlHTTP/1.1

Rezultatul unui proces de extragere:
• Matrice de date: fiecare linie corespunde unei înregistrări (articol sau

instanţă), fiecare coloană corespunde unei caracteristici (atribut)
Exemplu (CV data):
Nationality Date of birth Gender
CV 1: Francaise 1978-01-16 1
CV 2: Roman 1965-09-01 2
….
• Set de instanţe, fiecare instanţa = listă de valori ale caracteristicilor
Exemplu (fişier text):

Fişier 1: (bag,2), (classif,1), (comput,1), (count,2), (document,1), (featur,1),
Fişier 2: …
Tipuri de caracteristici/ atribute
• Numerice (cantitative)
Exemple: vârsta, greutate, preţ, cantitate, temperatură etc.

Specific:
• Valorile atributelor cantitative sunt numere (întregi sau reale)
• Se poate defini o ordine între valori (i.e. se poate calcula: minim, maxim,
mediana şi se pot ordona valorile)
• Se pot efectua operaţii aritmetice:
• Calcul medie, varianţă şi alţi indicatori statistici
• Alte operaţii: adunare, scădere, înmulţire, împărţire etc (e.g. valoare
= preţ*cantitate)
Obs: un caz particular este reprezentat de valorile de tip data calendaristică

sau oră (ex: 1975-01-16); are sens să se compare sau să se calculeze
diferenţa dintre date dar nu are sens să se înmulţească)

• Ordinale (valori discrete aparţinând unei mulţimi ordonate)
Exemple:
Nivele de calitate (e.g: inacceptabil, acceptabil, bun, foarte bun, excelent)
Nivele ale unei caracteristici (e.g: foarte scăzut, scăzut, mediu, ridicat, foarte
ridicat)
Specific:
• Valorile pot fi numere, simboluri, şiruri
• Există relaţie de ordine pe mulţimea valorilot (i.e. se poate calcula minim,
maxim, mediana şi se pot ordona valorile)
• Nu are sens să se efectueze operaţii aritmetice

• Nominale/ categoriale (valori discrete aparţinând unei mulţimi pe care nu
se este definită o relaţie de ordine )
Exemple:
Gen (e.g: female, male)
Rasă (e.g. caucaziană, asiatică, africană etc)
Stare civillă
Specific:
• Valorile unei astfel de caracteristici pot fi simboluri, siruri de caractere etc
• Nu se pot aplica operaţii aritmetice sau de ordonare
• Operatii:
• Verificare egalitate
• Calcul frecvenţe

• Binar (doar două valori posibile: {0,1} sau {False, True})
• Se utilizează pentru a codifica absenţa/prezenţa unor caracteristici
• Permite specificarea unor submulţimi (interpretate ca funcţii indicator)
Exemplu: set de tranzacţii
T1: {lapte, pâine, carne}
T2: {pâine, apă}
T3: {unt, carne}
T4: {apă}
Trans. pâine unt carne lapte apă

T1 1 0 1 1 0
T2 1 0 0 0 1
T3 0 1 1 0 0
T4 0 0 0 0 1
• Obs: este un exemplu de conversie a datelor (de la nominal la binar)
Conversii între tipuri
Conversia unui atribut numeric într-unul categorial (discretizare)
• Motivation: anumite tehnici de data mining pot fi aplicate doar pt date
categoriale
• Idee principală:
• Domeniul de valori se împarte în subdomenii
• Se asignează o valoare fiecărui subdomeniu
Exemplu: considerăm atributul “vârsta” care ia valori în intervalul [0,100];
atributul numeric se poate transforma într-unul categorial după cum urmează
Subdomeniu Valoare
[0, 10) 1
[10,20) 2
[20,30) 3
[30,40) 4
…
[90,100] 10

Obs:
• Prin discretizare se pierde o parte din informaţie
• O discretizare uniformă (ca în ex. anterior) nu e întotdeauna cea mai
adevată (de exemplu intervalul [90,100] conţine de regulă mai puţine
valori decât celelalte intervale).
Alte variante:
• Equi-log: domeniul [a,b] este divizat în K subdomenii
[a1,b1),[a2,b2),…[aK,bK] a.î. log(bi)-log(ai) este constant (în loc de bi-ai)

• Equi-depth: fiecare subdomeniu are acelaşi număr de înregistrări
• Equi-label: fiecare subdomeniu conţine valori care aparţin aceleiaşi clase (în
contextul unei probleme de clasificare pentru care se cunoaşte un set de date
etichetate)
Exemplu (valorile atributului “vârsta” sunt ordonate crescător):

Vârsta: 15, 16, 16, 20, 20, 20, 25,26,27,30,30,31
Clasa: c1, c2, c2, c1, c1, c1, c2,c2,c1, c2,c2,c1
Equi-depth: [15,18), [18,22.5), [22.5,28.5), [28.5,31)
Equi-label: [15,15.5), [15.5, 18), [18,22.5), [22.5,26.5), [26.5,28.5), [28.5,30.5),

[30.5,31)

Conversia atributelor nominale în atribute binare (binarizare)
Motivaţie: există tehnici de data mining (e.g. reţelele neuronale) care nu pot
prelucra direct atribute nominale
Procedura: un atribut nominal A care ia valori în mulţimea {v1,v2,…,vr} este
transformat in r atribute binare Av1,Av2,…,Avr a.î. îintr-o instanţă dată doar
unul dintre atribute va avea valoarea 1 iar toate celelalte vor avea valoarea 0.
Exemplu: considerăm atributul social din setul “nursery”
@attribute social {nonprob,slightly_prob,problematic}
şi valori corespunzătoare câtorva instanţe:
A_nonprob A_slightly_prob A_problematic

0 1 0
slightly_prob
nonprob 1 0 0
nonprob 1 0 0
problematic 0 0 1
Curătirea datelor
Scop: eliminarea erorilor şi a Cauze ale erorilor:
inconsistenţelor din date • Defecte în dispozitivele de înregistrare a
datelor (e.g. senyori)
Tipuri de erori: • Erori umane (e.g. completare greşită)
• Valori greşite • Absenţa răspunsurilor (e.g. date
• Valori absente confidenţiale)
Valoare eronată
Pacient Vârsta Inălţime [cm] Greutate[kg]

P1 20 170 60
Valoare absentă
P2 10 1.30 30
P3 22 165 ?
P4 8 190 80
Date inconsistente
Curătirea datelor
Descoperirea şi corecţia valorilor eronate:
• Utilizând cunoştinţe specifice domeniului (e.g. se pot defini domenii de valori

normale)
• Căutând inconsistenţe între valorile aceluiaşi atribut folosind diferite surse de
date (e.g. Numele unei persoane poate fi specificat în mai multe moduri,
“Ioan Popescu”, “I. Popescu”, “Ioan Popesu”; rasa unei persoane este
specificată diferit în diferite instanţe)
• Utilizând o abordare statistică (e.g. Se presupune că datele sunt generate de
o distribuţie normală iar valorile atipice sunt considerate erori)
Excepţii,
valori atipice
[Tan, Steinbach, Kumar – Introduction to Data Mining]

Curătirea datelor
Cauze ale valorilor absente:
• Omitere în procesul de colectare
• Informaţii care nu sunt furnizate (e.g. Vârsta sau genul într-un chestionar)
• Informaţii nerelevante în anumite contexte (e.g. valoarea venitului în cazul
unor copii)
Tratarea valorilor absente:
• Eliminarea înregistrărilor care conţin valori absente

• Asignarea unor valori specifice (e.g. Valoarea absentă este marcată cu 0 iar
0 este considerată o valoare posibilă pt acel atribut)
• Estimarea valorii absente (o astfel de aboradre este denumită imputare)
utilizând valori corespondent din înregistrări “similare”. In exemplul anterior
s-ar putea folosi 60 (întrucât P1 şi P3 sunt similare în raport cu celelalte
atribute). Dacă sunt mai multe înregistrări “similare” atunci se poate folosi
valoarea medie a atributului

Selecţia atributelor
Scop:
• Imbunătăţirea modelului de analiză a datelor (prin eliminarea atributelor
redundante)
Exemple:
• Atribute irelevante (e.g. ID)
• Atribute corelate (e.g. BMI=weight/height2)
Pacient Vârsta Inalţime Greutate BMI ID Clasa

[m] [kg]
P1 20 1.70 60 20.8 111 normal
P2 15 1.30 30 17.8 222 subponderal
P3 22 1.65 100 36.7 333 obez
P4 48 1.90 80 22.2 444 normal
Obs: in practică relaţia dintre atribute este ascunsă astfel că nu este

evident criteriul de selecţie
Scop:
• Imbunătăţirea modelului de analiză a datelor (prin eliminarea atributelor
redundante)
Componente ale unei metode de selecţie a atributelor:

• Criteriu de selecţie
• Metoda de căutare (în spaţiul de submulţimi ale atributelor)
Obs:
• Tehnica de selecţie a atributelor (in particular criteriul de selecţie) depinde
de caracteristicile tipului de analiză a datelor
Variante:
• Metode nesupervizate de selecţie (e.g. utilizate în contextul grupării datelor)
• Metode supervizate de selecţie (e.g. utilizate în contextul clasificării datelor)

Căutarea în spaţiul atributelor:
• Considerăm o matrice de date cu n atribute
• Spaţiul de căutare (toate submulţimile posibile de atribute) are dimensiunea 2n
Abordări posibile:
• Căutare exhaustivă: se analizează impactul fiecărei submulţimi de atribute
asupra rezultatului; e fezabilă doar dacă n este relativ mic
• Selecţie înainte:
• Se porneşte cu un set vid de atribute
• Se adaugă secvenţial câte un nou atribut (se analizează impactul
fiecăruia dintre atributele rămase şi se selectează cel mai bun) – dacă
adăugarea nici unui atribut nu îmbunătăţeşte calitatea rezultatului
procesul se opreşte
• Selecţie înapoi:
• Se porneşte cu întreg setul de atribute
• se elimină secvenţial câte unul dintre atribute (cel prin a cărui eliminare
se obţine cea mai mare îmbunătăţire a performanţei)
Selecţie / ierarhizare / ponderare
 In anumite situaţii este mai util doar să se ierarhizeze atributele în ordinea
descrescătoare a relevanţei şi să fie lăsat la latitudinea utilizatorului decizia
 Criteriul de ierarhizare este similar celui de selecţie (are ca scop să exprime

relevanţa atributului în contextul problemei de analiză tratate)
 Ierarhizarea poate fi realizată asignând ponderi atributelor (o valoarea mai

mare a ponderii sugereză că atributul este mai important)
 Estimarea ponderilor conduce de regulă la necesitatea de a rezolva o
problemă de optimizare (e.g determinarea ponderilor care minimizează
pierderea de informaţie sau maximizează acurateţea)
 Ponderile sunt importante în cazul în care tehnica de analiză se
bazează pe calculul unor măsuri de similaritate (e.g. Clasificatori de tip
nearest neighbor, clustering) n
Exemplu: distanţa euclidiană ponderată d w ( x, y ) = ∑ wi ( xi − yi ) 2
i =1

Criteriu de selecţie - cum se poate evalua un subset de atribute (sau valorile
corespunzătoare ale ponderilor)
 Abordare de tip ‘filtru’

 Selecţia se bazează pe relaţia dintre:
 atribute (context nesupervizat)
 atribute şi etichete ale claselor (context supervizat)
 Abordare de tip ‘înveliş’ (wrapper)

 Calitatea subsetului de atribute este estimată pe baza performanţei
clasificatorului sau a modelului de grupare construit pe baza
subsetului de atribute

Abordare de tip filtru
Criterii bazate pe date

• Câştig informaţional
• Compacitate (within-class) Initial dataset
• Separare (between-classes)
• Corelare intre etichete de clase şi
atribute
• Informaţie mutuală Search Reduced
Strategy dataset
Avantaj: cost computaţional relativ mic
Dezavantaj: ignoră impactul setului redus Subset Quality Model

Learning
de date asupra algoritmului de
extragere a modelului din date
Quality
Evaluation Reduced
Model

Exemplu: set artificial de date: 10 atribute, 2 clase
Atribute 1: identic cu eticheta clasei

Atribute 2-6: valori aleatoare cu rep. normală N(m1,s1) (class 1), N(m2,s2)
(class 2)
Atribute 7,8: valori constante pentru toate instanţele
Atribute 9,10: valori aleatoare uniform repartizate (U(a,b)) pt toate instanţele
F2 vs. F1
F6 vs. F5
F10 vs. F9
Criteriu nesupervizat de selecţie (se bazează doar pe
date – fără a se cunoaşte etichetele claselor)
Notaţii:
M={x1,x2,…,xN} set de date cu N instanţe, fiecare
conţinând n atribute
A= set de atribute
Idee:
 Se calculează similarităţile între perechile de date

din set
 Se calculează entropia asociată matricii de
similaritate (este o măsură a informaţiei conţinute
în setul de date)
 Se analizează efectul fiecărui atribut asupra valorii
entropiei şi se elimină atributele care au cel mai
mic impact asupra entropiei
Criteriu nesupervizat de selecţie
Măsuri de similaritate (calculate folosind un set de atribute A)
Atribute numerice
n
Sij ( A) = exp(−αd ( xi , x j )), d ( xi , x j ) = ∑ (x
k =1
ik − x jk ) 2
α = ct. (e.g. 0.5)

Atribute nominale/ordinale/binare
1 n
Sij ( A) = ∑ I ( xik ,x jk ), I (a, b) = 1 daca a = b;
n k =1
I (a, b) = 0 daca a ≠ b

Criteriu nesupervizat de selecţie
N −1 N
Entropia E ( S , A) = − ∑ ∑ ( Sij ( A) ln( Sij ( A)) + (1 − Sij ( A)) ln(1 − Sij ( A)))
i =1 j =i +1
Obs: dpdv intuitiv, entropia măsoară impredictibilitatea conţinutului

informaţional sau gradul de dezordine
Algoritm
Pas 1. se porneşte cu întreg setul de atribute A

Pas 2. pt fiecare atribut ai se calculează E(S,A-{ai}) şi se ierarhizează atributele
crescător după valoarea E(S,A)- E(S,A-{ai})
Pas 3. se elimină primul atribut din lista ordonată (atributul a cărui eliminare a
condus la cea mai mică pierdere în entropie) şi se repetă Pas 2 – Pas 3
până când rămâne un singur atribut în A (sau până când reducerea în
entropie la eliminarea unui atribut depăşeşte un prag)

Criteriu supervizat de selecţie – atribute cu valori discrete
Gini index: măsoară puterea de discriminare a unui atribut
Notaţii:
A1, A2, …, An - atribute, C1, C2, …, CK – clase
vi1,vi2…., vir – valori posibile ale atributului i (se poate utiliza doar pt atribute cu
valori discrete; ri numărul de valori ale atributului Ai)
index Gini pt atributul Ai

ri K
1
G ( Ai ) =
N
∑ n G (v
j =1
ij ij ), G (vij ) = 1 − ∑ pijk
2
k =1
nij = numarul de instante pt care Ai are valoarea vij

numar de instante in Ck cu Ai = vij
pijk =
numar de instante cu Ai = vij
Interpretare: valori mici ale lui G(Ai) sugerează o putere mare de discriminare a
lui Ai
Criteriu supervizat de selecţie – atribute cu valori discrete
Scor Fisher: măsoară puterea de discriminare a unui atribut
Notaţii: A1, A2, …, An - atribute, C1, C2, …, CK – clase
vi1,vi2…., vir – valori posibile ale atributului i (se poate utiliza doar pt atribute cu
valori discrete; ri numărul de valori ale atributului Ai)
K
∑ k ik i
n ( µ − µ ) 2
F ( Ai ) = k =1
K
∑n ρ
k =1
k
2
ik
nk = numar de instante in clasa Ck

µik = media valorilor lui Ai corespunzatoare
instantelor din Ck
ρ ik2 = varianta valorilor
µi = media valorilor atributului Ai
Interpretare: valori mari ale lui F(Ai) sugerează putere mare de discriminare pt
Ai
Selecţie supervizată/criteriu de ponderare– atribute numerice
{xic ; i = 1, N }, xic ∈ R n , c ∈ { 1,...,k} eticheta clasa Exemplu:
Set artificial de date: 10
w = (w1,...,wn ), vector pondere
atribute, 2 clase
d w - masura disimilaritate
 Compacitate (within-class) Atribut 1: identic cu eticheta
1 k nr
1 nc clasei
C1 ( w) =
N
∑∑ d w
c
(
i x , mc ), mc =
nc
∑x c
i
c =1 i =1 i =1 Atribute 2-6: valori aleatoare
din N(m1,s1) (clasa 1),
N(m2,s2) (clasa 2)
F2 vs. F1
Atributes 7,8: valori
constante
F6 vs. F5
Atribute 9,10: valori
aleatoare cu repartiţia
uniformă (U(a,b))
F10 vs. F9
atribute, 2 clase
 Compacitate (within-class) Atribut 1: identic cu eticheta
1 k nc
1 nc clasei
C1 ( w) =
N
∑∑ d w
c
(
i x , mc ), mc =
nc
∑x c
i
c =1 i =1 i =1 Atribute 2-6: valori aleatoare
(de minimizat) din N(m1,s1) (clasa 1),
N(m2,s2) (clasa 2)
 C1(1,1,1,1,1,1,1,1,1,1,1)=0.88
 C1(1,1,1,1,1,1,1,1,1,0,0)=0.78
constante
 C1(1,1,1,1,1,1,1,0,0,0,0)=0.78
 C1(1,1,1,0,0,0,0,0,0,0,0)=0.49 Atribute 9,10: valori
 C1(1,1,0,0,0,0,0,0,0,0,0)=0.34 aleatoare cu repartiţia
 C1(1,0,0,0,0,0,0,0,0,0,0)=0 uniformă (U(a,b))

atribute, 2 clase
 Separare (between-class) Atribut 1: identic cu eticheta
clasei
k k
1 1
C2 ( w) =
N
∑
c =1
n d
c w ( mc , m ), m =
N
∑n m
c =1
c c
Atribute 2-6: valori aleatoare
din N(m1,s1) (clasa 1),
N(m2,s2) (clasa 2)
(de maximizat)
 C2(1,1,1,1,1,1,1,1,1,1,1)=0.51
 C2(1,1,1,1,1,1,1,1,1,0,0)=0.50 constante
 C2(1,1,1,1,1,1,1,0,0,0,0)=0.50
 C2(1,1,1,0,0,0,0,0,0,0,0)=0.49 Atribute 9,10: valori
 C2(1,1,0,0,0,0,0,0,0,0,0)=0.49 aleatoare cu repartiţia
 C2(1,0,0,0,0,0,0,0,0,0,0)=0.49 uniformă (U(a,b))
 C2(1,0,0,0,0,0,0,0,0,1,1)=0.50
Abordare de tip “înveliş” Initial dataset
• Acurateţe = număr de date corect

clasificate/ număr total de date
Search Reduced
• Obs: evaluarea fiecărei Strategy Dataset
submulţimi necesită antrenarea
întregului model
Subset Quality Reduced
Avantaj: se foloseşte de impactul Model
submulţimii de atribute asupra
performanţei modelului Model
Learning
Dezavantaj: evaluarea este
costisitoare
Quality Wrapper based
Evaluation selector

Selecţia instanţelor
Selecţia poate fi aplicată nu doar Features
atributelor ci şi instanţelor.
instances
Exemplu (clasificare în 2 clase):
ar fi suficient să se folosească doar
datele din vecinătatea frontierei celor
Selectie
două clase
instante
Abordări:
• Selecţie aleatoare (cu sau fără
revenire)
• Selecţie stratificată Selectie
atribute
simultan

Transformarea atributelor
Scop:
• Îmbunătăţirea calităţii modelului extras din date prin eliminarea influenţei
induse de scale diferite pt diferite atribute sau de corelaţii între atribute
Variante:
• Scalare
• Standardizare
• Normalizare
• Proiecţie – analiza componentelor principale (Principal Component Analysis)
Obs: aceste transformări pot fi aplicate doar atributelor numerice

Normalizare
Scalare : Scalare liniara :
• Scalare liniară
xij − min j
• Este sensibilă la valorile atipice zij = , i = 1, n j = 1, d
max j − min j
Standardizare: Standardizare :
• Se scade media şi se împarte la xij − m( X j )
abaterea standard zi =
j
j
, i = 1, n j = 1, d
s( X )
• Mai robustă decât scalarea liniară
1 n j 1 n
m( X ) = ∑ xi , s ( X ) =
j j
∑ ( xi
j
− m ( X j 2
))
Normalizare euclidiană: n i =1 n i =1
• Se împarte fiecare componentă la Normalizare :
normă (e.g. Norma euclidiană)
d
Zi = X i / X , X = ∑ i ) , i = 1, n
( x
j =1
j 2

Analiza componentelor principale
Principal Component Analysis (PCA):
• Se proiectează datele pe direcţia de
variabilitate maximă
Orthogonal projection [Zaki, 2014]
PCA visualization:
http://setosa.io/ev/principal-component-analysis/
Iris dataset – 3D bases [Zaki, 2014]

Principal Component Analysis (PCA)
Se proiectează datele pe direcţiile care captează cea mai

mare variabilitate din date
Intrare: set de dat cu N instanţe având n atribute

numerice (matrice de date D cu N linii şi n coloane)
Ieşire: matrice de date cu N instanţe având m<n atribute
(a.î. este conservată cât mai mult din variabilitatea
datelor)
Obs:
• PCA concentrează informaţia privind diferenţele dintre instanţe într-un număr
mic de atribute
• PCA se utilizează pt a proiecta un set de date n-dimensional într-un spaţiu m-
dimensional astfel încât atributele în noul spaţiu sunt necorelate şi este
conservată cât mai mult din variabilitatea datelor
Principal Component Analysis (PCA)
Etape principale:
• Se calculează matricea de covarianţă C (matrice nxn cu elementele:

C(i,j)=cov(D(i),D(j)), unde D(i) este coloana i a matricii de date D);
• Se calculează valorile proprii şi vectorii proprii ai matricii C vectorii proprii

descrescătoare după valoarea proprie corespunzătoare
• Se selectează vectorii proprii care corespund celor mai mari m valori proprii
• Se proiectează setul de date D pe hiper-spaţiul definit de cei m vectori

proprii

Principal Component Analysis (PCA) – elemente de statistică si algebra liniară
Matrice de covarianta C = (cij )i =1,n , j =1,n

1 N 1 N
cij = ∑ ( xki − µi )( xkj − µ j ) = ∑ xki xkj − µi µ j , i = 1, n, j = 1, n
N k =1 N k =1
µi = media valorilor atributului i, cii = varianta atributului i
C are n vectori proprii v1 , v2 , ..., v n corespunzatori

celor n valori proprii λ1 , λ2 , ..., λn
Cvi = λi vi (C transforma vectorii proprii doar prin scalare)
Obs : C este simetrica si pozitiv - semidefinita
(x T Cx ≥ 0 pt orice vector x) ⇒ toate valorile proprii sunt pozitive
Proiecţia pe spaţiul definit de un vector (transformare în date uni-dimensionale)

 dacă v este direcţia corespunzătoare unui vector propriu atunci proiecţia lui
D pe v est Dv (produsul dintre matricea cu N linii şi n coloane şi a
vectorului v cu n elemente)
 Covarianţa noului set de date (e de fapt varianţa întrucât datele sunt uni-
dimensionale)
( Dv)T ( Dv)
− ( µv) = v Cv = v λv = λ v = λ
2 T T 2
N
obs : vectorii proprii sunt ortonormati : viT v j = 0, v = 1
 Varianţa proiecţiei uni-dimensionale pe un vector propriu este egală cu
valoarea proprie corespunzătoare, deci pt a capta cât mai multă variabilitate
trebuie aleasă cea mai mare valoare proprie

Proiecţia setului de date pe hiper-spaţiul definit de mai mulţi vectori proprii

 Rezultat util din algebra liniară:
C = PΛP T (C poate fi descompusa folosind matricea de vectori propri)

P are vectorii proprii pe coloane
P este matrice ortogonală : PP T = I n×n
Λ este o matrice diagonala care contine valorile proprii
 Vectorii proprii (fiind ortogonali) definesc un sistem de axe de coordonate
Proiecţia setului D în noul sistem de coordonate este D’=DP
 Intrebare: care este matricea de covarianţă a noului set D’ ?


 Intrebare: care este matricea de covarianţă a noului set D’
D ' = DP, X k' = PT X k

N
1
C' =
N
∑ (
k =1
P T
X k − P T
M )( P T
X k − P T
M ) T
=
N
1
=
N
∑P
k =1
T
( X k − M )( X k − M )T P =
= PT CP = PT PΛP T P = Λ = diag (λ1 , λ2 ,..., λn )
Deci din D’ sunt necorelate (matricea de covarianţă este diagonală) şi varianţa

corespunzătoare atributului i este a i-a valoare proprie


 Intrebare: ce se întâmplă dacă se păstrează doar m dintre componentele
unui vector transformat?
 Raspuns: se conservă doar o fracţiune din variabilitatea datelor
 Ipoteza: valorile proprii sunt sortate descrescător
 Procedura: se calculează raportul varianţelor (R) şi se alege m a.î. R>prag
prestabilit (e.g. R>0.95)
 Rezultat: noul set de date (cu cele m atribute obţinute prin proiecţia pe hiper-
spaţiul definit de vectorii proprii corespunzători celor mai mari m valori proprii)
captează cea mai mare parte din variabilitate (e.g. 95%)
m
∑λ i
Proportia variantelor : R = i =1
n
∑λ
i =1
i

Exemplu: setul de date iris
4 atribute numerice:
A1=lungime sepale, A2=lăţime sepale, A3=lungime petale, A4=lăţime petale,
3 clase
150 instanţe
Matrice de covarianţă: Vectori proprii (coloane)

1 -0.11 0.87 0.82 0.52 -0.37 0.72 0.26
-0.11 1 -0.42 -0.36 -0.26 -0.93 -0.24 -0.12
0.87 -0.42 1 0.96 0.58 -0.02 -0.15 -0.80
0.82 -0.36 0.96 1 0.57 -0.06 -0.63 -0.53
Valori proprii: 2.91 0.92 0.14 0.02

R= (2.91+0.92)/(2.91+0.92+0.14+0.02)=0.96 (prin proiecţia datelor pe spaţiul
definit de primii 2 vectori proprii se conservă 96% din variabilitatea datelor)

Exemplu: setul de date iris
4 atribute numerice:
A1=lungime sepale, A2=lăţime sepale, A3=lungime petale, A4=lăţime petale,
3 clase
150 instanţe
Matrice de covarianţă: Vectori proprii (coloane)

1 -0.11 0.87 0.82 0.52 -0.37 0.72 0.26
-0.11 1 -0.42 -0.36 -0.26 -0.93 -0.24 -0.12
0.87 -0.42 1 0.96 0.58 -0.02 -0.15 -0.80
0.82 -0.36 0.96 1 0.57 -0.06 -0.63 -0.53
Atribute noi: 0.52*A1-0.26*A2+0.58*A3+0.57*A4

-0.37*A1-0.93*A2-0.02*A3-0.06*A4

Curs următor
Modele de clasificare:
 Concepte de bază
 Clasificatori
 Vot simplu (ZeroR)
 Reguli cu un atribut(OneR)
 Clasificatori bazaţi pe instanţe (kNN)
 Măsuri de evaluare a calităţii clasificării

Curs 3-4:
Clasificarea datelor (I)
Data Mining - Curs 3-4 (2017) 1

Structura
 Motivare
 Concepte de bază în clasificare
 Măsuri de performanţă
 Clasificatori
 Bazați pe clasa majoritară (ZeroR)
 Reguli simple de clasificare (OneR)
 Construirea arborilor de decizie
 Extragerea regulilor de clasificare
 Clasificatori bazați pe instanțe (kNN)

Motivare
Reminder: procesul de descoperire a cunoștințelor
Data mining:
 Clasificare
 Grupare
 Regresie
 Asociere
 Detecție anomalii

Motivare
Reminder: exemple de probleme de clasificare
 Clasificarea celulelor tumorale in benigne sau maligne (diagnoză

medicală)
 Clasificarea tranzacţiilor efectuate cu cărți de credit ca fiind legale

sau frauduloase
 Clasificarea știrilor pe domenii: finanțe, meteo, divertisment, sport,

etc (clasificare documente)
 Clasificarea e-mail-urilor ca spam sau utile (spam filtering)

Motivare
• Diagnoza medicală = prezicerea prezenței/absenței unei boli pe baza
informațiilor disponibile într-o inregistrare medicală
Exemplu de set de date (breast-cancer-wisconsin - arff format –Lab 1)

@attribute Bland_Chromatin integer [1,10]
@attribute Normal_Nucleoli integer [1,10]
@attribute Class { benign, malignant}
@data
5,1,1,1,2,1,3,1,1,benign
5,4,4,5,7,10,3,2,1,benign
3,1,1,1,2,2,3,1,1,benign
8,10,10,8,7,10,9,7,1,malignant
1,1,1,1,2,10,3,1,1,benign

Concepte de bază
Ce se cunoaște?
 O colecție de înregistrări (instanțe) pentru care se cunoaște clasa
căreia îi aparțin (set de date etichetate)
 Fiecare înregistrare conține un set de atribute, iar unul dintre aceste
atribute este eticheta clasei
Ce se caută?
 un model care „captează” relația dintre atributul asociat clasei și
celelalte atribute (modelul este construit folosind un set de antrenare
printr-un proces numit antrenare/învățare supervizată)

 Să se poată utiliza modelul construit prin antrenare pentru a
determina clasa căreia îi aparține o nouă dată
Obs:
 Pentru a fi util un model trebuie să aibă o bună acuratețe; acuratețea se
măsoară analizând comportamentul modelului pentru date care nu au fost
folosite în etapa de antrenare (set de test)
Concepte de bază
Invățare/ inducție/ inferență = construirea unui model pornind de la date (si
eventual de la cunoștințe apriori privind domeniul)
Intre date, model, cunostințe si răspunsuri există diferite legături:

inducție vs deducţie vs transducţie
Cunoaștere apriori
Model
Inducție Deducție
Răspuns
Date
(predicție)
Transducție

Concepte de bază
Invățare/ inducție/ inferență = construirea unui model pornind de la date (si
eventual de la cunoștințe apriori privind domeniul)
Intre date, model, cunostințe si răspunsuri există diferite legături:

inducție vs deductie vs transductie
Cunoaștere apriori
Model
Inducție (clasificator) Deducție
(construirea clasificatorului (aplicarea clasificatorului
prin învățare supervizată) unor date noi)
Data Predicţie
Transducție
(traseu scurt – (clasa asociată unei
(exemple de date
necesită expertiză date neincluse în setul
etichetate)
umană) de antrenare)
Concepte de bază
Informaţie disponibilă: Scop:
• Set de date etichetate:  Construirea unui clasificator C
– D={(x1,c1),(x2,c2),…, (xN,cN)} folosind setul de date D a.î.
– fiecare xi are n atribute  C poate prezice cărei clase îi
– Eticheta clasei ci aparţine mulţimii aparţine o nouă dată x
{1,2,…,K}
Learning Dataset D Testing Usage
Training set R Testing set T Real data
Validation set V
Classification Classification
Model Model
Classification Cross- Classifi-

Model validation cation
Answer
Modele de clasificare
Un model de clasificare este o “mapare” între valori ale atributelor şi etichete
ale claselor
Exemple de modele de clasificare:

 Arbori de decizie
 Reguli de clasificare
 Modele bazate pe prototipuri
 Modele probabiliste
 Reţele neuronale etc.
Un model de clasificare trebuie să fie:
 Acurat:
 Identifică clasa corectă
 Compact / comprehensibil
 Uşor de interpretat de către utilizator (să nu fie de tip “cutie neagră”)
 Eficient în
 Etapa de antrenare
 Etapa de clasificare
Exemplu
@attribute Bland_Chromatin integer [1,10] Regulă simplă de clasificare:
@attribute Normal_Nucleoli integer [1,10] IF (Cell_Size_Uniformity< 3.5)
@attribute Class { benign, malignant} THEN benign
@data ELSE malignant
5,1,1,1,2,1,3,1,1,benign
5,4,4,5,7,10,3,2,1,benign
3,1,1,1,2,2,3,1,1,benign
8,10,10,8,7,10,9,7,1,malignant
1,1,1,1,2,10,3,1,1,benign
….

Exemplu
@attribute Bland_Chromatin integer [1,10] Regulă simplă de clasificare:
@attribute Normal_Nucleoli integer [1,10] IF (Cell_Size_Uniformity< 3.5)
@attribute Class { benign, malignant} THEN benign
@data ELSE malignant
5,1,1,1,2,1,3,1,1,benign
5,4,4,5,7,10,3,2,1,benign
3,1,1,1,2,2,3,1,1,benign Întrebare: Cât de bună este
8,10,10,8,7,10,9,7,1,malignant această regulă?
1,1,1,1,2,10,3,1,1,benign
…. In 92.7% din cazuri regula indică clasa corectă
Cum a fost calculată această valoare?
Cum ar trebui interpretată?
Exemplu: un model mai complex (arbore de decizie)
Performanţa: în 94.56% din cazuri clasificatorul indică clasa corectă

Ce se poate spune despre lizibilitatea clasificatorului?

Măsuri de performanţă
Context: considerăm o problemă de clasificare în 2 clase
 Clasa 1 – pozitivă (ex: malignant)
 Clasa 2 – negativă (ex: benign)
Cel mai simplu mod de a măsura performanţa este de a analiza în câte cazuri
clasificatorul indică răspunsul corect – această informaţie poate fi furnizată prin
intermediul matricii de confuzie
Matrice de confuzie:
C1 C2  răspunsul clasificatorului
C1 TP FN
C2 FP TN
Clasa adevărată
TP = True Positive = nr de cazuri din C1 care sunt clasificate (corect) în C1
TN = True Negative = nr de cazuri din C2 care sunt clasificate (corect) în C2
FP = False Positive = nr de cazuri din C2 dar care sunt clasificate (incorect) în C1
FN = False Negative = nr de cazuri din C1 dar care sunt clasificate (incorect) în C2
Cazul a K clase:
 Se poate construi câte o matrice de confuzie 2x2 pt fiecare dintre clase (clasa
curentă este considerată clasa pozitivă şi toate celelalte clase sunt agregate în
clasa negativă)
 Se extinde matricea la cazul a K clase: K linii şi K coloane
Confusion matrix:
C1 C2 ... Cj … CK  răspunsul clasificatorului
C1 T1 F12 … F1j … F1K
C2 F21 T2 … F2j … F2K Fij = nr de cazuri care ar trebui clasificate
… … … … în Ci dar sunt clasificate în Cj
Ci Fi1 Fi2 Fij FiK
… … … …
CK FK1 FK2 F1Kj TK
Clasa adevărată Data Mining - Curs 3-4 (2017) 15

Acurateţe = (TP+TN)/(TP+TN+FP+FN) = nr date clasificate corect/ nr total de date
Sensitivitate = TP/(TP+FN) (TP rate sau recall = rata de regăsire)
Specificitate = TN/ (TN+FP) (TN rate), 1-specificitate=FP/(TN+FP) = FP rate
Precizie = TP/(TP+FP) (nr cazuri real pozitive/ nr cazuri clasificate ca fiind pozitive)
Obs:
 Toate valorile sunt în [0,1]; valori mai mari sugerează performanţă mai bună
 Sensitivitatea şi specificitatea sunt utilizare frecvent în analiza datelor medicale
 Precizia şi rata de regăsire se folosesc în domeniul regăsirii informaţiei
(information retrieval) Data Mining - Curs 3-4 (2017) 16
In contextul regăsirii informaţiei:
Precision = TP/(TP+FP) = card(relevant şi regăsit)/ card(regăsit)

Recall = TP/(TP+FN) = card(relevant and regăsit)/ card(relevant)
O variantă agregată frecvent utilizată este media armonică:
F-measure=2*precision*recall/(precision+recall)

Acurateţe ponderată de costuri (Cost sensitive accuracy)

 In anumite cazuri (ex: diagnoză medicală) clasificarea incorectă într-o clasă
poate avea un impact mai mare decât clasificarea incorectă în altă clasă (e.g.
nedetectarea unui caz de cancer poate fi mai periculoasă decât nedetectarea
unui caz normal) - FN ar trebui să fie cât mai mic
 In alte cazuri (detecţie atacuri informatice) ar trebui ca FP să fie cât mai mic
In astfel de situaţii se pot utiliza ponderi (interpretate ca şi costuri ale erorii în
clasificare) diferite pentru cele două tipuri de erori
 CostAccuracy=(cost1*n1*sensitivity+cost2*n2*specificity)/(cost1*n1+cost2*n2)
 costi = costul clasificării incorecte a datelor din clasa Ci
 ni = numărul de date din Ci
Cel mai simplu clasificator
Exemplu:
 Considerăm setul de date “sick” de la UCI Machine Learning
 Conţine 3772 înregistrări (aferente unor pacienţi), dintre care:

 231 sunt bolnavi (clasa C1 – pozitivă)
 3541 sunt sănătoşi (clasa C2 – negativă)
 Ne interesează să construim un clasificator a cărui acurateţe pt acest set

de date să fie cel puţin egală cu 0.9 (90%)
 Care este cel mai simplu clasificator care satisface această cerinţă?

Exemplu:
 Considerăm setul de date “sick” de la UCI Machine Learning
 Conţine 3772 înregistrări (aferente unor pacienţi), dintre care:

 231 sunt bolnavi (clasa C1 – pozitivă)
 3541 sunt sănătoşi (clasa C2 – negativă)
 Ne interesează să construim un clasificator a cărui acurateţe pt acest set

de date să fie cel puţin egală cu 0.9 (90%)
 Care este cel mai simplu clasificator care satisface această cerinţă?
 Considerând regula: “indiferent de valorile atributelor clasa este C2
(negativă)” obţinem acurateţea=3541/3772=0.94>0.9
 Este un astfel de clasificator adecvat? Are vreo utilitate?
 Este un astfel de clasificator adecvat? Are vreo utilitate?
 Acest clasificator, denumit ZeroR (întrucât se bazează pe o regulă de

clasificare care nu conţine nici un atribut în membrul stâng) utilizează
doar distribuţia datelor în cele două clase şi va returna întotdeauna
eticheta celei mai populare clase (se bazează pe un mecanism simplu
de votare)
 Nu este adecvat întrucât produce răspuns incorect pt toate datele din

clasa cu mai puţine elemente
 Totuşi ... poate fi utilizat pentru a determina o margine inferioară pt

acurateţea unui clasificator: un clasificator cu acurateţe mai mică decât
ZeroR ar trebui evitat

...din nou la evaluarea performanţei
 Utilizarea întregului set de date disponibile pentru construirea
clasificatorului nu este o abordare prea înţeleaptă întrucât poate
conduce la supra-antrenare:
 Clasificatorul se comportă bine pentru datele din setul de
antrenare...
 ... dar are performanţe slabe pentru alte date
 O abordare mai bună este să se dividă setul de date în:
 Subset de antrenare (utilizat pt construirea clasificatorului)
 Subset de testare (utilizat pt estimarea performanţei)
 Există diferite strategii de divizare a setului de date în subseturi

(antrenare şi testare)
Obs: Pe lângă subsetul de testare se poate folosi şi un subset de validare

(utilizat pentru ajustarea parametrilor clasificatorului)
...din nou la evaluarea performanţei
Strategii de divizare:
 Holdout
 Se reţin 2/3 din set pt antrenare şi 1/3 pt testare
 Holdout repetat
 Se repetă partiţionarea (performanţa este calculată ca medie a
valorilor determinate la fiecare repetare a divizării)
 Validare încrucişată
 Se divide setul aleator în k subseturi disjuncte
 k-fold: se folosesc k-1 subseturi pt antrenare, iar al k-lea se
foloseşte pt testare (evaluarea performanţei)
 Leave-one-out: k=n
 Eşantionare repetată (util în cazul seturilor nebalansate)

 oversampling vs undersampling
 Bootstrap
 Selecţie cu revenire
Dincolo de ZeroR
Set de date: sick.arff, 29 atribute, 3772 instanţe (231 în clasa C1, 3541 în
clasa C2), 2 clase
ZeroR (clasa e întotdeauna C2): acurateţe=0.94
OneR: permite construirea de reguli de clasificare care conţin un singur

atribut în membrul stâng
Exemple de reguli (obţinute folosind Weka OneR):
If T3< 0.25 then C2 (negative)
If T3 in [0.25, 0.35) then C1 (sick)
If T3 in [0.35, 0.55) then C2 (negative)
If T3 in [0.55, 1.15) then C1 (sick)
If T3 >= 1.15 then C2 (negative)
If T3 value is missing then C2 (negative) Acurateţe: 0.96
OneR
Ideea principală: identifică atributul cu cea mai mare putere de discriminare şi
îl utilizează pentru a defini regulile de clasificare
Obs: este adecvat pentru atributele care au valori discrete
Algoritm:
FOR each attribute Ai do
FOR each value vij of Ai construct
Rij : if Ai = vij then class Ck(i,j)
(clasa majoritară pt instanţele care au Ai = vij)
se combină regulile într-un set Ri corespunzător lui Ai şi se calculează
Erri (nr date clasificate incorect)
ENDFOR
ENDFOR
Selectează setul de reguli cu eroarea cea mai mică
OneR
Exemplu: weather/play dataset
Outlook: err=4
sunny: 2 yes/ 3 no ( no)
overcast: 4 yes/ 0 no ( yes)
rainy: 3 yes/2 no (yes)

OneR
Example: weather/play dataset
Outlook: err=4
Temperature: err=5
hot: 2 yes/2 no ( yes)
mild: 4 yes/2 no ( yes)
cool: 3 yes/ 1no ( yes)

OneR
Example: weather/play dataset
Outlook: err=4
Temperature: err=5
cool: 3 yes/ 1no ( yes)
Humidity: err=5
high: 4 yes/ 4 no ( yes)
normal: 6 yes/ 1 no ( yes)

OneR
Outlook: err=4
Temperature: err=5
cool: 3 yes/ 1no ( yes) Reguli: weather/play dataset
Humidity: err=5 If outlook=sunny then “no”
high: 4 yes/ 4 no ( yes) If outlook=overcast then “yes”
normal: 6 yes/ 1 no ( yes) If outlook=rainy then “yes”
Windy: err=5 Acurateţe (set antrenare): 0.71
true: 3 yes/3 no ( yes) Acurateţe (validare încrucişată): 0.43 (!!)
false: 6 yes/ 2 no ( yes)
OneR
Reguli: weather/play dataset

If outlook=sunny then “no”
If outlook=overcast then “yes”
If outlook=rainy then “yes”
Etapa de clasificare:
• Altă zi: (outlook=rainy, temperature=cool, humidity=high, windy=false)
• Răspuns: Yes

OneR
Sumar implementare OneR
 Construirea setului de reguli (etapa de antrenare)

 Input: set de antrenare (instanţe etichetate)
 Output: set de reguli simple (toate regulile implică un singur
atribut – acelaşi atribut în toate)
 Algoritm: se analizează toate atributele şi valorile
corespunzătoare acestora şi se selectează atributul pentru
care eroarea de clasificare este minimă
 Utilizarea regulilor (etapa de clasificare)
 Input: set de reguli, dată (instanţă) nouă
 Output: eticheta clasei
 Algoritm:
 Identifică regula care se potriveşte cu data
 Returnează clasa corespunzătoare regulii identificate

Arbori de decizie
Set de date: weather/play Arbore de decizie (construit folosind
Weka)
–c
Cum poate fi utilizat un arbore de decizie?
Ce clasă corespunde unei noi instanţe?

(outlook=sunny, temperature=mild, humidity=normal, windy=False)?

Arbori de decizie
Weka)
–c
Cum poate fi utilizat un arbore de decizie?
Ce clasă corespunde unei noi instanţe?

(outlook=sunny, temperature=mild, humidity=normal, windy=False)?
Clasa: Yes
Arbori de decizie
Weka)
–c
Cum poate fi tradus într-un set de reguli

de clasificare? Fiecare ramură conduce la
o regulă
Regula 1: IF outlook=sunny and humidity=high THEN play=no
Regula 2: IF outlook=sunny and humidity=normal THEN play=yes
Regula 3: IF outlook=overcast THEN play=yes
Regula 4: IF outlook=rainy and windy=True THEN play=no
Regula 5: IF outlook=rainy and windy=False THEN play=yes
Arbori de decizie
Cum poate fi construit un arbore de decizie Weather/play dataset
pornind de la date?
 Se alege un atribut şi se plasează în

rădăcina arborelului
 Pt fiecare valoare posibilă a atributului of
(cele prezente în setul de date) se
construieşte o ramură
 Se partiţionează setul de date în subseturi
corespunzătoare fiecărei ramuri
 Dacă un subset conţine date ce
aparţin unei singure clase atunci el va
corespunde unui nod frunză (nu se
mai ramifică) –nod pur
 Dacă subsetul conţine date din mai
multe clase atunci se continuă
procesul de partiţionare până când Problemă: în ce ordine ar trebui
 se ajunge la un nod pur analizate atributele? Ce condiţie
 pe ramura respectivă au fost deja de testare ar trebui asociată cu
analizate toate atributele fiecare nod?
 subsetul corespunzător ramurii
este vid
Arbori de decizie
In ce ordine ar trebui analizate atributele? Set de date: weather/play (date
selectate)
Ideea principală:
• Se selectează atributul care conduce la

un arbore cât mai simplu adică un
atribut cu grad de puritate cât mai mare
(ideal ar fi ca pentru fiecare valoare a
atributului datele corespunzătoare să
aparţină aceleiaşi clase)
Exemplu:
Obs:
 Toate nodurile frunză sunt “pure”
outlook (conţin date ce aparţin aceleiaşi
sunny rainy clase)
 Conduce la reguli cu un singur
overcast atribut în membrul stâng
no (0,3) yes (3,0)  O astfel de situaţie se întâmplă rar
pentru date reale
yes (4,0)
Arbori de decizie
Principalele probleme ce trebuie soluţionate la construirea unui arbore de
decizie
• Ce condiţii de test trebuie asignate ramurilor corespunzătoare unui nod ?

• Depinde de tipul atributului
• Nominal, ordinal, continuu
• Depinde de gradul de ramificare dorit:
• Ramificare binară (setul curent de date este împărţit în două
subseturi)
• Ramificare multiplă (setul curent de date este împărţit în mai multe
subseturi)
• Ce atribut ar trebui selectat pentru partiţionare?

• Cel cu puterea cea mai mare de discriminare – cel ce asigură
partiţionarea setului curent în subseturi cu grad mare de puritate
• Criterii ce pot fi utilizate:
• Bazate pe entropie (ex: câştig informaţional)
• Index Gini
• Măsură a erorii de clasificare

Arbori de decizie
• Ce condiţii de test trebuie asignate ramurilor corespunzătoare unui nod ?
Atribute nominale şi ordinale:
 Ramificare multiplă (multi-way): atâtea ramuri câte valori posibile are

atributul
 Ramificare binară (2-way): două ramuri
Multi-way 2-way
outlook outlook
sunny rainy sunny rainy
overcast {overcast, rainy}
no (0,3) yes (3,0) no (0,3)
yes (4,0) yes (7,0)

Arbori de decizie
Ce condiţii de test trebuie asignate ramurilor corespunzătoare unui nod?
Atribute numerice:
 Trebuie discretizate în prealabil, după care se aplică strategia specifică

atributelor nominale sau ordinale
Ce atribut se selectează pentru partiţionare?
 Acel atribut care conduce la reducerea maximă în conţinutul de informaţie

necesar pentru a lua decizia corectă
Exemplu: information gain
Câştig informaţional =
Entropia(distribuţia datelor înainte de partiţionare) –
EntropiaMedie distribuţia datelor după partiţionare)

Reminder: entropie
Fie D=(p1,p2, …, pk) o distribuţie de probabilitate. Entropia asociată acestei
distribuţii de probabilitate este caracterizată de:
k
H ( D ) = H ( p1 , p2 ,..., pk ) = − ∑ pi log pi
i =1
şi poate fi interpretată ca o măsură a incertitudinii (sau surprizei) când se
generează/selectează o valoare în pe baza acestei distribuţii
Caz particular: k=2 => p1=p, p2=1-p
Obs:
Interpretare Log[1/p] : surpriza de a observa un eveniment caracterizat de o
probabilitate mică (eveniment neaşteptat) este mai mare decât cea
corespunzătoare unui eveniment de probabilitate mai mare (eveniment
aşteptat) Data Mining - Curs 3-4 (2017) 40
Reminder: entropie
In contextul rezolvării problemelor de clasificare:
 D={C1,C2,…,Ck} (set de date distribuit in k clase)
 Distribuţia de probabilitate (p1,p2, …, pk), pi=card(Ci)/card(D)
 Fie A un atribut şi v1,v2,…,vmA valorile posibile ale acestui atribut

 Fie Dj=setul de date din D pt care atributul A are valoarea vj şi Pj distribuţia
datelor din Dj în cele k clase (Cji= set de date din clasa Ci care au valoarea
vj pt atributul A)
 Câştigul informaţional obţinut prin partiţionarea setului de date folosind

atributul A este: m k
IG ( D, A) = H ( D ) − ∑ P( D j | A = v j ) H ( D j | A = v j ), H ( D ) = − ∑ p i log pi
A
j =1 i =1
k
card (C ji )
H ( D j | A = v j ) = − ∑ pij log pij , pij =
i =1 card (Ci )
card ( D j )
P( D j | A = v j ) =
card ( D ) Data Mining - Curs 3-4 (2017) 41
Alegerea atributului de ramificare
Exemplu
 Distribuţia claselor (C1=“yes”, C2=“no”):
 p1=9/14, p2=5/14
 H(p1,p2)=0.94
Outlook
C1 (yes) C2(no) Frequency

Sunny 2/5 3/5 5/14
Overcast 4/4 0/4 4/14
Rainy 3/5 2/5 5/14
H(sunny)=-2/5*log(2/5)-3/5*log(3/5)=0.97
H(overcast)=-1*log(1)-0=0
H(rainy)=-3/5*log(3/5)-2/5*log(2/5)=0.97
IG(outlook)=0.94-5/14*0.97-4/14*0-5/14*0.97=0.94-0.69=0.25

Exemplu
 Distribuţia claselor(C1=“yes”, C2=“no”):
 p1=9/14, p2=5/14
 H(p1,p2)=0.94
Temperature

Hot 2/4 2/4 4/14
Mild 4/6 2/6 6/14
Cool 3/4 1/4 4/14
H(hot)=-2/4*log(2/4)-2/4*log(2/4)
H(mild)=-4/6*log(4/6)-2/6*log(2/6)
H(cool)=-3/4*log(3/4)-1/4*log(1/4)
IG(temperature)=0.03

Exemplu
 Distribuţia claselor (C1=“yes”, C2=“no”):
 p1=9/14, p2=5/14
 H(p1,p2)=0.94
Humidity

High 3/7 4/7 7/14
Normal 6/7 1/7 7/14
H(high)=-3/7*log(3/7)-4/7*log(4/7)
H(normal)=-6/7*log(6/7)-1/7*log(1/7)
IG(humidity)=0.15

Exemplu
 Distribuţia claselor(C1=“yes”, C2=“no”):
 p1=9/14, p2=5/14
 H(p1,p2)=0.94
Windy

False 6/8 2/8 8/14
True 3/6 3/6 6/14
H(false)=-6/8*log(6/8)-2/8*log(2/8)
H(true)=-3/6*log(3/6)-3/6*log(3/6)
IG(windy)=0.05

Exemplu
Câştigul informaţional al fiecărui atribut:
 IG(outlook)=0.25
 IG(temperature)=0.03
 IG(humidity)=0.15
 IG(windy)=0.05
Primul atribut selectat: outlook
outlook
sunny rainy
overcast
yes/no(2/3) yes/no(3,2)
yes/no (4,0)
Nod pur
Continuă ramificarea (stopare ramificare)Continuă ramificarea
Exemplu
outlook
sunny rainy
overcast
yes/no (4,0)
Nod pur
(stopare ramificare)
Temperature
C1 C2(no) Freq.
Câştig informaţional pt atributele rămase: (yes)
 Entropia pt subsetul “sunny” : Hot 0/2 2/2 2/5
H(D(sunny))=-2/5*log(2/5)-3/5*log(3/5)=0.97
Mild 1/2 1/2 2/5
 H(hot)=0, H(mild)=1, H(cool)=0 Cool 1/1 0/1 1/5
 IG(temperature)=0.97-2/5=0.57
Exemplu
outlook
sunny rainy
overcast
yes/no (4,0)
Nod pur
Humidity
C1 C2(no) Freq.
 Entropia pt subsetul “sunny” : High 0/3 3/3 3/5
H(D(sunny))=-2/5*log(2/5)-3/5*log(3/5)=0.97
Nor 2/2 0/2 2/5
 H(high)=0, H(normal)=0 mal
 IG(humidity)=0.97-0=0.97 Data Mining - Curs 3-4 (2017) 48

Exemplu
outlook
sunny rainy
overcast
yes/no (4,0)
Nod pur
Windy
C1 C2(no) Freq.
 Entropia pt subsetul “sunny” : false 1/3 2/3 3/5
H(D(sunny))=-2/5*log(2/5)-3/5*log(3/5)=0.97
true 1/2 1/2 2/5
 H(false)=0, H(true)=1
 IG(windy)=0.97-0.95=0.02 Data Mining - Curs 3-4 (2017) 49

Exemplu
outlook
sunny rainy
overcast
humidity yes/no(3,2)
high yes/no (4/0)

normal
Yes/no(0/3) Yes/no(2/0)
Câştig informaţional pt atributele rămase:
 IG(temperature)=0.97-2/5=0.57
 IG(humidity)=0.97-0=0.97
 IG(windy)=0.97-0.95=0.02

Obs:
 Câştigul informaţional favorizează atributele caracterizate printr-un număr

mare de valori
 Pentru a limita această influenţă se poate utiliza raportul (Gain Ratio):
IG ( D, A)
GainRatio( D, A) =
H ( p1A , p2A ,..., pmAA )
card ( D, A = v j )
p Aj =
card ( D)
(proportia de date care au valoarea v j pt atributul A)
 Atributul de ramificare poate fi determinat folosind indexul Gini = cât de

frecvent un element ales aleator din set ar fi clasificat incorect dacă ar fi
etichetat aleator pe baza distribuţiei corespunzătoare ramificării analizate
(cu cât mai mică valoarea cu atât mai bună)
n
Gini ( p1 , p2 ,..., pn ) = 1 − ∑ pi2
i =1
Algoritmi pentru construirea arborilor
de decizie
ID3:
 Intrare: set de date D

 Iesire: arbore de decizie (noduri interne etichetate cu atribute, noduri
frunză etichetate cu clase, muchii etichetate cu valori ale atributelor)
DTinduction (D, DT, N) /* D=set date, DT=arbore de decizie, N=nod */

find the best splitting attribute A
label node N with A
construct the splitting predicates (branches) for N
FOR each branch i from N DO
construct the corresponding data set Di
create a new child node Ni
IF <stopping condition>
THEN label Ni with the dominant class in Di (Ni is a leaf node)
ELSE DTinduction(Di,DT, Ni)

de decizie
C4.5 = îmbunătăţire a algoritmului ID3 pt a trata:
 Atribute continue:
 Incorporează procedură de discretizare
 Valori absente:
 Datele ce conţin valori absente sunt ignorate
sau
 Valorile absente sunt imputate
 Atribut de ramificare:
 Utilizează Gain Ratio pt selecţia atributului
 Simplificare sau fasonare (Pruning):

 Anumiţi subarbori sunt înlocuiţi cu noduri frunză (dacă eroarea de
clasificare nu creşte semnificativ) – abordare bottom-up
Obs:
C5.0 – varianta comerciala a algoritmului C4.5
J48 – implementarea din Weka a algoritmului C4.5

de decizie
Simplificare: outlook
 Anumiţi subarbori sunt înlocuiţi sunny rainy
cu noduri frunză (dacă eroarea
de clasificare nu creşte overcast
yes/no(2/3) yes/no (2/3)
semnificativ) – abordare
bottom-up yes/no (4,0)
Arbore : error = 0
Arbore simplificat: error = 4/14
outlook Prin simplificare eroarea pe setul

sunny rainy de antrenare creşte dar riscul de
supra-antrenare poate sa scada
overcast windy
humidity
high yes/no (4/0)

normal true
false
Yes/no(0/3) Yes/no(2/0) yes/no (2/0) yes/no (0/3)

Extragerea regulilor de clasificare
Reminder: regulile de clasificare sunt structuri de tip IF … THEN care conţin:
 In partea de antecedent (membrul stâng): condiţii privind valorile atributelor

(pot fi expresii logice care implică mai multe atribute)
 In partea de consecinţă (membrul drept): eticheta clasei
Exemple:
IF outlook=sunny THEN play=no
IF outlook=rainy THEN play=no
IF outlook=overcast THEN play=yes
Obs:
 Aceste reguli sunt extrase dintr-un arbore de decizie – fiecare ramură
conduce la o regulă
 Condiţiile referitoare la noduri aflate pe aceaşi ramură se combină prin
AND: IF (outlook=sunny) and (humidity=high) THEN play=no
 Regulile corespunzând unor ramuri diferite dar conducând la aceeaşi
consecinţă (aceeaşi etichetă de clasă) pot fi reunite prin disjuncţie (OR)
între părţile de antecedent:
IF (outlook=sunny) OR (outlook=rainy) THEN play=no
Regulile de clasificare pot fi extrase direct din date printr-un proces de
învăţare utilizând algoritmi de acoperire (covering algorithms)
Noţiuni:
 O regulă acoperă o dată dacă valorile atributelor se potrivesc cu condiţiile

din antecedentul regulii
 Similar, despre o dată se spune că activează o regulă dacă valorile
atributelor se potrivesc cu condiţiile din antecedentul regulii
 Suportul unei reguli (support) = fracţiunea din setul de date care este
acoperită de către regulă şi aparţin aceleiaşi clase ca şi regula
= |cover(R) ∩class(R ) |/|D|
 Gradul de încredere în regulă (rule confidence) = fracţiunea din datele
acoperite de regulă care au aceeaşi clasă ca cea specificată de regulă =
|cover(R) ∩class(R )|/|cover(R )|
cover( R) = subsetul de date acoperit de R

class(R) = subsetul de date care au aceeaşi clasă cu R
D= setul de date
Noţiuni:
 Reguli mutual exclusive = regiunile acoperite de reguli sunt disjuncte (o

instanţă activează o singură regulă)
 Set complet de reguli = fiecare instanţă activează cel puţin o regulă
Obs: dacă setul de reguli e complet şi regulile sunt mutual exclusive atunci
decizia privind apartenenţa unei date la o clasă este simplu de luat
Exemplu:
C0 R1: IF x>1 and y>1 THEN C0

R2: IF x<=1 THEN C1
R3: IF x>1 and y<=1 THEN C1
1
Ce se întâmplă însă dacă aceste
C1 proprietăţi nu sunt satisfăcute?

1
Obs: dacă regulile nu sunt mutual exclusive atunci pot să apară conflicte (o
instanţă poate activa reguli care au asociate clase diferite)
Conflictele pot fi rezolvate în unul dintre următoarele moduri:
 Ordonarea regulilor (pe baza unui criteriu) şi decizia se ia cf primei reguli

activate (prima regulă care se potriveşte cu instanţa). Criteriul de ordonare
poate fi corelat cu:
 calitatea regulii (e.g. Nivel încredere) – regulile cu nivel mare de
încredere sunt mai bune
 specificitatea regulii – o regulă este consideratăa mai bună dacă este
mai specifică (e.g. Reguli care corespund claselor rare)
 complexitatea regulii (e.g. Numărul de condiţii din partea de
antecedent a regulii) – regulile mai simple sunt mai bune
Obs: aceste criterii pot fi conflictuale (o regulă cu coeficient mare de
încredere nu este neapărat o regulă simplă)
 Rezultatul se obţine considerând clasa dominantă pe baza tuturor regulilor

activate de către instanţă
Algoritm secvenţial de acoperire:
Intrare: set de date

Ieşire: set ordonat de reguli
Pas 1: se selectează una dintre clase şi se identifică cea mai “bună” regulă
care acoperă datele din D care au clasa selectată. Se adaugă regula la
sfârşitul listei.
Pas 2: Se elimină datele din D care activează regula adăugată. Dacă încă
există clase netratate şi date în D go to Pas 1
Obs:
 Aceasta este structura generală a algoritmilor secvenţiali de acoperire
 Algoritmii pot să difere în funcţie de strategia de selecţie a claselor

Exemplu: RIPPER
Particularităţi:
 Ordonare bazată pe clase: clasele sunt selectate crescător după
dimensiune (clasele rare sunt selectate prima dată)
 Regulile corespunzătoare unei clase sunt plasate consecutiv în lista de

reguli
 Adăugarea unei noi reguli corespunzătoare unei clase este stopată când:
 Când regula devine prea complexă
 Când ‘următoarea’ regulă are o eroare de clasificare (pe setul de
validare) mai mare decât un prag prestabilit
 Dacă la sfârşit rămân date “neacoperite” atunci se poate defini o regulă de

tipul “catch all” căreia i se asociază clasa dominantă din setul de date
“neacoperite”

Clasificatori bazaţi pe instanţe
Ideea principală: datele similare aparţin aceleiaşi clase
 Modelul de clasificare constă tocmai din setul de antrenare

 Procesul de antrenare constă doar în stocarea datelor din set
 Clasificarea unei noi date constă în:

 Se calculează similaritatea (sau disimilaritatea) dintre noua dată şi
cele din setul de antrenare şi se identifică exemplarele cele mai
apropiate
 Se alege clasa cea mai frecventă întâlnită în subsetul celor mai
similare exemple
Obs:
 Astfel de clasificatori sunt consideraţi leneşi (“lazy”) deoarece faza de
antrenare nu presupune nici un efort de calcul (întregul efort este
amânat pentru faza de clasificare)
 Cei mai populari clasificatori din această categorie sunt cei bazaţi pe
principiul celui/celor mai apropiat/apropiaţi vecin/vecini (k-Nearest
Neighbour) Data Mining - Curs 3-4 (2017) 61
kNN – k Nearest Neighbour
 Pt fiecare dată de clasificat:
 Determină cele mai apropiate (mai similare) k exemple din setul de
antrenare
 Identifică cea mai frecventă clasă
X X X
(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor
[Tan, Steinbach, Kumar; Introduction

DatatoMining
Data -Mining,
Curs 3-4 slides,
(2017) 2004] 62
kNN – k Nearest Neighbour
 Pt fiecare dată de clasificat:
 Determină cele mai apropiate (mai similare) k exemple din setul de
antrenare
 Identifică cea mai frecventă clasă
Performanţa clasificatorilor de tip kNN depinde de:

 Măsura de similaritate/ disimilaritate
 Se alege în funcţie de tipurile atributelor şi de proprietăţile
problemei
 Valoarea lui k (numărul de vecini)
 Cazul cel mai simplu: k=1 (nu e indicat în cazul datelor afectate de
zgomot)
Obs: kNN induce o partiţionare în regiuni a spaţiului datelor; regiunile nu

sunt calculate explicit ci sunt implicit determinate de măsura de similaritate
(precum şi de valoarea lui k)
1NN = Nearest Neighbor bazat pe cel mai apropiat vecin (şi distanţa euclidiană)
Ilustrarea regiunilor. Dataset: iris2D (“petal length” and “petal width”).
Plot: Weka->Visualization->BoundaryVisualizer

1NN = Nearest Neighbor bazat pe cel mai apropiat vecin (şi distanţa euclidiană)
1NN induce o partiţionare a spaţiului datelor (e.g. în 2D aceasta corespunde unei

diagrame Voronoi)
Obs:
Fiecare instanţă din setul de

antrenare corespunde unei
regiuni care cuprinde
datele aflate în vecinătatea
acelei instanţe
[Tan, Steinbach, Kumar; Introduction

Data Mining to Data Mining, slides,
- Curs 3-4 (2017) 2004] 65
Măsuri de similaritate/ disimilaritate
Considerăm două entităţi (e.g. vectori de date, serii de timp etc) A and B
 O măsură de similaritate, S, asociază perechii (A,B) un număr, S(A,B) ,

care este cu atât mai mare cu cât A şi B sunt mai similare
 O măsură de disimilaritate, D, asociază perechii (A,B) un număr,
D(A,B) , care este cu atât mai mare cu cât A şi B sunt mai diferite
Alegerea măsurii depinde de:
 Tipul atributelor
 Numărul de atribute
 Distribuţia datelor

Atribute numerice
Cele mai populare măsuri de

disimilaritate:
n
 Distanţa euclidiană d p ( A, B ) =
i =1
p
∑ i i (Minkowski, Lp )
( a − b ) p
 Distanţa Manhattan
Obs: n
 Distanţa euclidiană este

d E ( A, B ) = ( a∑
i − bi ) 2
(Euclidean, p = 2)
invariantă în raport cu rotaţii i =1
 Dacă nu toate atributele au n

aceeaşi importanţă atunci se
foloseşte varianta ponderată (e.g. i =1
∑
d M ( A, B ) = | ai − bi | (Manhattan, p = 1)
wi(ai-bi)2 în loc de
(ai-bi)2 )
d ∞ ( A, B ) = max i =1,n | ai − bi | (p = ∞)
Ponderile se determină folosind tehnici de preprocesare

Aspecte practice – problema n

dimensiunii (dimensionality curse): d ( A, B ) =
Puterea de discriminara a acestor
p
p
∑ i i (Minkowski, Lp )
( a
i =1
− b ) p
distanţe scade pe măsură ce nr de

atribute (n) creşte => n
Pt date cu multe atribute clasificatorii d E( A, B ) = ∑ i i (Euclidean, p = 2)

( a − b ) 2
bazaţi pe distanţe devin inefectivi i =1

n
d M ( A, B ) = ∑ | ai − bi | (Manhattan, p = 1)
i =1
d ∞ ( A, B ) = max i =1,n | ai − bi | (p = ∞)
d max − d min
Obs: pe măsură ce n creşte (p) Distance contrast :
parametrul p ar trebui să fie mai mic σ
d max , d min = largest and smallest distance
σ = standard deviation of distances
Aggarwal,
Data Mining - CursData Mining Textbook, 2015
3-4 (2017) 68
Aspecte practice – impactul distribuţiei datelor
Intrebare: Care punct e mai aproape de origine? A sau B?
Aggarwal, Data Mining Textbook, 2015

Intrebare: Care punct e mai aproape de origine? A sau B?

R: d(O,A) = d(O,B) (distanţe euclidiene egale). Luând în considerare
distribuţia datelor: A este mai apropiat de O decât B
Altă întrebare: cum poate fi inclusă distribuţia datelor în calculul distanţei?
Distanta Mahalanobis
d Mah ( A, B) = ( A − B)T C −1 ( A − B)
C −1 = inversa matricii de covarianta
Aggarwal, Data MiningTextbook, 2015

Intrebare: este distanţa dintre A şi B mai mică decât distanţa dintre B şi C?
Aggarwal,
Data Mining - CursData Mining Textbook, 2015
3-4 (2017) 71
Intrebare: este distanţa dintre A şi B mai mică decât distanţa dintre B şi C?
R: da, dacă ignorăm distribuţia datelor şi folosim distanţa euclidiană

Totuşi, distribuţia datelor nu poate fi ignorată întrucât este cea care
furnizează contextul problemei, iar în acest context d(A,B)>d(B,C)
Distanţa geodesică:
 Se construieşte un graf ce are în noduri

punctele iar muchiile unesc nodurile vecine
(ex: cei mai apropiaţi k vecini)
 Calculează distanţa dintre două puncte ca
fiind cea mai scurtă cale în graf
Data2015
Aggarwal, Data Mining Textbook, Mining - Curs 3-4 (2017) 72
Atribute numerice – măsură de similaritate
 Măsura cosinus: sim(A,B)=ATB/(||A|| ||B||) (produsul scalar dintre A şi

B împărţit la produsul normelor)
Remarcă:
 In cazul vectorilor normalizaţi (||A||=||B||=1) similaritatea e maximă când
distanţa euclidiană este minimă:
d E2 ( A, B ) = ( A − B )T ( A − B ) = AT A − 2 AT B + BT B =
= 2( 1-AT B) = 1( 1-sim(A,B))

Atribute nominale
Abordare 1: Transformarea atributelor nominale în atribute numerice (prin

binarizare) şi utilizarea măsurilor de similaritate/disimilaritate pentru vectori
binari:
 Disimilaritate: distanţa Hamming = distanţa Manhattan: dH(A,B)=dM(A,B)
 Similaritate: coeficientul Jaccardn

∑a b i i
card ( S A  S B )
J ( A, B ) = n
i =1
=
card ( S A  S B )
∑ i i − aibi )
( a
i =1
2
+ b 2
Obs: SA şi SB sunt submulţimi ale mulţimii globale cu n atribute care

corespund vectorilor de apartenenţă A şi B.

Atribute nominale
Abordare 2: Utilizează măsuri locale de similaritate (între valorile atributelor)

n
S ( A, B ) = ∑ S ( ai , bi )
i =1
1 if ai = bi
S ( ai , bi ) = 
0 if ai ≠ bi
Obs: similarităţile mai puţin frecvente pot fi considerate mai relevante decât
cele frecvente
1 / f 2 (ai ) if ai = bi
S (ai , bi ) = 
 0 if ai ≠ bi
f (ai ) = frecventa valorii ai in setul de date
(pt atributul i)
Atribute mixte: se combină măsurile corespunzătoare celor două tipuri de
atribute (utilizând ponderi specifice)
S ( A, B ) = λSnumerical ( A, B ) + (1 − λ ) Snominal ( A, B )
Alte tipuri de date:
• Siruri (e.g. text sau secvenţe biologice) – se utilizează distanţa de editare

• Concepte (e.g. noduri într-o ontologie) – distanţe bazate pe cele mai
scurte căi în grafuri sau arbori
• Grafuri (e.g. Reţele sociale sau biologice) – ponderea structurilor
(tiparelor) similare în cele două structuri

kNN: alegerea lui k
Performanţa clasificatorilor de tip kNN depinde de numărul de vecini
Cazuri extreme:
 k=1 - clasificatorul nu este robust (erorile din setul de date influenţează
răspunsul clasificatorului)
 k=N - e echivalent cu ZeroR fiind bazat doar pe modul de distribuire a
datelor în clase
Cum se alege k?
 Abordare de tip trial-and-error: se încearcă diferite valori şi se alege
valoarea care maximizează performanţa

kNN: cost
Clasificarea unei noi instanţe necesită calculul a N distanţe (sau măsuri de
similaritate pt un set de date cu N elemente precum şi selecţia celor mai
mici k distanţe  O(N+kN)
Dacă N această prelucrare poate fi costisitoare (întrucât trebuie efectuată

pentru fiecare instanţă care trebuie clasificată)
Abordări posibile:
 Crearea structuri de indexare a datelor din setul de antrenare care
permite identificarea celor mai apropiaţi k vecini într-un mod eficient
 Reducerea numărului de date din setul de antrenare prin gruparea lor în
clustere şi înlocuirea fiecărui cluster cu un singur prototip
 Selecţia unor prototipuri din set

Curs următor
 Modele probabiliste (Naive Bayes classifiers)
 Reţele neuronale (Multilayer Perceptrons)
 Clasificatori bazaţi pe vectori suport (Support Vector Machines)

Curs 5:
Clasificarea datelor (II)

Structura
• Clasificatori bazaţi pe modele probabiliste
• Clasificatori bazaţi pe reţele neuronale
• Clasificatori bazaţi pe vectori suport

Modele probabiliste de clasificare
Exemplu: Presupunem că ne interesează să estimăm probabilitatea ca un pacient
care are simptomul S să aibă boala T
 Probabilitatea de estimat: P(T|S)
 Presupunem că se cunosc:
 P(S) = 1 – simptomul este prezent

 P(T) – estimată pe baza unor analize preliminare (e o măsură a frecvenţei
de apariţie a bolii)
 P(S|T) – se estimează pe baza cunoştinţelor medicale apriori (cât de
frecvent este simptomul S în cazul bolii T)
 Regula de calcu (regula probabilităţii condiţionate):

P(T|S)=P(S|T)P(T)/P(S)=P(S|T)P(T)
 Cum se analizează cazul în care nu e un singur simptom S, ci mai multe

simptome S1,S2,…,Sn?

Modele probabiliste de clasificare
Exemplu: Presupunem că ne interesează să estimăm probabilitatea ca un
pacient care are simptomele S1,S2,…,Sn să aibă boala T
 Probabilitatea de estimat: P(T| S1,S2,…,Sn )
 Se foloseşte regula Bayes:
 P(T| S1,S2,…,Sn )=P(S1,S2,…,Sn |T)P(T)/P(S1,S2,…,Sn )
 Ipoteză simplificatoare: simptomele (S1,S2,…,Sn) corespund unor

evenimente independente (această ipoteză nu este întotdeauna adevărată
însă poate fi acceptată în anumite situaţii practice)
 Considerând că P(S1,S2,…,Sn )=1 (simptomele sunt prezente)
P(T| S1,S2,…,Sn )=P(S1|T) P(S2|T)…P(Sn|T)P(T)

Clasificatorul Naïve Bayes
Problema de clasificare:
 Pentru o dată Di=(ai1,ai2,…,ain) se pune problemă determinării clasei căreia

îi aparţine
Ideea principală
 Estimează P(Ck| Di )=P(Ck|ai1,ai2,…,ain) P(Ck) pt fiecare k din {1,2,…,K} şi

selectează probabilitatea maximă; aceasta va indica cărei clase îi aparţine,
cel mai probabil data
 Ipoteză simplificatoare: atributele sunt independente (acesta este motivul

pentru care clasificatorul este denumit “naiv”)
 P(Ck| Di )= P(ai1|Ck) P(ai2|Ck)…P(ain|Ck)P(Ck)
 Estimarea probabilităţii de clasificare necesită cunoaşterea lui P(ai1|Ck),

P(ai2|Ck), …, P(ain|Ck) şi P(Ck)
 Aceste probabilităţi pot estimate pe baza setului de date (ca frecvenţe
relative) – această estimare corespunde procesului de învăţare specific
clasificatorului Naïve Bayes Data Mining - Curs 5 (2017) 5
Exemplu: P(C1)=P(no)=5/14 P(C2)= P(yes)=9/14
A1: outlook
P(sunny|C1)=P(sunny,C1)/P(C1)
=(3/14)/(5/14)=3/5
P(sunny|C2)=P(sunny,C2)/P(C2)
=(2/14)/(9/14)=2/9
P(overcast|C1)=P(overcast,C1)/P(C1)
=0
P(overcast|C2)=P(overcast,C2)/P(C2)
=(4/14)/(9/14)=4/9
P(rainy|C1)=P(rainy,C1)/P(C1)
=(2/14)/(5/14)=2/5
P(rainy|C2)=P(rainy,C2)/P(C2)
Data Mining - Curs 5 (2017) =(3/14)/(9/14)=3/9 6
Exemplu: Aceleaşi calcule pt ceilalţi parametri: A2
(temperature), A3 (humidity) and A4 (windy)
Obs: dacă pt o anumită valoare de atribut

(aij ) şi o anumită clasă Ck nu există exemplu
în setul de antrenare, atunci P(aij| Ck)=0 şi
(datorită ipotezei de independenţă) pt orice
instanţă având valoarea aij pt atributul Ai ,
probabilitatea să aparţină clasei Ck este 0.
Această situaţie poate să apară în special în

cazul claselor mici.
Tratarea acestor situaţii prin regula de “netezire de tip Laplace”:
P(aij| Ck)=(count(aij,Ck)+alpha)/(count(Ck )+mi*alpha)

alpha= parametru de netezire Laplace
mi= nr de valori distincte ale atributului Ai
Obs:
 Acest atribut poate fi aplicat direct atributelor discrete şi se bazează pe unul

din următoarele modele probabiliste:
 Binomial
 Multinomial
 In cazul atributelor numerice care iau valori într-un domeniu continuu există
două abordări principale:
 Atributele sunt discretizate înainte de utilizarea clasificatorului
(performanţa acestuia depinde de procesul de clasificare)
 Se folosesc modele probabiliste continue (e.g. Gaussian) cu parametri
estimaţi pe baza setului de antrenare

Retele neuronale – modelul biologic
Creierul uman
cca 1010 neuroni, cca 1014 interconexiuni

Rețele neuronale artificiale
intrări Rețea neuronală artificială = ansamblu de unități
y1 simple de prelucrare (neuroni) interconectate
w1 Unitate funcțională: mai multe intrări, o ieșire
y2 Ieșire (model computațional simplificat al neuronului)
w2 Notații:
semnale de intrare: y1,y2,…,yn
ponderi sinaptice: w1,w2,…,wn
yn wn (modelează permeabilitatea sinaptică)
prag: b (sau w0)
w1,w2, ...: (modelează pragul de activare al neuronului)
Ponderi ieșire: y
numerice Obs: Toate valorile sunt numere reale
atașate
conexiunilor

Structura unei rețele neuronale
artificiale:
- Arhitectura: modul de
interconectare între unități
- Funcționare: modul de  N1 2  N 0 1  
calcul al semnalului de ieșire yi = f  ∑ wik f  ∑ wkj x j  , i = 1, N 2
 k =0 
  j =0 
- Antrenare: modul de
Rețea feedforward cu un nivel
determinare a parametrilor
ascuns
ajustabili

Proiectarea unei rețele pentru rezolvarea unei probleme de asociere
presupune:
• Alegerea arhitecturii:
– număr de nivele
– număr de unități pe fiecare nivel
– mod de interconectare (topologie)
– funcții de activare
• Antrenarea: determinarea valorilor ponderilor pornind de la setul de

antrenare folosind un algoritm de învățare
• Validarea rețelei: analiza comportării rețelei pentru date ce nu fac parte

din setul de antrenare

Unități funcționale
Generarea semnalului de ieșire:
• Se “combină” semnalele de intrare utilizând ponderile sinaptice și pragul
de activare
– Valoarea obținută modelează potențialul local al neuronului
– Combinarea semnalelor de intrare în unitate se realizează printr-o
funcție de agregare (integrare)
• Se generează semnalul de ieșire aplicand o funcție de activare (transfer)
– corespunde generării impulsurilor de-a lungul axonului
Semnale de Starea neuronului Semnal de ieșire

intrare (u) (y)
(y1,…,yn) Funcție Funcția de
de agregare activare

Exemple de funcții clasice de agregare
Suma ponderată Distanța euclidiană

n n
u = ∑ w j y j − w0 u= ∑ (w j − y j ) 2
j =1 j =1
n n n
u =∏y u = ∑ w j y j + ∑ wij yi y j + ...
wj
j
j =1 j =1 i , j =1
Neuron multiplicativ Conexiuni de ordin superior

Observatie: pentru varianta cu suma ponderată se poate asimila pragul cu o
pondere sinaptică corespunzătoare unei intrări fictive (cu valoare -1) astfel
că starea neuronului poate fi exprimată prin suma ponderată:
n
u= ∑w y
j =0
j j

Exemple de funcții de activare (transfer)
− 1 u ≤ 0
f (u ) = sgn(u ) = 
1 u>0 signum
0 u ≤ 0
f (u ) = H (u ) = 
1 u > 0 Heaviside
− 1 u < −1

f (u ) =  u − 1 ≤ u ≤ 1 rampă
1 u >1

f (u ) = u liniară
f (u ) = max{0, u} Semi-liniară (rectified linear unit - ReLU)
Obs: utilizate în rețelele cu structură adâncă
Exemple de funcții de activare (funcții sigmoidale)
(tangenta hiperbolică) 1
exp(2u ) − 1
f (u ) = tanh(u ) =
0.5
exp(2u ) + 1 -6 -4 -2 2 4 6
1
f (u ) =
-0.5
1 + exp(−u ) -1
1
(logistică) 0.8
0.6
Observație: uneori se folosește un
parametru numit pantă (slope) care 0.4
multiplică argumentul funcției de 0.2
activare: y=f(p*u) -6 -4 -2 2 4 6

• Ce se poate face cu un singur neuron ?
-1
Se pot rezolva probleme simple de clasificare
(ex: se pot reprezenta funcții booleene simple) w0
x1 w1
0 1 OR y
0 0 1 x2 w2
1 1 1 y=H(w1x1+w2x2-w0)
Ex: w1=w2=1, w0=0.5
AND
0 1
0 0 0 y=H(w1x1+w2x2-w0)
Ex: w1=w2=1, w0=1.5
1 0 1

Liniar/neliniar separabilitate
Reprezentarea unor funcții booleene: f:{0,1}N->{0,1}
Problema liniar
OR
separabilă – e suficientă
o rețea uninivel
Problema neliniar
separabilă – e necesară
XOR o rețea multinivel

Rețele feedforward - arhitectura
Arhitectura și funcționare (K nivele funcționale)
Nivel Nivele ascunse Nivel de ieșire
intrare
W1 W2 Wk Wk+1 WK
0 1 … k … K
Y0=X X1 Xk XK
Y1 Yk YK
1 Fk F K
F
X = vector intrare, Y= vector ieșire, F=funcție vectorială de activare
Calcul vector de ieșire: Y=FK(WK*FK-1(WK-1*FK-2(.....F1(W1*X))))

Rețele feedforward – funcționare
Arhitectura și funcționare
(caz particular: un nivel ascuns)
Parametrii modelului: matricile cu

ponderi W1 si W2 (setul tuturor
ponderilor e notat cu W)
 N1 ( 2 )  N 0 (1) 
yi = f 2  ∑ w ik f1  ∑ w kj x j  , i = 1..N 2
 k =0 
  j = 0  
Obs:
• în mod tradițional se lucrează cu unul sau două nivele ascunse
• În ultimii ani au devenit din ce în ce mai folosite rețelele cu număr mare de
nivele (Deep Neural Networks) folosite în particular pentru recunoașterea
imaginilor și a vorbirii (http://deeplearning.net)

Rețele feedforward - antrenare
Antrenare (supervizată):
• Set de antrenare: {(x1,d1), …, (xL,dL)}
(xl = vector intrare, dl = vector de ieșire corect)
• Funcție de eroare (suma pătratelor erorilor):
2
1 L N2  l  N1  N0 
E (W ) = ∑∑ d i − f 2 ∑ wik f1  ∑ wkj x j 
  l 
2 l =1 i =1   k =0 
  j =0   
• Scopul antrenării: minimizarea funcției de eroare
• Metoda de minimizare: metoda gradientului

∂E ( w(t ))
Relația de ajustare (metoda
wij (t + 1) = wij (t ) − η
gradientului): ∂wij
Functia de eroare:
2
Pas descreștere
1 L N 2  l  N1  N0    =
E (W ) = ∑∑ d i − f 2  ∑ wik f1  ∑ wkj x j  
l
2 l =1 i =1   k =0 
  
Rata de învățare
  j =0
xk
yk
Notații: xi
yi
El(W) (eroarea corespunzatoare exemplului l)
• Calculul derivatelor partiale
2
1 L  l
N2  
N1 N0   
E (W ) = ∑∑ d i − f 2  ∑ wik f1  ∑ wkj x j  
 l
2 l =1 i =1   k =0 
  j =0   
xk
yk
∂El (W )
= −( d il − yi ) f 2' ( xi ) yk = −δ il yk xi
∂wik
y
∂El (W ) N2
 ' N2 i
l
= − ∑ wik ( d i − yi ) f 2 ( xi ) f1 ( xk ) x j = − f1 ( xk )∑ wikδ i  x j = −δ kl x lj
l ' ' l
∂wkj i =1  i =1 
Obs: δi reprezintă o măsură a erorii corespunzătoare unității de ieșire i iar δk
reprezintă eroarea de la nivelul unității ascuns k (obținut prin propagarea înapoi in
rețea a erorii de la nivelul de ieșire)
∂El (W )
= −(d il − yi ) f 2' ( xi ) yk = −δ il yk
∂wik
∂El (W ) N2
 ' N2
l
= −∑ wik (d i − yi ) f 2 ( xi ) f1 ( xk ) x j = − f1 ( xk )∑ wik δ i  x j = −δ kl x lj
l ' ' l
∂wkj i =1  i =1 
Obs: derivatele funcțiilor tradiționale de activare (logistica și tanh) pot fi calculate

simplu pornind folosind următoarele proprietăți:
Logistica: f’(x)=f(x)(1-f(x)) => f’(x)=y(1-y)

Tanh: f’(x)=1-f(x)2 => f’(x)=1-y2

Algoritmul BackPropagation
Idee: Calcul semnal eroare (BACKWARD)
Pentru fiecare exemplu din setul
de antrenare:
- se determină semnalul de
ieșire
- se calculează eroarea la
nivelul de ieșire
- se propagă eroarea înapoi în
rețea și se reține factorul delta
corespunzător fiecărei
ponderi
- se aplică ajustarea
corespunzătoare fiecărei
ponderi
Calcul semnal ieșire (FORWARD)

Inițializarea aleatoare a ponderilor Obs.
REPEAT • Valorile inițiale se aleg aleator in
FOR l=1,L DO [0,1] sau [-1,1]
etapa FORWARD • La ajustare se ține cont de rata
epoca
etapa BACKWARD de învățare

ajustare ponderi • Recalcularea erorii presupune
determinarea semnalului de
Recalcularea erorii ieșire pentru fiecare dată de
UNTIL <condiție oprire> intrare
• Condiția de oprire depinde de
valoarea erorii și/sau numărul
de epoci de antrenare

Varianta serială
wkj1 = rand ( −1,1), wik2 = rand ( −1,1)
p=0
REPEAT
FOR l = 1, L DO
/ * Etapa FORWARD * /
N0 N1
x = ∑ w x , y = f1 ( x ), x = ∑ wik2 ykl , yil = f 2 ( xil )
l
k
1
kj
l
j
l
k
l
k
l
i
j =0 k =0
/ * Etapa BACKWARD * /
N2
δ = f ( x )( d − y ), δ = f ( x )∑ wik2 δ il
i
l
2
' l
i i
l l
i
l
k 1
' l
k
i =1
/ * Etapa de ajustare * /
wkj1 = wkj1 + ηδ kl x lj , wik2 = wik2 + ηδ il ykl
ENDFOR
/ * Calculul erorii * /
E =0
FOR l = 1, L DO
/ * Etapa FORWARD (cu noile valori ale ponderilor) * /
N0 N1
l
k
1
kj
l
j
l
k
l
k
l
i
j =0 k =0
/ * Sumarea erorii * /
L
E = E + ∑ ( d il − yil ) 2
l =1
ENDFOR
E* reprezintă toleranța la erori a rețelei
pmax reprezintă numărul maxim de epoci
E = E /(2 L)
de antrenare
p = p +1
UNTIL p > pmax OR E < E *

Varianta pe blocuri (se bazează pe cumularea ajustarilor)
w1kj = rand ( −1,1), wik2 = rand ( −1,1), i = 1.. N 2, k = 0.. N 1, j = 0.. N 0
p=0
REPEAT
Δkj1 = 0 ,Δik2 = 0
FOR l = 1, L DO
/ * Etapa FORWARD * /
N0 N1
l
k
1
kj
l
j
l
k
l
k
l
i
j =0 k =0
/ * Etapa BACKWARD * /
N2
δ = f ( x )( d − y ), δ = f ( x )∑ wik2 δ il
i
l
2
' l
i i
l l
i
l
k 1
' l
k
i =1
/ * Etapa de ajustare * /
∆1kj = ∆1kj + ηδ kl x lj , ∆2ik = ∆2ik + ηδ il ykl
ENDFOR
wkj1 = wkj1 + ∆1kj , wik2 = wik2 + ∆2ik

/ * Calculul erorii * /
E =0
FOR l = 1, L DO
/ * Etapa FORWARD (cu noile valori ale ponderilor) * /
N0 N1
l
k
1
kj
l
j
l
k
l
k
l
i
j =0 k =0
/ * Sumarea erorii * /
L
E = E + ∑ ( d il − yil ) 2
l =1
ENDFOR
E = E /(2 L)
p = p +1
UNTIL p > pmax OR E < E *

Probleme ale algoritmului
Backpropagation
P1. Viteza mică de convergență (eroarea descrește prea încet)
P2. Oscilații (valoarea erorii oscilează în loc să descrească în mod

continuu)
P3. Problema minimelor locale (procesul de învățare se blochează

într-un minim local al funcției de eroare)
P4. Stagnare (procesul de învățare stagnează chiar dacă nu s-a

ajuns într-un minim local)
P5. Supraantrenarea și capacitatea limitată de generalizare

Probleme ale algoritmului BP
P1: Eroarea descrește prea încet sau oscilează în loc să
descrească
Cauze:
• Valoare inadecvată a ratei de învățare (valori prea mici conduc
la convergența lentă iar valori prea mari conduc la oscilații)
Soluție: adaptarea ratei de învățare
• Metoda de minimizare are convergență lentă

Soluții:
- modificarea euristică a variantei standard (varianta cu
moment)
- utilizarea unei alte metode de minimizare (Newton, gradient
conjugat)

• Rata adaptivă de învățare:
– Dacă eroarea crește semnificativ atunci rata de învățare trebuie
redusă (ajustările obținute pentru valoarea curentă a ratei sunt
ignorate)
– Daca eroarea descrește semnificativ atunci rata de învățare poate fi
mărită (ajustările sunt acceptate)
– In toate celelalte cazuri rata de învățare rămâne neschimbată
E ( p ) > (1 + γ ) E ( p − 1) ⇒ η ( p ) = aη ( p − 1), 0 < a < 1

E ( p ) < (1 − γ ) E ( p − 1) ⇒ η ( p ) = bη ( p − 1), 1 < b < 2
(1 − γ ) E ( p − 1) ≤ E ( p ) ≤ (1 + γ ) E ( p − 1) ⇒ η ( p ) = η ( p − 1)
Exemplu: γ=0.05

• Varianta cu “moment” (termen de inerție):
– Se introduce o “inerție” în calculul ponderilor:

• termenul de ajustare a ponderilor de la epoca curentă se
calculează pe baza semnalului de eroare precum și a ajustărilor
de la epoca anterioară
– Acționează ca o adaptare a ratei de învățare: ajustările sunt

mai mari în porțiunile plate ale funcției de eroare și mai mici în
cele abrupte
– Se combină cu varianta pe blocuri
∆wij ( p + 1) = ηδ i y j + α∆wij ( p )
α = 0.9

Alte metode de minimizare (mai rapide însă mai complexe):
– Metoda gradientului conjugat (și variante ale ei)

– Metoda lui Newton (caz particular: Levenberg Marquardt)
Particularități ale acestor metode:
– Convergența rapidă (ex: metoda gradientului conjugat

converge în n iterații pentru funcții pătratice cu n variabile)
– Necesită calculul matricii hessiene (matrice conținând

derivatele de ordin doi ale funcției de eroare) și uneori a
inversei acesteia

• Exemplu: metoda lui Newton
E : R n → R, w ∈ R n (vectorul ce contine toate ponderile)

Prin dezvoltare in serie Taylor in w( p ) (estimarea corespunzatoare epocii p)
1
E ( w) ≅ E ( w( p )) + (∇E ( w( p ))) ( w − w( p )) + ( w − w( p ))T H ( w( p ))(w − w( p ))
T
2
∂ 2 E ( w( p ))
H ( w( p )) ij =
∂wi ∂w j
Derivand dezvoltarea in serie Taylor in raport cu w si punand conditia
de punct critic noua aproximare pentru w se va obtine ca solutie a ec :
H ( w( p )) w − H ( w( p )) w( p ) + ∇E ( w( p )) = 0
Noua estimare a lui w va fi :
w( p + 1) = w( p ) − H −1 ( w( p )) ⋅ ∇E ( w( p ))
Caz particular: metoda Levenberg-Marquardt
• Metoda lui Newton adaptată pentru cazul în care eroarea este o
sumă de pătrate de diferențe (cum este eroarea medie patratică)
L
E ( w) = ∑
l =1
El ( w), e : R n → R L , e( w) = ( E1 ( w),..., E L ( w))T
w( p + 1) = w( p) − ( J T ( w( p)) ⋅ J ( w( p)) + µ p I ) −1 J T ( w( p))e( w( p))

J ( w) = jacobianul lui e( w) = matricea derivatelor lui e in raport
cu toate argumentele
∂E ( w) Termen de perturbare care elimina
J ij( w) = i
∂w j cazurile singulare (cand matricea este
neinversabila)
Avantaje:
• Nu necesită calculul hessianei
• Pentru valori mari ale factorului de atenuare ajustarea devine similară
celei de la metoda gradientului

P2: Problema minimelor locale (procesul de învățare se blochează
într-un minim local al funcției de eroare)
Cauza: metoda gradientului este o metodă de minimizare locală
Soluții:
– Se restartează antrenarea de la alte valori inițiale ale ponderilor
– Se introduc perturbații aleatoare (se adaugă la ponderi după
aplicarea ajustărilor):
wij := wij + ξ ij , ξ ij = valori aleatoare uniform

sau normal distribuite

Soluție:
– Inlocuirea metodei gradientului cu o metodă aleatoare de
optimizare
– Inseamnă utilizarea unei perturbații aleatoare în locul celei
calculate pe baza gradientului
– Ajustările pot conduce la creșterea valorii erorii
∆ ij := valori aleatoare
IF E (W + ∆) < E (W ) THEN se accepta ajustare (W := W + ∆)
Obs:
• Ajustările sunt de regulă generate în conformitate cu repartiția
normală de medie 0 și dispersie adaptivă
• Daca ajustarea nu conduce la o descreștere a valorii erorii atunci
nu se acceptă deloc sau se acceptă cu o probabilitate mică
• Algoritmii aleatori de minimizare nu garanteaza obținerea
minimului Data Mining - Curs 5 (2017) 39
Soluție:
– Inlocuirea metodei gradientului cu o metodă aleatoare de
optimizare
– Inseamnă utilizarea unei perturbații aleatoare în locul celei
calculate pe baza gradientului
– Ajustările pot conduce la creșterea valorii erorii
∆ ij := valori aleatoare
IF E (W + ∆) < E (W ) THEN se accepta ajustare (W := W + ∆)
Obs:
• Ajustările sunt de regulă generate în conformitate cu repartiția
normală de medie 0 și dispersie adaptivă
• Daca ajustarea nu conduce la o descreștere a valorii erorii atunci
nu se acceptă deloc sau se acceptă cu o probabilitate mică
• Algoritmii aleatori de minimizare nu garanteaza obținerea
minimului Data Mining - Curs 5 (2017) 40
Probleme ale algoritmului 1
BP 0.8
0.6
0.4
0.2 saturare
• Pb 3: Stagnare
-6 -4 -2
(procesul de învățare stagnează chiar dacă nu s-a ajuns într-un minim2 local)
4 6
• Cauza: ajustările sunt foarte mici întrucât se ajunge la argumente mari

ale funcțiilor sigmoidale ceea ce conduce la valori foarte mici ale
derivatelor; argumentele sunt mari fie datorită faptului ca datele de
intrare nu sunt normalizate fie întrucât valorile ponderilor sunt prea mari
• Soluții:
– Se “penalizează” valorile mari ale ponderilor
– Se utilizeaza doar semnele derivatelor nu și valorile lor
– Se normalizează datele de intrare (valori în apropierea intervalului (-
1,1)

Penalizarea valorilor mari ale ponderilor: se adaugă un termen de
penalizare la funcția de eroare (similar cu tehnicile de
regularizare folosite în metodele de optimizare)
E( r ) (W ) = E (W ) + λ ∑i, j
wij2
Ajustarea va fi:
∆(ijr ) = ∆ ij − 2λwij

Utilizarea semnului derivatei nu și a valorii
(Resilient BackPropagation – RPROP)
 ∂E (W ( p − 1))
−
 ij ∆ ( p ) if >0
 ∂wij
∆wij ( p ) = 
∂E (W ( p − 1))
 ∆ ij ( p ) if <0
 ∂wij
 ∂E (W ( p − 1)) ∂E (W ( p − 2))
a
 ij ∆ ( p − 1 ) if ⋅ >0
 ∂wij ∂wij
∆ ij ( p ) = 
∂E (W ( p − 1)) ∂E (W ( p − 2))
b∆ ij ( p − 1) if ⋅ <0
 ∂wij ∂wij
0 < b <1< a

Pb 4: Supraantrenare și capacitate limitată de generalizare
Cauze:
• Arhitectura rețelei (numărul de unitați ascunse)
– Un număr prea mare de unități ascunse poate provoca
supraantrenare (rețeaua extrage nu doar informațiile utile din setul
de antrenare ci și zgomotul)
• Dimensiunea setului de antrenare
– Prea puține exemple nu permit antrenarea și asigurarea capacității
de generalizare
• Numărul de epoci (toleranța la antrenare)
– Prea multe epoci pot conduce la supraantrenare
Soluții:
• Modificarea dinamică a arhitecturii
• Criteriul de oprire se bazează nu pe eroarea calculată pentru setul de
antrenare ci pentru un set de validare

Supraantrenare – influența numărului de unități ascunse
1
0.7
0.9
0.65
0.8
0.6
0.7
0.55
0.6
0.5
0.5
0.45
0.4
0.4
0.3
0.35
0.2
0.3
0.1
0.25
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5 unități ascunse 10 unități ascunse

Supraantrenare – influența numărului de unități ascunse
0.7
0.8
0.65
0.7
0.6
0.55
0.6
0.5
0.5
0.45
0.4 0.4
0.35
0.3
0.3
0.25 0.2
0.2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
10 unități ascunse 20 unități ascunse

Modificarea dinamică a arhitecturii:
• Strategie incrementală:
– Se pornește cu un număr mic de unități ascunse

– Dacă antrenarea nu progresează se adaugă succesiv unități;
pentru asimilarea lor se ajustează în câteva epoci doar
ponderile corespunzătoare
• Strategie decrementală:
– Se pornește cu un număr mare de unități

– Dacă există unități care au impact mic asupra semnalului de
ieșire atunci acestea se elimină

Criteriu de oprire bazat pe eroarea pe setul de validare :
• Se imparte setul de antrenare în m părți: (m-1) sunt folosite

pentru antrenare și una pentru validare
• Ajustarea se aplică până când eroarea pe setul de validare
începe să crească (sugerează că rețeaua începe să piardă din
abilitatea de generalizare)
Validare încrucișată:
• Algoritmul de învățare se aplică de m ori pentru cele m variante
posibile de selecție a subsetului de validare
1: S=(S1,S2, ....,Sm)
2: S=(S1,S2, ....,Sm)
....
m: S=(S1,S2, ....,Sm)

Eroarea pe setul de validare
Eroarea pe setul de antrenare

Support Vector Machines
Support Vector Machine (SVM) = tehnică de clasificare caracterizată prin:
• Antrenare bazată pe o metodă de optimizare cu restricţii şi funcţie obectiv

pătratică. Obs: se evită problemele ce apar la antrenarea de tip
Backpropagation (blocarea în minime locale si supraantrenarea)
• Asigură o bună capacitate de generalizare
• Se bazează pe rezultate teoretice din domeniul analizei statistice a

metodelor de învățare (principalii contributori: Vapnik și Chervonenkis)
• Aplicații: recunoaștere scris, identificarea vorbitorului, recunoaștere

obiecte etc
• Bibliografie: C.Burges – A Tutorial on SVM for Pattern Recognition, Data Mining
and Knowledge Discovery, 2, 121–167 (1998)

Considerăm o problemă simplă de
clasificare binară
Problema e liniar separabilă și se observă că
există o infinitate de drepte (hiperplane, în
cazul general) care permit separarea celor
două clase
Care dintre hiperplanele separatoare este mai

bun ?
Cel care ar conduce la o bună capacitate de

generalizare = clasificare corectă nu doar
pentru datele din setul de antrenare ci și
pentru potențialele date de test

Care e cea mai bună dreaptă (hiperplan) separatoare ?
Cea pentru care distanța minimă față de

punctele aflate pe înfășurătoarea
convexă a setului de puncte
corespunzător fiecărei clase este
m maximă
m
wx+b=1 Dreptele care trec prin punctele marginale
sunt considerate drepte canonice
wx+b=-1 Distanța dintre dreptele canonice este
wx+b=0 2/||w||, deci a maximiza lărgimea zonei
separatoare este echivalent cu a
Ecuația dreptei minimiza norma lui w
(hiperplanului) separatoare

Cum se poate determina hiperplanul separator ?
Se determină w și b care
Minimizează ||w||2
(maximizează marginea separatoare)
m
și satisface
m (wxi+b)di-1>=0
wx+b=1
pentru toate elementele setului de
wx+b=-1 antrenare {(x1,d1),(x2,d2),…,(xL,dL)}
wx+b=0
di=-1 pentru clasa albastră
di=1 pentru clasa roșie
(clasifică corect exemplele din setul de
antrenare)

Problema de minimizare cu restricții se poate rezolva folosind metoda
multiplicatorilor lui Lagrange:
Problema inițială:
Minimizează ||w||2 astfel încât (wxi+b)di-1>=0 pentru i=1..L
Introducerea multiplicatorilor lui Lagrange transformă problema în determinarea
punctului șa (saddle point) pentru V:
1 2 L
V ( w, b, α ) = w − ∑ α i (d i ( w ⋅ xi + b) − 1), α i ≥ 0
2 i =1
( w*, b*, α *) este punct sa daca : V ( w*, b*, α *) = maxα min w,b V ( w, b, α )
Construirea funcției duale:
W (α ) = min w,b V ( w, b, α )
∂V ( w, b, α ) L
∂V ( w, b, α ) L
= 0 ⇒ w = ∑α j d j x j = 0 ⇒ 0 = ∑α j d j
∂w j =1 ∂b j =1

Se ajunge astfel la problema maximizării funcției duale (în raport cu α):
L
1 L
W (α ) = ∑ α i − ∑ α iα j d i d j ( xi ⋅ x j )
i =1 2 i , j =1
Cu restricțiile: (cunoscute din setul de antrenare)
L
α i ≥ 0, ∑α d
i =1
i i =0
După rezolvarea problemei de mai sus (în raport cu multiplicatorii α) se

calculează elementele hiperplanului separator astfel:
L
w* = ∑ α i d i xi , b* = 1 − w * ⋅ xk
i =1
unde k este indicele unui multiplicator nenul iar xk este exemplul

corespunzător ce aparține clasei de etichetă +1

Observații:
• Multiplicatorii nenuli corespund exemplelor pentru
care restricțiile sunt active (w x+b=1 sau w x+b=-1).
Aceste exemple sunt denumite vectori suport și sunt
singurele care influențează ecuația hiperplanului
separator (celelalte exemple din setul de antrenare
pot fi modificate fără a influența hiperplanul
separator)
vectori
suport
• Multiplicatorii nuli corespund elementelor din setul
de antrenare care nu influențează hiperplanul
separator
• Funcția de decizie obținută după rezolvarea
problemei de optimizare pătratică este:
L
D( z ) = sgn(∑ α i d i ( x i ⋅ z ) + b*)
i =1

Ce se întâmplă în cazul în care datele nu sunt foarte bine separate ?
Se relaxează condiția de apartenență la o clasă:
w ⋅ xi + b ≥ 1 − ξ i , daca d i = 1
w ⋅ xi + b ≤ −1 + ξ i , daca d i = −1
Funcția de minimizat devine:
L L
1 2
V ( w, b, α , ξ ) = w + C ∑ ξ i − ∑ α i (d i ( w ⋅ xi + b) − 1)
2 i =1 i =1
Ceea ce schimbă restricțiile din problema duală astfel:
in loc de α i ≥ 0 se introduce 0 ≤ α i ≤ C

Ce se întâmplă în cazul in care problema este neliniar separabilă?
x12 + x22 − R 2 = 0 w ⋅ z + b = 0, z1 = x12 , z 2 = x22

w1 = w2 = 1, b = − R 2
x1 → θ ( x1 ) = x12
x2 → θ ( x2 ) = x22

In cazul general se aplică transformarea:
x → θ ( x) iar produsul scalar al vectorilor transformati este

θ ( x ) ⋅ θ ( x ' ) = K ( x, x ' )
Intrucât în rezolvarea problemei de optimizare intervin doar produsele

scalare nu este necesară cunoașterea expresiei explicite a funcției
de transformare θ ci este suficient să se cunoască doar funcția
nucleu K

Exemplu 1: Transformarea unei probleme neliniar separabile într-una
liniar separabilă prin trecerea la o dimensiune mai mare
( x − α )( x − β ) = x 2 − (α + β ) x + αβ w1 z1 + w2 z 2 + b = 0
z1 = x 2 , z 2 = x
w1 = 1, w2 = −(α + β )
b = αβ
Pb. 1-dimensională neliniar separabilă Pb. 2-dimensională liniar separabilă

Exemplu 2: Deducerea unei funcții nucleu în cazul în care suprafața de decizie este
dată de o funcție pătratică oarecare (se trece de la dimensiunea 2 la
dimensiunea 5)
θ ( x1 , x2 ) = ( x12 , x22 , 2 x1 x2 , 2 x1 , 2 x2 ,1)

K ( x, x' ) = θ ( x1 , x2 ) ⋅θ ( x'1 , x'2 ) = ( xT ⋅ x'+1) 2

Exemple de functii nucleu:
K ( x, x' ) = ( xT ⋅ x'+1) d
x − x'
2
K ( x, x' ) = exp(− )
2σ 2
K ( x, x' ) = tanh(kxT ⋅ x'+b)

Functia de decizie devine:
L
D( z ) = sgn(∑ α i yi K (xi , z ) + b*)
i =1

Implementări
LibSVM [http://www.csie.ntu.edu.tw/~cjlin/libsvm/]: (+ link-uri catre

implementari in Java, Matlab, R, C#, Python, Ruby)
SVM-Light [http://www.cs.cornell.edu/People/tj/svm_light/]: implementare

in C
Spider [http://www.kyb.tue.mpg.de/bs/people/spider/tutorial.html]:
implementare Matlab
Interfață SciLab pt LibSVM (http://atoms.scilab.org/toolboxes/libsvm)
SciKit-learn – implementări în Python

Curs 6:
Gruparea datelor (I)
Data mining - Curs 6 1

Structura
 Gruparea datelor
 Evaluarea calităţii grupării
 Algoritmi partiţionali
 kMeans
 fuzzy cMeans
 Algoritmi ierarhici

Scopul grupării (reminder)
Ce se cunoaşte?
• un set de date (nu neapărat structurate)

• O măsură de similaritate/disimilaritate între date (măsura e
specifică problemei de rezolvat) pe baza căreia se construieşte o
matrice de similaritate/disimilaritate
Ce se doreşte?
• Un model care descrie modul în care se grupează datele în
clustere (grupuri) astfel încâte datele care aparţin aceluiaşi cluster
sunt mai similare între ele decât cele care aparţin unor clustere
diferite

• Să se poată verifica dacă două date aparţin aceluiaşi cluster
• Să se determine clusterul de care aparţine o dată

Scopul grupării (reminder)
Exemple:
 Customer segmentation = identificarea grupurilor de clienţi care au

comportamente similare
 Data summarization / document clustering = identificarea unor grupuri

de documente similare din punct de vedere al conţinutului
 User profiles extraction = identificarea grupurilor de utilizatori ai unui

serviciu web caracterizaţi prin comportamente similare
 Image segmentation = identificare unor regiuni omogene într-o imagine
Gruparea permite:
 sumarizarea şi/sau vizualizarea datelor în alt mod cu scopul de a înţelege mai
bine datele

Particularităţi ale grupării
Este un proces nesupervizat: Problema grupării este rău-definită:
 Setul de antrenare conţine doar valori
ale atributelor  Identificarea grupurilor este dificilă
 Eticheta clasei nu e cunoscută  Decizia poate avea caracter
subiectiv
Câte clustere? Şase clustere
Două clustere patru clustere

[Kumar, 2004] Data mining - Curs 6 5
Concepte de bază
 Cluster = grup de date care sunt similare
 Matrice de (di)similaritate pt un set de n date = matrice nxn in care pe
linia i coloana j se află valoarea similarităţii/disimilarităţii între data i şi
data j
 Clustering = proces de identificare a clusterelor
 Prototip = “obiect” reprezentativ pentru datele dintr-un cluster
 Centroid = media datelor dintr-un cluster – centroidul nu este
neapărat un element din setul de date
 Medoid = data din cluster care este cea mai apropiată de media
clusterului – medoidul aparţine setului de date
 Raza clusterului = media distanţelor dintre datele din cluster şi
prototipul acestuia
 Diametrul clusterului = distanţa (disimilaritatea) maximă dintre oricare
două date ale clusterului

Tipuri de clustering
 Crisp vs fuzzy clustering
 Crisp clustering = fiecare dată aparţine unui singur cluster
 Fuzzy clustering = o dată poate aparţine mai multor clustere (grad de
apartenenţă pentru fiecare cluster)
 Flat vs hierarchical clustering
 Flat (partitional) clustering = rezultatul este un set de clustere (o
partiţie)
 Hierarchical clustering = rezultatul este o ierarhie de partiţii
 Variante de algoritmi
 Algoritmi partiţionali (ex: kMeans, Fuzzy cMeans)
 Algoritmi hierarhici (alg. aglomerativi, alg. divizivi)
 Algoritmi bazaţi pe densitate (ex: DBSCAN)
 Algoritmi probabilişti (ex: EM = Expectation Maximization)

Măsuri de calitate
 Nu există un indicator unic pentru evaluarea calităţii unei grupări
 Cea mai comună abordare constă în estimarea:
 Compacităţii clusterelor (variabilitate intra-cluster – ar trebui să fie
mică)
 Gradului de separare dintre datele apatţinând unor clustere diferite
(variabilitate inter-cluster – ar trebui să fie mare)
Calitate bună Calitate slabă

Măsuri de calitate
 Intra-cluster to inter-cluster distance ratio = Intra/Inter (valori mici corespund
unei calităţi mai bune)
 Fie P setul de date ce aparţin aceluiaşi cluster şi Q=DxD-P (restul perechilor:
o dată din pereche aparţine unui cluster iar cealaltă unui alt cluster)
Intra = ∑ d (x , x ) / card ( P)
( xi , x j )∈P
i j
Inter = ∑ d (x , x ) / card (Q )
( xi , x j )∈Q
i j
Exemple de perechi de date utilizate în Exemple de perechi de date utilizate în

calculul distanţelor intra-cluster calculul distanţelor inter-cluster
Măsuri de calitate
 Silhouette coefficient
Obs:
D min iout − Davg iin  S ia valori în (-1,1)

Si =  Valori mai mari indică o grupare mai bună
max{D min iout , Davg iin }
1 n
S = ∑ Si
n i =1
Davg iin = media distantelor dintre
xi si celelalte date din clusterul lui xi
Davg ij = media distantelor dintre
xi si datele din clusterul j (j ≠ i)
D min iout = min j Davg ij

kMeans
 Input: set de date D={x1,x2,…,xN}, K = nr de clustere
 Output: partiţie P={C1,C2,…,CK} of D
kMeans (D,k)
initialize the centroids c1, c2, …, cK (by random selection from the data set)
repeat
 assign each data from D to the cluster corresponding to the closest
centroid (with respect to a similarity/distance)
 update each centroid as mean of the data belonging to the
corresponding cluster
until <the partition does not change>

kMeans
 Caracteristici
 kMeans este o metodă bazată pe prototipuri care are ca scop minimizarea is
sumei pătratelor erorilor (SSE) – distanţele dintre date şi centroizii
corespunzători
K K n
SSE = ∑ ∑ d ( x, ck ) = ∑ ∑∑ ( x j − ckj ) 2
2
k =1 x∈Ck k =1 x∈Ck j =1
(în cazul distanţei euclidiene)
 Complexitate: O(n*N*K*iteraţii) (n=nr de atribute, N=nr de date, K=nr de
clustere)
 Pre-procesare utilă: normalizare
 Post-procesare utilă:
 Eliminarea clusterelor mici
 Fragmentarea clusterelor caracterizate prin variabilitate mare
 Reunirea clusterelor apropiate
kMeans
Limite:
 Nu funcţionează bine dacă datele nu sunt “sferice”
 Soluţie: utilizarea altor abordări (e.g. clustering bazat pe
densitate)
Clusterele reale Rezultatul Kmeans
[from slides Kumar, 2004] Data mining - Curs 6 13

kMeans
Limite: necesită cunoaşterea apriori a numărului de clustere
 Soluţii:
 aplică algoritmul pt diferite valori ale lui K şi selectează varianta

care corespunde celor mai bune valori ale criteriilor de calitate
 post-procesarea rezultatelor procesului de clustering prin

partiţionarea clusterelor cu variabilitate mare şi reunirea clusterelor
apropiate (ex: alg. ISODATA)

ISODATA
Idei principlale ale alg ISODATA
 Dacă dimensiunea unui cluster este mai mică decât Nmin atunci
clusterul ar trebui reunit cu cel mai apropiat alt cluster
 Dacă distanţa dintre două clustere (de exemplu the distanţa dintre
prototipurile clusterelor) este mai mică decât Dmin atunci clusterele ar
trebui reunite
 Dacă varianţa unui cluster este mai mare decât Vmax şi numărul de
date conţinute este mai mare decât 2*Nmin atunci clusterul poate fi
divizat în două alte clustere:
 Identifică atributul j pt care varianţa este maxmă
 Din prototipul ck sunt construite două alte prototipuri c’ şi c’’ prin
înlocuirea valorii atributului j din ck cu ck(j)-b respectiv ck(j)+b, r
(b este un parametru setat de către utilizator)

Fuzzy cMeans
Ideea grupării fuzzy (soft):
 O dată nu aparţine unui singur cluster ci poate aparţine mai multor

clustere (cu un anumit grad de apartenenţă pentru fiecare cluster)
 Rezultatul unei grupări fuzzy este o matrice M de dimensiune NxK

(N= nr date, K= nr clustere);
M(i,j) = o valoare din [0,1] care corespunde gradului de apartenenţă a
datei i la clusterul j
Obs: Fuzzy cMeans poate fi utilizată în segmentarea imaginilor

Fuzzy cMeans
Algoritm Calculul centroizilor
• Initialize the membership matrix (M) n
• Repeat ∑M ijp xi p>1 is a
– Compute the centroids(ck, k=1,…K) c j = i =1 , j = 1, K parameter
n
– Update the membership values (mij,
i=1,…,N, j=1,…,K i =1
∑M ijp (e.g. p=2)
until <no significant changes in the

Calculul gradului de apartenenţă
membership function>
Obs: dacăe e necesar fiecare dată este

1
M ij = K
asignată la clusterul ce corespunde celui 2 /( p −1)
∑1 / xi − ck
2 /( p −1)
mai mare grad de apartenenţă
xi − c j
k =1
i = 1, n, j = 1, K

Algoritmi ierarhici
Obs: una dintre principalele limite ale algoritmilor ierarhici e faptul că necesită
cunoaşterea numărului de clustere.
Altă abordare: se construieşte o ierarhie de partiţii – conduce la o structură
arborescentă numită dendrogramă
 In varianta bottom-up (metoda aglomerativă )
 Se porneşte cu o partiţie de clustere ce conţin fiecare câte o singură
dată (reprezintă frunze în arbore)
 Se reunesc clusterele care sunt similare între ele – procesul de reunire
se repetă până se ajunge la un singur cluster (reprezintă rădăcina
arborelui)
 In varianta top-down (metoda divizivă)
 Se porneşte cu o partiţie ce conţine un singur cluster (cu toate datele)
 Se partiţionează clusterii mari aplicând o tehnica partiţională (ex:
kMeans) – procesul continuă până când se ajunge la clustere ce conţin
câte o singură dată.
Metoda aglomerativă
Idee: se identifică la fiecare etapă care sunt cele mai similare clustere şi se
reunesc
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9
1 0 2 3 4 7 8 6 8 10
2 2 0 1 2 4 6 7 8 9
3 3 1 0 2 3 5 6 8 9
4 4 2 2 0 3 6 9 10 11 1 2 3 4 5 6 7 8 9
5 7 4 3 3 0 1 4 6 5
6 8 6 5 6 1 0 3 4 3
7 6 7 6 9 4 3 0 1 2
8 8 8 8 10 6 4 1 0 2 Data mining - Curs 6 19
9 10 9 9 11 5 3 3 2 0
reunesc
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9
1 0 2 3 4 7 8 6 8 10
2 2 0 1 2 4 6 7 8 9
3 3 1 0 2 3 5 6 8 9
4 4 2 2 0 3 6 9 10 11 1 2 3 4 5 6 7 8 9
5 7 4 3 3 0 1 4 6 5
6 8 6 5 6 1 0 3 4 3
7 6 7 6 9 4 3 0 1 2
8 8 8 8 10 6 4 1 0 2 Data mining - Curs 6 20
9 10 9 9 11 5 3 3 2 0
reunesc
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9
1 0 2 3 4 7 8 6 8 10
2 2 0 1 2 4 6 7 8 9
3 3 1 0 2 3 5 6 8 9
4 4 2 2 0 3 6 9 10 11 1 2 3 4 5 6 7 8 9
5 7 4 3 3 0 1 4 6 5
6 8 6 5 6 1 0 3 4 3
7 6 7 6 9 4 3 0 1 2
8 8 8 8 10 6 4 1 0 2 Data mining - Curs 6 21
9 10 9 9 11 5 3 3 2 0
reunesc
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9

reunesc
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9

reunesc
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9

reunesc
 Deondrograma rezultată
8
7 9
1
3
2 6
4 5
1 2 3 4 5 6 7 8 9
 Reprezentarea unei dendrograme: ca set de triplete ordonate (nivel, nr de

clustere, clustere)
{(0,9,{{1},{2},…,{9}}) ,(1,6,{{1},{2,3},{4},{5,6},{7 ,8},{9}}),
(2,4,{{1},{2,3,4},{5,6},{7,8,9}}), (3,3,{{1,2,3,4},{{5,6},{7,8,9}}),
(4,2,{{1,2,3,4,5,6},{7,8,9}),(5,1,{{1,2,3,4,5,6,7,8,9}})}
8  Pentru a obţine o partiţie dendrograma

7 trebuie secţionată
9
1
3
2 6
4 5
Partiţie:
C1={1}
C2={2,3,4} 1 2 3 4 5 6 7 8 9
C3={5,6}
C4={7,8,9}
8  Schimbând nivelul de secţionare se obţine

7 o altă partiţie
9
1
3
2 6
4 5
Partition:
C1={1,2,3,4}
C2={5,6} 1 2 3 4 5 6 7 8 9
C3={7,8,9}

Problema: care e criteriul de selecţie a clusterelor care se reunesc?
Răspuns: se foloseşte o măsură de disimilaritate între clustere; sunt mai multe

moduri de a calcula această măsură:
 Single-linkage: cea mai mică disimilaritate (distanţă) între datele aparţinând

unor clustere diferite
C3
8
7
DSL (Ci , C j ) = min x∈Ci , y∈C j d ( x, y )
9
1
3
2 6
4 5
C1 C2


moduri de a calcula această măsură
 Complete-linkage: cea mai mare disimilaritate (distanţă) între datele

aparţinând unor clustere diferite
C3
8
7
DCL (Ci , C j ) = max x∈Ci , y∈C j d ( x, y )
9
1
3
2 6
4 5
C1 C2


moduri de a calcula această măsură
 Average-linkage: media distanţelor dintre datele aparţinând unor clustere

diferite
C3
1
DAL (Ci , C j ) = ∑ d ( x, y )
8
7 9 card (Ci )card (C j ) x∈Ci , y∈C j
1
3
2 6
4 5
C1 C2

Măsura de disimilaritate folosită influenţează rezultatul grupării:
Data Clustering: Algorithms and Applications, 2014

Algoritm Obs
Input : set de date cu N instanţe
X={x1,x2,…,xN} + matrice disimilaritate D  Funcţia mergeClusters identifică
Output: dendrograma (set de triplete) cele mai apropiate clustere şi le
reuneşte
agglomerative(X,D)
level=0; k=N  Algoritmul are complexitate
C={{x1},{x2},…,{xN}}; DE={(level,k,C)} pătratică în raport cu numărul de
date din set (O(N2))
repeat
oldk=k
 Este senzitiv la erorile din date
level=level+1
(k,C)=mergeClusters(k,C,D)
D=recompute the dissimilarity matrix using
single/complete/average linkage
DE=union (DE, (level,k,C))
until k=1 Data mining - Curs 6 32
Metoda divizivă
Structura generică
Input : set de date cu N instanţe X={x1,x2,…,xN}
Output: dendrograma (tree) T
divisive(X,D)
Initialize the tree T with a root node containing the entire data set
Repeat
select a leaf node L from T (based on a specific criterion)
use a flat clustering algorithm to split L into L1,L2,…Lk
Add L1,L2,…Lk as children of L in T
until <a stopping criterion>
Obs: algoritmul partiţional poate fi kMeans; un caz particular este bisecting

kMeans care se bazează pe partiţionarea unui cluster în două alte clustere
(aplicând kMeans pt k=2)
Bisecting Kmeans
• Varianta de algoritm de bisecţie bazat pe Kmeans

Curs 7:
Gruparea datelor (II)

Structura
 Metode bazate pe densitate
 DBSCAN
 DENCLUE
 Metode probabiliste
 EM - Expectation Maximization

Metode bazate pe densitate
 Cluster = grup dens de date similare Densitate
separate de regiuni cu densitate mai mică mare
de date
 Idee de bază: estimarea densităţii locale
a datelor
 se determină numărul de date din
vecinătatea punctului analizat
(DBSCAN)
Densitate
 se utilizează funcţii de influenţă pt mică
estimarea densităţii (DENCLUE)
 Problema principală:
 Cum se estimează densitatea?

DBSCAN
DBSCAN [M.Ester, H Kriegel et al, 1996] este un algoritm de grupare
bazat pe următoarele elemente:
 Densitatea estimată într-un punct = numărul de puncte aflate în

vecinătatea definită de o anumită rază (Eps)
 Un punct este considerat punct nucleu (core point) dacă numărul de
puncte din vecinătatea sa depăşeşte un prag(MinPts); acestea sunt
puncte considerate a fi în interiorul clusterului
 Un punct frontieră (border point) are un număr de vecini mai mic
decât MinPts dar este în vecinătatea unui punct nucleu; Două puncte
sunt considerate conectate dacă unul este în vecinătatea celuilalt
 Un punct q est accesibil direct (directly density reachable) dintr-un
punct nucleu p dacă e în vecinătatea lui p; accesibilitatea în sens
general este definită ca fiind închiderea tranzitivă a relaţiei de
accesibilitate directă (există un lanţ de puncte nucleu ce începe cu p
şi se termină cu q cu proprietatea că fiecare e direct accesibil dintr-
un punct anterior)
 Un punct de tip zgomot (noise point) este orice punct care nu e nici
nucleu nici frontieră Data mining - Curs 7 4
DBSCAN

DBSCAN
p este accesibil din q a este accesibil din b

c este accesibil din b
Obs: => a şi c sunt conectate
 Două pcte, a şi b, dacă există un punct c astfel încât c este accesibil atât din a
cât şi din b
 Două puncte conectate ar trebui să aparţină aceluiaşi cluster => un cluster
definit pe baza densităţii este un set maximal de date conectate
DBSCAN
DBSCAN (SetOfPoints, Eps, MinPts) // SetOfPoints is UNCLASSIFIED
ClusterId := nextId(NOISE);
FOR i FROM 1 TO SetOfPoints.size DO
Point := SetOfPoints.get(i);
IF Point.ClusterId = UNCLASSIFIED THEN
IF ExpandCluster(SetOfPoints, Point,ClusterId, Eps, MinPts)
THEN ClusterId := nextId(ClusterId)
END IF
END IF
END FOR
END; // DBSCAN
[M.Ester, H Kriegel et al, A Density-Based Algorithm for Discovering

Clusters in Large Spatial Databases with Noise, 1996]
7
DBSCAN
ExpandCluster(SetOfPoints, Point, ClId, Eps, MinPts) : Boolean;
seeds:=SetOfPoints.regionQuery(Point,Eps);
IF seeds.size<MinPts THEN SetOfPoint.changeClId(Point,NOISE); RETURN False;
ELSE // all points in seeds are density-reachable from Point
SetOfPoints.changeClIds(seeds,ClId); seeds.delete(Point);
WHILE seeds <> Empty DO
currentP := seeds.first(); result := SetOfPoints.regionQuery(currentP, Eps);
IF result.size >= MinPts THEN
FOR i FROM 1 TO result.size DO resultP := result.get(i);
IF resultP.ClId IN {UNCLASSIFIED, NOISE} THEN
IF resultP.ClId = UNCLASSIFIED THEN seeds.append(resultP); END IF;
SetOfPoints.changeClId(resultP,ClId);
END IF; // UNCLASSIFIED or NOISE
END FOR; END IF; // result.size >= MinPts
seeds.delete(currentP); END WHILE; // seeds <> Empty
RETURN True; END IF; END;
8
DBSCAN
Date (puncte) de Tipuri de puncte : core,

prelucrat border şi noise
Eps = 10, MinPts = 4

DBSCAN
Date
Clustere
Specific:
• Permite identificarea clusterelor de diferite forme
• Robust Data mining - Curs 7 10
DBSCAN
(MinPts=4, Eps=9.75).
Original Points
Nu este adecvat pt:

• variaţii în densitatea datelor
• date de dimensiuni mari (cu
multe atribute)

DENCLUE
 Cluster = grup dens de date similare
separate de regiuni cu densitate mai mică Densitate
de date mare
 Idee de bază: estimarea densităţii locale

a datelor
 se utilizează funcţii de influenţă pt
estimarea densităţii
Densitate
mică
Funcţie de influenţă Funcţie de densitate
 n 
 ∑ ( x j − y j )2  N
1
I y ( x) = n / 2 exp −
σ
1 j =1
2σ 2


f ( x) =
N
∑I
i =1
xi ( x)
 
 
DENCLUE
 Forma funcţiei de densitate
depinde de valoarea lui σ
 Dacă valoarea lui σ este

adecvată, maximele locale ale
funcţiei de densitate corespund
reprezentanţilor clusterilor
 Pt valori mari ale lui σ fctia de

densitate are un maxim unic
 Pt valori prea mici ale lui σ

maximele locale corespund unor
vârfuri izolate şi pot fi dificil de
detectat
σ=0.1 σ=0.05 13
DENCLUE
Ideea algoritmului DENCLUE
[Hinneburg, Keim – 1998]: se aplică
de căutare de tip gradient pornind
de la punctele din setul de date cu
scopul identificării maximelor locale
Variante:
 Fiecare maxim local corespunde
unui cluster (clusterele detectate
vor fi sferice sau elipsoidale)
 Un cluster corespunde unui set

de maxime locale “învecinate” (se
pot identifica clustere de forma
arbitrara)
σ=0.1
Data mining - Curs 7 σ=0.05 14
Metode probabiliste
Idee de bay[:
 Datele sunt generate de un proces stohastic (o mixtură de distribuţii de
probabilitate, fiecare dintre ele corespunzând unui cluster)
 Scopul algoritmului de grupare este de a descoperi modelul probabilist,
adică de a identifica distribuţiile de probabilitate
Exemple:
 Algoritmul Expectation–Maximization (EM) – se bazează pe
următoarele ipoteze:
 Fiecare dată este generată de o distribuţie de probabilitate (tipul de
distribuţie depinde de natura datelor)
 În procesul de generare a datelor fiecare dintre distribuţiile de
probabilitate este selectată la rândul ei cu o anumită probabilitate

Algoritmul EM
 Input: set de date D={x1,x2,…,xN}, K = număr de clustere
 Output: o partiţie P={C1,C2,…,CK} a setului D
Iniţializarea parametrilor modelelor şi a probabilităţilor de selecţie
• (E-Step) Se determină probabilitatea de asignare a fiecărei date la

clustere (folosind valorile curente ale parametrilor)
• (M-Step) Se determină parametrii modelului folosind valorile curente
ale probabilităţilor de asignare a datelor la clustere
Obs:
• In cazul datelor numerice se poate folosi distribuţia normală multi-
dimensională pentru a modela datele aparţinând unui cluster (modelul
de generare a datelor este o mixtură de gaussiene). Parametrii care se
estimează sunt media şi matricea de covarianţă.
EM algorithm
Ex
Data Clustering Algorithms and applications (ed. CC Aggarwal, CK Reddy, 2014)

Algoritmul EM
Ecuaţii care intervin in algoritmul EM
Data Clustering Algorithms and applications (ed. CC Aggarwal, CK Reddy, 2014)

Curs 8:
Reguli de asociere
Data mining -Curs 8 1

Structura
 Motivaţie
 Problema coşului de cumpărături
 Suport (support), încredere (confidence)
 Seturi frecvente (frequent itemset)
 Algoritmul Apriori

Un exemplu
Analiza coşului de cumpărături (market basket analysis):
 Se consideră un set de înregistrări care conţin informaţii despre

produsele cumpărate de clienţii unui supermarket
 Fiecare înregistrare corespunde unei tranzacţii şi conţine lista
produselor achiziţionate
Exemplu:
T1: {milk, bread, meat, water}

T2: {bread, water}
T3: {bread, butter, meat, water}
T4: {water}
 Scop: identificarea produselor care sunt în mod frecvent achiziţionate

împreună cu scopul de a extrage informaţii utile pentru decizii de
marketing
Motivaţie
Problema de rezolvat: fiind dat un set de tranzacţii să se găsească regulile
care descriu relaţii între apariţiile simultane ale unor produse în listele de
tranzacţii
Exemplu: IF “bread AND minced meat” THEN “mustard”
Obs: regulile de asociere exprimă doar relaţii de co-ocurenţă nu şi relaţii de

cauzalitate
La modul general o “tranzacţie” poate fi:

 Listă de produse sau servicii achiziţionate de către un client
 Lista de simptome asociate unui pacient
 Lista de cuvinte cheie sau nume de entităţi (named entities), adică nume
de persoane, instituţii, locaţii, identificate într-o colecţie de documente
 Liste de actions urmate de un utilizator într-o aplicaţie de gestiune a unei
reţele sociale

Concepte de bază
T2: {bread, water}
 Entitate sau produs (item) T4: {water}
 Element al unei tranzacţii (e.g: “water”)
 Componentă a unei înregistrări: atribute=valoare (e.g. Vârsta =foarte
tînâr)
 Set de entităţi (itemset) = colecţie sau mulţime
 Exemplu: {bread, butter, meat, water}
 k-itemset = set de k entităţi
 Exemple de 2-itemset: {bread, water}
 Set frecvent (frequent itemset) = un set care apare în multe tranzacţii
 Frecvenţa set = nr de tranzacţii care conţin setul
 Exemplu: 2-itemset-ul {bread,water} apare în 3 dintre cele 4 tranzacţii

Concepte de bază
T2: {bread, water}
T4: {water}
 Regulă de asociere = IF antecedent THEN consequent

(regulă ce conţine un itemset atât în partea de antecedent cât şi în cea de
concluzie)
 Exemplu: IF {bread,meat} THEN {water}
 Cum poate fi interpretată această regulă?

 Când se cumpără pâine şi carne există şansă mare să se cumpere şi
apă
 Câtă încredere putem avea într-o astfel de regulă? Cât este ea de utilă ?
Cum putem măsura calitatea unei reguli ?

Concepte de bază
T2: {bread, water}
T4: {water}
 Suport (support)
 Pt un set: raportul dintre numărul tranzacţii ce conţin setul şi numărul
total de tranzacţii
 Pt o regulă: raportul dintre numărul tranzacţii ce conţin entităţile
prezente în regulă (atât în membrul stâng cât şi în cel drept) şi numărul
total de tranzacţii: supp(IF A THEN B)=supp({A,B})
Exemple:
 supp({milk,bread})=1/4=0.25
 supp({water})=4/4=1
 supp(IF {milk,bread} THEN {water})=supp({milk,bread,water})=1/4=0.25

Concepte de bază
T2: {bread, water}
T4: {water}
 Coeficientul de încredere a unei reguli – confidence (IF A THEN B)
 Raportul dintre suportul setului {A,B} şi suportul lui {A}:
supp({A,B})/supp(A)
Exemple:
 R1: IF {milk,bread} THEN {water}
 supp({milk,bread,water})=1/4=0.25
 supp({milk,bread})=1/4=0.25
 conf(R1)=supp({milk,bread,water})/supp({milk,bread})=1
 Interpretare: în toate cazurile în care se cumpără lapte şi pâine se
cumpără şi apă.
 R2: IF {bread, water} THEN {meat}
 conf(R2)=supp({bread,water,meat})/supp({bread,water})=2/3=0.66
Extragerea regulilor de asociere
T2: {bread, water}
T4: {water}
 Input: set de tranzacţii

 Output: set de reguli cu suport şi grad de încredere mai mare decât un prag
specificat S={R1,R2,….}, adică
Fiecare regulă R: IF A THEN B satisface
supp(R)=supp({A,B})
=nr tranzacţii ce conţin A şi B/ nr total tranzacţii > prag suport (e.g. 0.2)
conf(R)=supp({A,B})/supp(A) > prag încredere(e.g. 0.7)
Obs: pragurile sunt specificate de către utilizator (de regulă pragul pt suport este
mai mic decât cel pt încredere)
Abordări:
 Forţă brută: se generează toate regulile după care se aplică filtre (first
generate then filter):
 Generează toate regulile pornind de la setul E de entităţi
 Pt fiecare submulţime A a lui E (considerată ca fiind membru stâng)
se selectează fiecare submulţime B a lui (E-A) cu rol de membru
drept şi se construieşte regula IF A THEN B
 Selectează regulile care satisfac restricţiile privind suportul şi
coeficientul de încredere
 OBS: o astfel de abordare este ineficientă; dacă N numărul total de entităţi
din E atunci numărul de reguli generate este:
N −1 N − k −1
∑ N
C k
k =1
∑ N −k
C i
i =1

T2: {bread, water}
Forţa brută – exemplu: T3: {bread, butter, meat, water}
T4: {water}
 I={bread, butter, meat, milk, water}, N=5
 A={bread}; sunt 16 submulţimi ale lui E-A={butter, meat, milk, water}
care pot fi folosite cu rol de membru drept
 R1: IF {bread} THEN {butter}
 R2: IF {bread} THEN {meat}
 R3: IF {bread} THEN {milk}
 R4: IF {bread} THEN {water}
 R5: IF {bread} THEN {butter,meat}
 R6: IF {bread} THEN {butter, milk)
 …
 R16: IF {bread} THEN {butter, meat, milk, water}
 … R500840 (mai mult de 500000 reguli în cazul unei liste cu 5 entităţi)
T2: {bread, water}
Forţa brută – exemplu: T3: {bread, butter, meat, water}
T4: {water}
 I={bread, butter, meat, milk, water}, N=5
 A={bread}; sunt 16 submulţimi ale lui E-A={butter, meat, milk, water}
care pot fi folosite cu rol de membru drept
 R1: IF {bread} THEN {butter} (supp(R1)=0.25, conf(R1)=0.33)
 R2: IF {bread} THEN {meat} (supp(R2)=0.5, conf(R2)=0.66)
 R3: IF {bread} THEN {milk} (supp(R3)=0.25, conf(R3)=0.33)
 R4: IF {bread} THEN {water} (supp(R4)=0.75, conf(R4)=1)
 R5: IF {bread} THEN {butter,meat} (supp(R5)=0.25, conf(R5)=1)
 R6: IF {bread} THEN {butter, milk) (supp(R6)=0.25, conf(R6)=1)
 …
 R16: IF {bread} THEN {butter, meat, milk, water}
(supp(R6)=0, conf(R6)=0)
T2: {bread, water}
T4: {water}
Obs:
 Suportul regulii IF A THEN B este mai mare decât pragul doar dacă
suportul lui {A,B} este mai mare decât pragul
 Idee: ar fi util să se identifice prima dată seturi cu un suport mai mare decât
pragul şi apoi să se construiască reguli prin separarea setului între membrul
stâng şi membrul drept
 De exemplu, nu are sens să se caute reguli pt care {A,B}={bread, butter,
meat, milk, water}, întrucât suportul acestui set este 0
(in această abordare ar fi 2N-2 reguli care implică toate entităţile – toate
combinaţiile posibile în a le distribui astfel încât nici unul dintre cei doi membri
ai regulii să nu fie nul)

T2: {bread, water}
Abordări mai eficiente: T4: {water}
 Apriori :
 Pas 1: Se determină toate seturile cu suportul mai mare decât pragul
specificat (e.g. 0.2) – acestea sunt seturile frecvente (frequent itemsets)
 Pas 2: Pt fiecare set se generează toate toate regulile posibiles
(distribuind elementele setului între membrul stâng şi membrul drept) şi
se selectează cele care au coeficientul de încredere mai mare decât
pragul (e.g. 0.7)
 Obs: problema principală este generarea seturile frecvente fără o analiză

exhaustivă a subseturilor (cum se face în abordarea bazată pe forţa brută)

T2: {bread, water}
T4: {water}
Întrebare: Cum s-ar putea identifica seturile frecvente fără a genera toate
subseturile posibile?
Obs: orice subset al unui set frecvent trebuie să fie şi el frecvent (să aibă
suportul mai mare decât pragul)
Exemplu: supp({bread, water, meat})=0.5 =>
supp({bread})=0.66>0.5, supp({water})=1>0.5, supp({meat})=0.5
supp({bread,water})=0.66>0.5, supp({bread,meat})=0.5
supp({water,meat})=0.5
Idee: se construiesc seturile frecvente incremental pornind de la seturi

constituite dintr-un singur element
T2: {bread, water}
Construirea seturilor frecvente T4: {water}
(prag pt suport: 0.3)
1-itemsets
{bread} supp({bread})=0.75
{butter} supp({butter})=0.25
{meat} supp({meat})=0.5
{milk} supp({milk})=0.25
{water} supp({water})=1

T2: {bread, water}
Construirea seturilor frecvente T4: {water}
1-itemset-uri frecvente
{bread} supp({bread})=0.75
{butter} supp({butter})=0.25
{meat} supp({meat})=0.5
{milk} supp({milk})=0.25
{water} supp({water})=1

T2: {bread, water}
Cosntruirea seturilor frecvente T4: {water}
1-itemset-uri 2-itemset-uri
{bread} supp({bread})=0.75 {bread,meat} supp({bread, meat})=0.5

{meat} supp({meat})=0.5 {bread,water} supp({meat,water})=0.75
{water} supp({water})=1 {meat,water} supp({water})=0.5

T2: {bread, water}
Cosntruirea seturilor frecvente T4: {water}
1-itemset-uri 2-itemset-uri frecvente
{bread} supp({bread})=0.75 {bread,meat} supp({bread, meat})=0.5

{meat} supp({meat})=0.5 {bread,water} supp({breadt,water})=0.75
{water} supp({water})=1 {meat,water} supp({meat, water})=0.5
3-itemset-uri
{bread,meat,water} supp({bread, meat, water})=0.5

Toate seturile frecvente cu cel puţin 2 entităţi T2: {bread, water}
(prag pt suport: 0.3) T3: {bread, butter, meat, water}
{bread,meat} supp({bread, meat})=0.5 T4: {water}
{bread,water} supp({bread,water})=0.75
{meat,water} supp({meat,water})=0.5
Reguli
R1: IF {bread} THEN {meat} conf(R1)=1
R2: IF {meat} THEN {bread} conf(R2)=0.66
R3: IF {bread} THEN {water} conf(R3)=1
R4: IF {water} THEN {bread} conf(R4)=0.75
R5: IF {meat} THEN {water} conf(R5)=1
R6: IF {water} THEN {meat} conf(R6)=0.5
Toate seturile frecvente cu cel puţin 2 entităţi T2: {bread, water}
(prag pt suport: 0.3) T3: {bread, butter, meat, water}
{bread,meat} supp({bread, meat})=0.5 T4: {water}
{bread,water} supp({bread,water})=0.75
{meat,water} supp({meat,water})=0.5
Rules
R7: IF {bread} THEN {meat, water} conf(R7)=0.66
R8: IF {meat} THEN {bread, water} conf(R8)=1
R9: IF {water} THEN {bread, meat} conf(R9)=0.5
R10: IF {bread,meat} THEN {water} conf(R10)=1
R11: IF {bread,water} THEN {meat} conf(R11)=0.66
R12: IF {meat,water} THEN {bread} conf(R12)=1
T2: {bread, water}
Toate regulile cu nivel de încredere ridicat T3: {bread, butter, meat, water}
(prag pt nivelul de încredere: 0.75) T4: {water}
R1: IF {bread} THEN {meat} conf(R1)=1

R3: IF {bread} THEN {water} conf(R3)=1
R4: IF {water} THEN {bread} conf(R4)=0.75
R5: IF {meat} THEN {water} conf(R5)=1
R8: IF {meat} THEN {bread, water} conf(R8)=1
R10: IF {bread,meat} THEN {water} conf(R10)=1
R12: IF {meat,water} THEN {bread} conf(R12)=1
Obs: doar 12 din cele mai mult de 500000 de reguli posibile sunt
generate; dintre acestea se selectează 7 reguli cu nivel ridicat de
încredere
Întrebare: sunt toate regulile cu nivel ridicat de T2: {bread, water}
încredere şi interesante? (o regulă interesantă T3: {bread, butter, meat, water}
furnizează informaţie ne-trivială, nouă sau T4: {water}
neaşteptată)
Exemplu: regula IF {bread} THEN {water} are
coeficientul de încredere 1; furnizează
informaţie nouă?
Cum poate fi măsurat gradul de interes (noutate) a unei reguli?
Există diferite abordări. O variantă simplă este bazată pe Piatesky-Shapiro

argument care afirmă că antecedentul şi concluzia unei reguli nu ar trebui să fie
independente (în a sens statistic)
O regulă IF A THEN B este considerată interesantă dacă raportul (denumit “lift”
sau “interest”)
supp({A,B})/(supp(A)*supp(B)) nu este apropiat de 1
T2: {bread, water}
Eliminarea regulilor cu nivel mic al interesului T3: {bread, butter, meat, water}
(cele pt care supp({A,B})=supp({A})*supp({B}) T4: {water}
R1: IF {bread} THEN {meat} supp(R1)=0.75, supp({bread})*supp({meat})=0.37

R3: IF {bread} THEN {water} supp(R3)=0.75, supp({bread})*supp({water})=0.75
R4: IF {water} THEN {bread} supp(R4)=0.75, supp({bread})*supp({water})=0.75
R5: IF {meat} THEN {water} supp(R5)=0.5, supp({meat})*supp({water})=0.5
supp(R8)=supp(R10)=supp(R12)=0.5
R8: IF {meat} THEN {bread, water} supp({meat})*supp({bread, water})=0.37
R10: IF {bread,meat} THEN {water} supp({bread,meat})*supp({water})=0.5
R12: IF {meat,water} THEN {bread} supp({meat, water})*supp({bread})=0.37

Algoritmul Apriori
Structura generală:
Pas 1: Se generează lista de seturi frecvente incremental pornind de la seturi cu

un element şi folosind proprietatea de anti-monotonie a măsurii suport
Pt orice submulţime B a setului A: supp(B)>=supp(A)
(principala implicaţie a acestei proprietăţi este că la construirea unui k-itemset se

folosesc doar seturi mai mici care au o valoarea a suportului mai mare decât
pragul)
Pas 2: Se construieşte lista de reguli analizând toate subseturile seturilor

frecvente

Algoritmul Apriori
Exemplu: construirea incrementala a submulţimilor unei mulţimi cu 5 elemente
{A,B,C,D,E} null
A B C D E
AB AC AD AE BC BD BE CD CE DE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE

Algoritmul Apriori
Exemplu: construirea incrementala a submulţimilor unei mulţimi cu 5 elemente
{A,B,C,D,E} null
Observaţii
A B C D E
 Dacă {A} are un suport

mic atunci spaţiul de
AB AC AD AE BC BD BE CD CE DE
căutare poate fi redus
prin eliminarea tuturor
seturilor care îl includ pe
A
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
 Pt a construi un (k+1)-
itemset este suficient să
ABCD ABCE ABDE ACDE BCDE se reunească 2 k-itemset-
uri frecvente care au (k-
1) elemente comune
ABCDE

Algoritmul Apriori
Algoritm pentru generarea seturilor frecvente:
 k=1
 Se generează seturile frecvente cu 1 element
 Repeat
 Generează (k+1) – itemset-uri candidat reunind k-itemset-uri care au k-1
elemente comune
 Determină suportul item-set-urilor candidat (necesită parcurgerea setului de
tranzacţii)
 Elimină k-itemset-urile candidat care nu sunt frecvente
Until nu se mai identifica seturi frecvente noi

Algoritmul Apriori
Algoritm pt generarea regulilor pornind de la lista L de itemset-uri frecvente:
 Initializează lista LR de reguli (lista vidă)

 FOR fiecare itemset IS din L
 FOR fiecare submulţime A a lui IS se construieşte regula
R(A,IS): IF A THEN IS-A
 Calculează nivelul de încredere al regulii R(A,IS) şi dacă e mai mare decât
pragul se adaugă R(A,IS) la LR
Obs:
 Pt fiecare k-itemset pot fi generate 2k-2 rules (regulile cu membru stâng sau
drept vid se ignoră)
 Pt a limita nr de reguli pt care se calculează nivelul de încredere se poate folosi
proprietatea: nivelul de încredere este mai mare dacă cardinalitatea
antecedentului este mai, i.e
conf({A,B,C} → D) ≥ conf({A,B} → {C,D}) ≥ conf({A} → {B,C,D})

Algoritmul Apriori
Eliminarea regulilor (pruning)
ABCD=>{ }
Nivel de
încredere
scăzut
BCD=>A ACD=>B ABD=>C ABC=>D
CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD
D=>ABC C=>ABD B=>ACD A=>BCD

Reguli
eliminate
Algoritmul Apriori
Alte idei pentru a reduce volumul de calcule in procesul de generare a regulilor
pornind de la seturi frecvente:
 Este mai eficient dacă se porneşte cu itemset-urile mari

 Noi reguli pot fi construite prin reunirea unor reguli existente
Exemplu:
• join(IF {C,D} THEN {A,B}, IF {B,D} THEN {A,C}) conduce la regula
IF {D} THEN {A,B,C}
• Dacă regula IF {A,D} THEN {B,C} are nivelul de încredere mai mic decât pragul
atunci regula reunită ar trebui eliminată (va avea nivelul de încredere mai mic)

Algoritmul Apriori
Influenţa pragurilor:
 Dacă pragul pt suport este prea mare atunci se pot pierde itemset-uri care
includ entităţi rare (de exemplu produse scumpe, sau simptome rare)
 Dacă pragul pt suport este prea mic atunci numărul de itemset-uri generate
este mare şi costul de calcul e mare

Curs 9:
Modele de regresie
Data Mining - curs 9 1

Structura
 Motivaţie
 Corelaţii, coeficient de corelaţie
 Regresie liniară
 Modele neliniare
 Arbori de regresie
 Reţele RBF

Motivaţie
Problema: Pornind de la caracteristici cunoscute ale unei maşini (e.g. Nr cilindri,
cai putere, greutate, model etc) se doreşte estimarea consumului de combustibil
(e.g. exprimat prin “miles per gallon”)
Exemplu [autoMpg.arff de la http://archive.ics.uci.edu/ml/datasets.html]

@relation autoMpg
@attribute model { 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82}
@attribute class real
@data
8,307,130,3504,12,70,1,18
8,350,165,3693,11.5,70,1,15
4,113,95,2372,15,70,3,24
6,198,95,2833,15.5,70,1,22
6,199,97,2774,15.5,70,1,18

Motivation
Problema: Pornind de la caracteristici cunoscute ale unei maşini (e.g. Nr cilindri,
cai putere, greutate, model etc) se doreşte estimarea consumului de combustibil
(e.g. exprimat prin “miles per gallon”)
Exemplu [autoMpg.arff de la http://archive.ics.uci.edu/ml/datasets.html]

@relation autoMpg
@attribute model { 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82}
@attribute class real
Se caută o relaţie care să descrie dependenţa
@data
8,307,130,3504,12,70,1,18
dintre consumul de combustibil (atributul class în
8,350,165,3693,11.5,70,1,15
setul de date) şi caracteristicile maşinii (primele
4,113,95,2372,15,70,3,24 7 atribute din setul de date)
6,198,95,2833,15.5,70,1,22
6,199,97,2774,15.5,70,1,18

Un exemplu mai simplu
Câteva seturi de date generate artificial
y Set 3
y Set 1
x
x
y Ce se poate spune despre datele
Set 2 din fiecare set?
x Data Mining - curs 9 5

y Set 3
y Set 1
x
x
y Set 1: datele par să fie corelate pozitiv
Set 2 = dacă x creşte atunci şi y creşte

y Set 3
y Set 1
x
x
y Set 2: datele par să fie corelate negaitiv
Set 2 = dacă x creşte atunci y scade

y Set 3
y Set 1
x
x Set 3: datele par să nu fie corelate (e doar un
y nor de puncte)
Set 2 Intrebari:
 Cum poate fi masurat gradul de corelaţie?
 Ce tip de corelaţie există?

Coeficient de corelaţie
Cum poate fi masurat gradul de corelaţie?
[reminder – Probabilităţi şi Statistică]
 De exemplu folosind coeficientul de correlation Pearson – exprimă gradul
de corelaţie liniară dintre cele două variabile
1 n
n
∑ ( xi − avg ( X ))( yi − avg (Y ))
Obs: -1<=R(X,Y)<=1
R( X , Y ) = i =1
stdev ( X ) stdev (Y )
 R(X,Y) apropiat 1: corelaţie
liniară pozitivă
n
1
stdev ( X ) = ∑
n i =1
( xi − avg ( X )) 2
 R(X,Y) apropiat to -1: corelaţie
liniară negaitivă
1 n  R(X,Y) apropiat to 0: nu sunt
stdev (Y ) = ∑
n i =1
( yi − avg (Y )) 2 corelate liniar (poate exista
corelaţie neliniară între X şi Z)
1 n 1 n
avg ( X ) = ∑ xi , avg (Y ) = ∑ yi
n i =1 n i =1
Regresie liniară
Ce tip de corelaţie ? [reminder – Statistică]
Cazul cel mai simplu: Dependenţa liniară dintre două variabile: Y=w1X+w0
 X= variabila predictor (independentă, intrare, explicativă)
 Y= variabila prezisă (dependentă, răspuns, explicată)
Scopul regresiei liniare: estimarea parametrilor w1 şi w0 a.î. valorile asociate
variabilelor X (i.e. x1,x2,…, xn) şi Y (i.e. y1,y2,…, yn) sunt bine explicate de către
funcţia liniară, i.e. Suma pătratelor erorilor este minimizată
y SSE ( w1 , w0 ) = ∑ ( yi − ( w1 xi + w0 )) 2
Set 1 i =1
n
= ∑ ( yi − w xi ) 2
i =1
( w = ( w1 , w0 ), xi = ( xi ,1)T )
Vector linie Vector coloană

Regresie liniară simplă
Reminder: algebra liniară
T
 x1 x2 ... xn 
w = ( w1 , w0 ), D =   , y = ( y1 , y2 ,..., yn )T
1 1 ... 1 
T 2
SSE ( w) = y − Dw = ( y − DwT )T ( y − DwT )
= y T y − 2 wD T y + wD T DwT
Determinarea vectorului w care minimizează SSE(w) este echivalentă cu

determinarea punctului critic al lui SSE, adică rezolvarea următoarelor ecuaţii
în raport cu w:
D T DwT = D T y ⇒ wT = ( D T D) −1 D T y = D + y
D + = ( D T D) −1 D T este pseudoinversa lui D

Regresie liniară multiplă
Obs: abordarea poate fi extinsă în cazul mai multor variabile predictor (e.g.
Setul autoMPG)
T
 x11 x12 ... x1n 
 
 x21 x22 ... x2 n 
w = ( w1 , w2 ,..., wd , w0 ), D =  ... ... ... ...  , y = ( y1 , y2 ,..., yn )T
 
 xd 1 xd 2 ... xdn 
 1
 1 ... 1 
T 2
SSE ( w) = y − Dw = ( y − DwT )T ( y − DwT )
= y T y − 2 wD T y + wD T DwT
D T DwT = D T y ⇒ wT = ( D T D ) −1 D T y
Regresie liniară - regularizare
Obs: dacă matricea DTD este singulară (inversa nu poate fi calculată) atunci
funcţia obiectiv (SSE) este modificată prin adăugarea unui termen de
regularizare care va modifica matricea in aşa fel încât să se obţină o matrice
inversabilă).
Exemple:
 Regularizare Tikhonov (ridge regression)
SSE ' ( w) = SSE ( w) + λ w

2
w = ( D T D + λI ) −1 D T y
I = ( d + 1) × ( d + 1) matrice identitate
Obs:
 Termenul de penalizare “descurajează” valorile mari ale parametrilor
 Parametrul termenului de regularizare (lambda) poate fi ales în manieră
adaptivă folosind validare încrucişată
Regresie liniară - regularizare
Obs: dacă matricea DTD este singulară (inversa nu poate fi calculată) atunci
funcţia obiectiv (SSE) este modificată prin adăugarea unui termen de
regularizare care va modifica matricea in aşa fel încât să se obţină o matrice
inversabilă).
Exemple:
 Regularizare Lasso
d
SSE ' ( w) = SSE ( w) + λ ∑ | wi |
i =1
Obs:
 In acest caz problema de optimizare se rezolvă folosind metode numerice
 Este utilă în cazul problemelor cu multe variabile dintre care o mare parte
sunt irelevante (specific pt “sparse models”)

Modele liniare generalizate
Idee: în loc de yi=w1xi+w0 ieşirea (yi) este modelată printr-o variabilă aleatoare
care are media f(w1xi+w0)
Principalele elemente ale unui model GLM (generalized linear model):

 Funcţia de medie (mean function): f
 Funcţia de legătură (link function): f-1
 Distribuţia de probabilitate (probability distribution)
Mean function Link function Distribution

f(u)=u identity normal
f(u)=-1/u inverse exponential, gamma
f(u)=exp(u) Log Poisson
f(u)=1/(1+exp(-u)) Logit Bernoulli


Regresie
clasică
(metoda celor
Mean function Link function Distribution mai mici
f(u)=u identity normal pătrate)
f(u)=exp(u) Log Poisson


Mean function Link function Distribution

f(u)=u identity normal
f(u)=exp(u) Log Poisson Regresie
logistică

Regresie neliniară
Cum se abordează cazul în care dependenţa dintre variabila prezisă şi cele
predictor nu este liniară?
Sunt necesare alte modele Exemple:
 Arbori de regresie
 Reţele neuronale
y Set 4
x
Regresie neliniară
Ideea principală:
 O dependenţă neliniară poate fi modelată prin mai multe funcţii liniare (câte
una pentru fiecare regiune)
 Procesul de regresie constă din două etape:
 Identificarea regiunilor prin partiţionarea spaţiului variabilelor

predictor
 Identificarea modelului de regresie (liniar) pt fiecare dintre regiuni
y
a b x
Arbori de regresie
Reminder:
Arbori de decizie= arbore în care nodurile interne conţine condiţii referitoare la
variabilele predictor iar cele frunză sunt informaţii privind variabila predictor (în
cazul arborilor de clasificare variabila prezisă este discretă şi nodurile frunză
conţin indicatori de clasă)

Arbori de regresie
Reminder:
Arbori de decizie= arbore în care nodurile interne conţine condiţii referitoare la
variabilele predictor iar cele frunză sunt informaţii privind variabila predictor (în
cazul arborilor de clasificare variabila prezisă este discretă şi nodurile frunză
conţin indicatori de clasă)
Intrebare:
 Dar dacă variabila prezisă este
continuă? (ex: în locul unui
răspuns de tipul da/nu în cazul
problemei “weather-play” ar fi o
valoare [0,1] care ar exprima un
nivel de decizie între 0 (nu) şi 1
(da)

Arbori de regresie
Ideea principală:
 Se utilizează un proces similar de partiţionare a spaţiului de decizie ca şi în
cazul arborilor de clasificare
 Pt variabile predictor continue condiţia de ramificare este: variabila <
valoare sau variabila > valoare sau variabila in [min,max]
 Se deduce un model de regresie (de exemplu liniar) pt fiecare dintre
regiunile identificate prin procedura de ramificare
Exemplu foarte simplu -> model
liniar pe porţiuni
y
x<a
x<b
y=x+1
y=a+1 y=a+b+1-x
a b x
Regresie neliniară
Dincolo de modelele de regresie liniară pe porţiuni:
 Se extinde modelul clasic de regresie liniară considerând atribute
transformate prin intermediul unor funcţii
y=w0+w1h1(x)+w2h2(x)+…+wmhm(x)
(x e un vector hi e o funcţie ce asociază un scalar sau un vector argumentului
său)
Caz particular 1. Modele polinomiale: y= w0+w1x+w2x2+…+wmxm
(x este un scalar) Caz particular 2.
Modele bazate pe funcţii nucleu (kernel
y
functions): hi sunt funcţii care iau valori
semnificative doar pr regiuni limitate din
spaţiul variabilelor predictor
 Dacă aceste funcţii au simetrie radială
(de exemplu funcţii gaussiene) se
ajunge la reţelele de tip RBF (un caz
particular de reţele neuronale)
x
Rețele cu funcții radiale
• RBF - “Radial Basis Function”:
N K M
• Arhitectura:
C W
– Două nivele de unități
funcționale
centri ponderi
– Funcții de agregare: N
• Unități ascunse: distanța dintre G( X , C ) = X − C
k k
= ∑ i i)
( x − c k 2
vectorul de intrare și cel al i =1

ponderilor corespunzătoare
unității ascunse Funcții de transfer (activare):
- nivelul ascuns: funcții cu simetrie
• Unități de ieșire: suma radială
ponderată
- nivelul de ieșire: funcții liniare

Funcție sigmoidală
Diferența față de rețelele
feedforward clasice:
Funcții de transfer:
FF: funcții sigmoidale
RBF: funcții cu simetrie radială
Funcții cu simetrie radială

1
0.8
0.6
0.4
0.2
-3 -2 -1 1 2 3
Funcționare:
K
yi = ∑ wik g ( X − C k ) − wi 0 , i = 1, M
k =1
N K M
K
yi = ∑ wik z k − wi 0 , z k = g ( X − C k ) C W
k =1
Matrice centri Matrice ponderi
Parametrii Ck pot fi interpretați ca prototipuri (centri) asociați unităților

ascunse: vectorii de intrare X apropiați lui Ck vor conduce la o
valoarea de ieșire semnificativă pe când cei îndepărtați vor
conduce la o valoare de ieșire nesemnificativă; la construirea
răspunsului rețelei vor contribui doar unitățile a căror centri sunt
suficient de similari cu data de intrare

Exemple de funcții radiale: g3 (σ=1)
1
0.8
0.6 g2 (σ=1)
g1 (u ) = exp(−u 2 /(2σ 2 )) 0.4
g 2 (u ) = 1 /(u 2 + σ 2 ) 0.2
g 3 (u ) = 1 / u 2 + σ 2
-3 -2 -1 1 2 3
g1 (σ=1)

• Fiecare unitate ascunsă este
“sensibilă” la semnalele de intrare
provenite dintr-o regiune a spațiului de
intrare aflată în vecinatatea centrului.
Aceasta regiune este denumită câmp
receptiv
• Dimensiunea câmpului receptiv
depinde de σ
2σ
 u2 
1 g (u ) = exp − 2 
0.8
σ =1.5  2σ 
σ =1 0.6
0.4
0.2
-3 -2 -1 1 2 3
σ =0.5 Data Mining - curs 9 28

 u2 
Influența lui σ: g (u ) = exp − 2 
1
 2σ 
0.8
0.6
0.4
0.2
2σ
-10 -7.5 -5 -2.5 2.5 5 7.5 10
subacoperire supraacoperire
• O bună acoperire a domeniului datelor Acoperire adecvată
de intrare de către câmpurile receptive
ale funcțiilor radiale de transfer este
esențială pentru calitatea aproximării
• Valori prea mici conduc la incapacitatea
de a produce rezultate pentru întreg
domeniul datelor
σ=1
• Valori prea mari nu surprind
variabilitatea datelor
σ=0.01
σ=100
Supraacoperire
Subacoperire Data Mining - curs 9 30
Exemplu (caz particular) : rețea RBF pentru reprezentarea lui XOR
• 2 unități de intrare
• 4 unități ascunse
• 1 unitate de ieșire Centrii: Ponderi:
u.a. 1: (0,0) w1: 0
0 u.a. 2: (1,0) w2: 1
1 u.a. 3: (0,1) w3: 1
u.a. 4: (1,1) w4: 0
1
Funcție de activare:
0 g(u)=1 if u=0
g(u)=0 if u<>0
Aceasta abordare nu poate fi aplicată pentru probleme generale de

aproximare
Invățare:
Set de antrenare: {(x1,d1), …, (xL,dL)}
Etape:
(a) Stabilirea parametrilor corespunzatori nivelului ascuns: centrii
C și parametrii σ
(b) Determinarea parametrilor W (problemă de optimizare liniară)
Obs: Invățarea de tip RBF elimină o parte dintre dezavantajele

algoritmului BP: convergența lentă, blocarea în minime locale
(întrucât se ajunge la rezolvarea unei probleme mai simple de
optimizare) etc.

Invățare:
Set de antrenare: {(x1,d1), …, (xL,dL)}
(a) Stabilirea parametrilor corespunzători nivelului ascuns: centrii

C și parametrii σ
(a) K=L (nr centri = nr exemple), Ck=xk
(b) K<L : centrii se stabilesc

(a) prin selecție aleatoare dintre exemplele din setul de antrenare
(b) prin selecție sistematică dintre exemplele din setul de
antrenare (Orthogonal Least Squares)
(c) prin utilizarea unui algoritm de grupare (poate permite și
estimarea numărului de centri) – in acest caz centrii nu vor
face neapărat parte din setul de antrenare

Orthogonal Least Squares:
• Selecție incrementală a centrilor astfel încât eroarea să fie

micșorată cât mai mult
• Noul centru este ales astfel încât să fie ortogonal pe spațiul

generat de către centrii deja selectați (procesul este bazat pe
metoda de ortogonalizare Gram-Schmidt)
• Abordarea este corelată cu regresia de tip “ridge”

Grupare (clustering):
•Se urmărește identificarea a K clase în setul de date de antrenare

{X1,…,XL} astfel încât datele din fiecare clasă să fie suficient de
similare pe când datele din clase diferite să fie suficient de diferite
•Fiecare clasă va avea un reprezentant (e.g. media datelor din

clasă) care va fi considerat centrul clasei
•Algoritmii pentru determinarea reprezentanților clasei sunt

cunoscuți sub numele de algoritmi partiționali (realizează o
partiționare a spațiului de intrare)
Algoritm clasic: K-means

Varianta incrementală:
• Se pornește cu un număr mic de centri inițializați aleator
• Se parcurge setul de antrenare:

– Dacă există un centru suficient de similar cu data de intrare
atunci componentele centrului respectiv se modifică pentru
a asigura asimilarea datei de intrare în clasa aferentă
centrului.
– Dacă data de intrare este diferită semnificativ de toți centrii
atunci este adăugat un nou centru (echivalent cu adăugarea
unei noi unități ascunse) care este inițializat chiar cu data de
intrare analizată
Obs: necesită definirea unor valor prag care sa permită
cuantificarea pt suficient de similar/diferit
Antrenare incrementală pentru rețele RBF
K = K0
Cik = select ({ X 1i ,… ,X Li } ), i = 1.. N ; k = 1.. K
t=0
REPEAT
FOR l = 1, L DO
determina k * ∈ {1,..., K } astfel incat d ( X l , C k * ) ≤ d ( X l , C k ) pt orice k
IF d ( X l , C k * ) < δ THEN C k * := C k * + η ⋅ ( X l − C k * )
ELSE K = K + 1; C K = X l
t = t +1
η = η0t −α
UNTIL t > tmax OR η < ε

Estimarea lărgimilor câmpurilor receptive.
• Reguli euristice:
d max
σ= , d max = distanta maxima dintre centri
2K
σ k = γd (C k , C j ), C j = centrul cel mai apropiat de C k , γ ∈ [0.5,1]
m
∑
1
σk = d (C k , C j ), C 1 ,..., C m : cei mai apropiati m centri de C j
m j =1
• Proces iterativ intercalat:

– Fixează valorile σ și optimizează valorile centrilor
– Fixează valorile centrilor și optimizează valorile σ

Determinarea ponderilor conexiunilor dintre nivelul ascuns și nivelul
de ieșire:
• Problema este similară cu cea a antrenării unei rețele cu un
singur nivel de unități cu funcții liniare de activare sau cu cea a
estimării parametrilor unui model liniar de regresie
2
1 L M
 l K
l 
E (W ) = ∑∑ 
2 l =1 i =1 
d i − ∑
k =1
wik k  , g k = g ( x − C )
g

l l k
2
1 L l 1 L l
E (W ) = ∑ d − Wg l = ∑ (d − Wg l )T (d l − Wg l )
2 l =1 2 l =1
L
∇E (W ) = −∑ ( g l )T (d l − Wg l ) = 0
l =1
G T GW = G T d
W = (G T G ) −1 G T d
Determinarea ponderilor conexiunilor dintre nivelul ascuns și nivelul de
ieșire:
• Problema este similară cu cea a antrenării unei rețele cu un singur
nivel de unități cu funcții liniare de activare
• Algoritm: Widrow-Hoff (caz particular al algoritmului BackPropagation)
 Initializare:
wij(0):=rand(-1,1) (ponderile sunt inițializate aleator în [-1,1]),
p:=0 (contor de iterații)
 Proces iterativ
REPEAT
FOR l:=1,L DO
Calculeaza yi(l) si deltai(l)=di(l)-yi(l), i=1,M
Ajusteaza ponderile: wik:=wik+eta*deltai(l)*zk(l)
ENDFOR
Calculează E(W) pentru noile valori ale ponderilor
p:=p+1
UNTIL E(W)<E* OR p>pmax
Comparație: RBF vs. BP
Rețele de tip RBF: Rețele de tip
BackPropagation(BP):
• 1 nivel ascuns • Mai multe nivele ascunse
• Funcții de agregare bazate pe • Funcții de agregare bazate pe
distanțe (pt. nivelul ascuns) suma ponderată
• Funcții de activare cu simetrie • Funcții de activare sigmoidale
radială (pt. nivelul ascuns) (pt. nivelul ascuns)
• Unități de ieșire cu funcție • Unități de ieșire liniare sau
liniară neliniare
• Antrenare simultană a
• Antrenare separată a
parametrilor adaptivi
parametrilor adaptivi
• Similare cu tehnicile de
• Similare cu tehnicile de aproximare globală
aproximare locală

Curs 10:
Analiza seriilor de timp

Structura
 Motivaţie
 Pre-procesarea seriilor de timp
 Predicţie
 Identificare şabloane
 Grupare şi clasificare
 Detecţie anomalii

Motivaţie
Problema: Se cunosc date săptămânale privind indexul Dow Jones şi se doreşte
identificarea acţiunilor pentru care creşterea de profit va fi cea mai mare în
săptămâna care urmează
Set date: Dow Jones Index (UCI Machine Learning, provided by (Brown, Pelosi
& Dirska, 2013) - 750 înregistrări, 16 atribute
Exemple de companii cotate şi pt care sunt înregistrate informaţii:
3M MMM Cisco Systems CSCO

American Express AXP Coca-Cola KO
Alcoa AA DuPont DD
AT&T T ExxonMobil XOM
Bank of America BAC General Electric GE
Boeing BA Hewlett-Packard HPQ
Caterpillar CAT The Home Depot HD
Chevron CVX Intel INTC
IBM
Motivaţie
Problema: care acţiune va înregistra cea mai mare creştere în săptămâna care
urmează?
Exemplu [Dow Jones Index from http://archive.ics.uci.edu/ml/datasets.html]

16 atribute
quarter: the yearly quarter (1 = Jan-Mar; 2 = Apr-Jun).
stock: the stock symbol (lista de pe slide-ul anterior)
date: the last business day of the work (de obicei e Vineri)
open: the price of the stock at the beginning of the week
high: the highest price of the stock during the week
low: the lowest price of the stock during the week
close: the price of the stock at the end of the week
volume: the number of shares of stock that traded hands in the week
percent_change_price: the percentage change in price throughout the week
percent_change_volume_over_last_wek: the percentage change in the number of
shares of stock that traded hands for this week compared to the previous week
previous_weeks_volume: the number of shares of stock that traded hands in the
previous week Data mining - Curs 10 4
Motivaţie
urmează?
Exemplu [Dow Jones Index from http://archive.ics.uci.edu/ml/datasets.html]

16 atribute
next_weeks_open: the opening price of the stock in the following week

next_weeks_close: the closing price of the stock in the following week
percent_change_next_weeks_price: the percentage change in price of the stock in
the following week
days_to_next_dividend: the number of days until the next dividend
percent_return_next_dividend: the percentage of return on the next dividend

Motivaţie
urmează?
Exemplu [Dow Jones Index de la http://archive.ics.uci.edu/ml/datasets.html]

16 atribute
percent_change_next_weeks_price: the percentage change in price of the stock in
the following week
IBM HP
Motivaţie
Problema: care acţiune va înregistra cea mai mare creştere în săptămâna
care urmează?
Exemplu [Dow Jones Index de la http://archive.ics.uci.edu/ml/datasets.html]

16 atribute
percent_return_next_dividend: the percentage of return on the next dividend
IBM HP
Motivaţie
Pe lângă datele financiare există o mulţime de alte surse de serii de timp:
 Senzori:
 Date de mediu colectate prin intermediul diferitelor tipuri de senzori
(temperatura, presiune, umiditate)
 Date medicale
 Electrocardiograma (ECG)
 Electroencefalograma (EEG)
 Date de monitorizare în timp reali a pacienţilor de la terapie intensivă
 Date de tip “web log” (clickstream data)

 Secvenţe indicând vizite ale unor pagini web

Motivaţie
Pe lângă datele financiare există o mulţime de alte surse de serii de timp:
 Senzori:
 Date de mediu colectate prin intermediul diferitelor tipuri de senzori
(temperatura, presiune, umiditate)
Task: predicţie valori viitoare
 Date medicale
 Electrocardiograma (ECG)
 Electroencefalograma (EEG)
 Date de monitorizare în timp reali a pacienţilor de la terapie intensivă
Task: identificare comportament anormal
 Date de tip “web log” (clickstream data)

 Secvenţe indicând vizite ale unor pagini web
Task: identificare tipare de utilizare, profile de utilizatori

Serii de timp
Exemplu 1 (percentage of return on the next dividend for first 10 weeks included in
Dow Jones Index dataset)
0.177, 0.172 ,0.169, 0.175, 0.168, 0.164, 0.164, 0.187, 0.187, 0.191
Momentul de timp nu apare ca variabilă explicită. Totuşi valorile specificate trebuie

interpretate în contextul unor momente de timp.
 Timpul este atribut contextual

 Valoarea înregistrată este atribut comportamental
Exemplu 2 (temperatura la prânz înregistrată în 7 zile consecutive)
21, 24, 23, 25, 22, 19, 20

Atributul contextual este timpul, cel comportamental este temperatura

Serii de timp
Există diferite tipuri de serii de timp (temporale)
In raport cu domeniul de timp:

 Continue (e.g. EEG)
 Discrete (denumite secvenţe)
In raport cu atributele comportamentale

 Univariate (un atribut)
 Multivariate (mai multe atribute)

Pre-procesarea seriilor de timp
Valori absente
Problema:
 Lipsesc valori corespunzătoare unor momente de timp (de exemplu din
cauza unor defecte ale senzorilor)
 In special când sunt mai multe atribute comportamentale )colectate de
senzori independenţi) ar trebui asigurată sincronizarea între serii, în special
prin completarea valorilor absente
Soluţie:
 Valoarea absentă este estimată folosind interpolare
 Caz simplu: interpolare liniară

Imputarea valorilor absente prin interpolare liniară
Fie (y1,y2,….,yn) o serie de timp corespunzătoare momentelor (t1,t2,….,tn)
Presupunem ca lipseşte valoarea corespunzătoare momentului t cuprins între

ti şi ti+1. Preupunând că atributul comportamental y variază liniar cu t pe
intervalul [ti , ti+1 ] se poate estima valoarea lui y
t − ti
y = yi + ( yi +1 − yi )
ti +1 − ti

Eliminarea zgomotului
Problema: dispozitivele utilizate pt colectarea datelor (senzorii) pot fi afectaţi

de bruiaje, a.î. Seria poate conţine valori generate în procesul de colectare a
datelor şi care nu reflectă comportamentul real al atributului înregistrat
Modalităţi de tratare a zgomotului
 Impachetare (Binning)
 Netezire (Moving-Average Smoothing)

Binning
Idee:
 Intervalul de timp global [t1 , tn ] corespunzător seriei (y1,y2,….,yn) este divizat
în m subintervale conţinând fiecare câte elemente (m=n/k)
 Fiecare subinterval va fi asociat unei valori calculate ca medie a valorilor din
seria de timp ce corespunde momentelor incluse în subinterval
Observaţii:
 Se presupune că momentele de timp corespunzătoare seriei iniţiale sunt egal
distanţate
 Se reduce număarul de valori disponibile de k ori (este un tip de compresie cu
pierdere de informaţie)
(t1 , t2 ,..., tn ) → ((t1 ,..., tk ), (tk +1 ,..., t2 k ),..., (t( m −1) k +1 ,..., tmk )
( y1 , y2 ,..., yn ) → ( z1 , z2 ,..., zm )
1 k
zi = ∑ y( i −1) k + j , i = 1, m
k j =1
Moving average smoothing
Idee: se reduce pierderea de informaţie cauzată de binning folosind “ferestre”
de mediere care se suprapun, adică media se calculează pentru elementele
ce aparţin unei ferestre mobile (se deplasează de-a lungul seriei)
(t1 , t2 ,..., tn ) → ((t1 ,..., tk ), (t2 ,..., tk +1 ),..., (t( m −1) k +1 ,..., tmk )
( y1 , y2 ,..., yn ) → ( z1 , z2 ,..., zm )
1 ( m −1) k +1
zi = ∑
k j =1
yi + j −1 , i = 1, m
Obs:
 Numărul de elemente din serie este redus de la n la n-k+1
 Variaţiile pe termen scurt pot fi pierdute prin mediere

Exemplu (Moving average smoothing)
k=4 k=8
Serii netezite (negru)

Netezire exponenţială
Idee: valoarea netezită se defineşte ca o combinaţie liniară a valorii curente
şi a valorii netezite anterioare
zi = α ⋅ yi + (1 − α ) ⋅ zi −1 , i = 1, m
z0 = y 1
i
zi = (1 − α ) z0 + α ∑ y j (1 − α )i − j , i = 1, m
i
j =1
Obs:
 Dacă α=1 atunci nu se aplică netezire; dacă α=1 toată seria este netezită
(va avea valoarea primului element)
 Netezirea exponenţială se bazează pe ideea că valorile mai recente sunt
mai importanta; influenţa valorilor anterioare este controlată prin α

Exemplu (exponential smoothing)
α=0.75 α=0.5

Exemplu (exponential smoothing)
α=0.25
α=0.5

Normalizare – este utilă în special când se prelucrează mai multe serii de
timp)
Variante: Normalizare bazata pe domeniu

yi − min( y )
zi = , i = 1, m
max( y ) − min( y )
Standardizare
y − mean( y )
zi = i , i = 1, m
stdev( y )
Obs:
 min(y) şi max(y) reprezintă valoarea minimă respectiv cea maximă din serie
 mean(y) şi stdev(y) sunt valoarea medie respectiv abaterea standard

Exemplu
normalizare standardizare
Obs:
 Normalizarea şi standardizarea conservă forma seriei dar schimbă
domeniul de valori
Predicţie
Scop:
 Estimarea preţului viitor al unei acţiunii, predicţia vremii, estimarea evoluţiei
unor indicatori economici etc
Predicţie:
 Intrare: una sau mai multe serii de timo
 Ieşire: valori viitoare ale seriei
Cum poate fi abordată problema:

 Ca o problemă de regresie – se estimează explicit dependenţa dintre
atributele comportamentale şi timp
 Utilizând modele care exprimă relaţia dintre valori curente şi valori

anterioare ale seriei (modele autoregresive)

Predicţie
Obs: modelele de predicţie funcţionează bine pentru seriile staţionare
Intuitiv, o serie staţionară se caracterizează prin faptul că proprietăţile sale

statistice (medie, varianţă, autocorelaţie) sunt constante în timp
Staţionaritate strictă: ditribuţia de probabilitate a valorilor din orice interval de

timp [a,b] este identică cu distribuţia de probabilitate a valorilor din intervalul
shiftat [a+h, b+h] (pentru un h>0 arbitrar)
Obs:
 Proprietăţile statistice bazate pe ferestre de timp pot fi estimate (se obţin
valori similare pt ferestre diferite)
 În cazul seriilor nestaţionare acest lucru nu mai este adevărat, deci înainte
de a aplica o tehnică de predicţie autoregresivă ar fi util ca o serie
nestaţionară să fie transformată într+una staţionară.

Predicţie
Exemplu: serie artificial construită: yi=i+zgomot (zgomotul este generat
folosind o distribuţie normală de medie 0 şi abatere standard 2)

Predicţie
Obs:
 Aceasta este o serie nestaţionară întrucât mediile valorilor corespunzând
unor ferestre de timp diferite sunt diferite
Medie 2
(a doua fereastră)
Medie 1
(prima fereastră)

Predicţie
Obs. Sunt 2 componente: tendinţa (trend) şi zgomot (noise)
trend Seria (roşu)
noise
Cum pot fie extrase cele două componente din
seria iniţială?

Predicţie
Extragerea tendinţei = eliminarea zgomotului
Cum: prin netezire
Netezire exponenţială
(α=0.25)
Tendinţa reală

Predicţie
Extragerea zgomotului = eliminarea tendinţei
Cum: prin calcul diferenţă între elementele succesive din serie
Diferenţa
Zgomot estimat
Zgomot real (diferenţa)
zgomot real
Predicţie
Transformare prin calcul diferenţă: zi = yi − yi −1
Obs:
 Seria obţinută prin diferenţire este
staţionară
Întrebare:
• Poate fi reconstruită seria iniţială pornind
de la estimările tendinţei şi zgomotului?
Diferenţa

Predicţie
Alte variante:
 Eliminarea efectului sezonier z i = yi − yi − P
 La seriile cu creştere geometrică (de exemplu serii de preţuri în care

factorul de inflaţie e constant) poate fi utilă logaritmarea înainte de calculul
diferenţelor
Întrebare:
• Poate fi reconstruită seria iniţială pornind de la estimările tendinţei şi
zgomotului?

Tendinţa şi zgomot
Reconstruire: suma dintre estimarea tendinţei şi estimarea zgomotului
original
reconstruit
original reconstruit

Predicţie
Cum poate fi estimată (prezisă) o nouă valoare din serie?
 estimarea unei noi valori cf modelului de tendinţă (trend)

 Generarea unei noi valori cf modelului de zgomot
 Adunarea valorilor
Problema principală:
 Este necesară construirea unui model de trend (e.g. prin regresie)
 Este necesară identificarea unui model pt zgomot; dacă este zgomot alb
(valorile asociate unor momente diferite de timp sunt generate de variabile
aleatoare independente cu distribuţie normală şi medie nulă) atunci valorile
parametrilor (media şi abaterea standard pot fi uşor estimată)
Altă abordare: se utilizează autocorelaţia = corelaţia dintre valorile

corespunzătoare unor momente de timp învecinate

Modele autoregresive
Ideea de bază: dacă valoarea autocorelaţiei este mare (în valoare absolută)
atunci valoarea corespunzătoare unui moment poate fi estimată pe baza
valorilor din vecinătate
Calcul autocorelaţie pt o serie staţionară, (y1,y2,….,yn), ca fiind corelaţia dintre
valori separate prin întârzierea L
1 n−L
∑
n − L i =1
( yi − avg (Y ))( yi + L − avg (Y ))
Autocorrelation( L) =
var(Y )
L=3 y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 y13 y14 y15 y16
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 y13 y14 y15 y16

Forma generală a unui model autoregresiv de ordin p: AR(p)
p
yt = ∑ ai yt −i + c + ε t
i =1
Obs:
 p este ordinul modelului şi poate fi ales analizând diferite valori posibile ale
întârzierii L:
 p se alege ca fiind prima valoare L (pornind cu L=1) pt care
valoarea absolută a auto-corelaţiei este suficient de mică
 a1, a2,…., ap şi c sunt parametri ai modelului şi se estimează folosind date

de antrenare şi metoda celor mai mici pătrate
 Ɛt reprezintă zgomotul

Modele de tip medie mobilă (Moving Average): MA(q)
Motivaţie:
 Modelele autoregresive simple nu pot explica toate variaţiile (în mod
particular schimbările bruşte, de tipul şocurilor)
Idee:
 Modelele de tip MA prezic valorile următoare pe baza deviaţiilor anterioare
ale valorilor reale faţă de cele prezise
q
yt = ∑ biε t −i + c + ε t
i =1
Obs:
 Presupunând că seria este staţionară şi zgomotul are medie 0 valoarea lui
c este media valorilor din serie
 Parametrii b1, b2,…., bq se estimează din date (problemă de fitare neliniară)

Modele autoregresive combinate: ARMA(p,q)
Motivaţie:
 Se combină capacitatea de predicţie a modelelor autoregresive şi a celor
bazate pe medie mobilă:
p q
yt = ∑ ai yt −i + ∑ biε t −i + c + ε t
i =1 i =1
Obs:
 Un aspect important este alegerea valorilor p şi q: ar trebui alese cele mai
mici valori care asigură o bună aproximare a datelor – nu este uşor de
identificat

Descoperirea şabloanelor
Şablon (motiv) = structură ce apare frecvent în serie
Procesul de descoperire
Intrare:
 Cel puţin o serie

 Lungimea L a şablonului
 Măsură de similaritate/ disimilaritate
 Prag pentru similaritate/ disimilaritate
Ieşire: subsecvenţă de lungime L ce apare â

frecvent în serie
C. Aggarwal, Data Mining – the Textbook, 2015

Descoperirea şabloanelor
Şablon (motiv) = structură ce apare frecvent în serie
Exemplu: Algoritm de tip forţă brută

FindMotif (y[1..n],L,eps)
countMax=0
FOR i=1,n-L+1 DO
candidate=y[i..i+L-1]
count=0
FOR j=1,n-L+1 DO
D=dist(y[i..i+L-1),y[j..j+L-1])
IF (i!=j) and (D<=eps) THEN count=count+1
ENDFOR
IF count[i]>countMax THEN best=i; countMax=count
ENDFOR
RETURN (y[best..best+L-1])
Excepţii (anomalii)
Există două tipuri de excepţii (anomalii) într-o serie de date:
Excepţii (anomalii) punctuale:

 Deviaţie semnificativă de la valoarea prezisă
 Corespunde unei schimbări bruşte în seria de date
Excepţii (anomalii) în privinţa formei:

 O succesiune de valori poate reprezenta o anomalie chiar dacă valorile
individuale nu sunt neobişnuite A consecutive pattern of data points might
be an anomaly even is the individual values are not necessary unusual
 De exemplu, într-o electrocardiogramă o bătaie neregulată a inimii poate fi
considerată o anomalie

Detecţia anomaliilor punctuale:
Step 1: se determină valorea prezisă (pe baza modelului construit valorile

anterioare) (zm,zm+1,…,zn)
Step 2: se construieşte seria deviaţiilor (dm,dm+1,…,dn) cu di=zi-yi
Step 3: se calculează deviaţiile standardizate (sm,sm+1,…,sn)

cu
si=(di-avg(d))/stdev(d)
Dacă valoarea absolută a lui si este mai mare decât un prag (e.g. 3) atunci se
consideră că este anomalie

Detecţia anomaliilor de formă:
Step 1: se extrag toate subseriile corespunzătoare unui ferestre de

dimensiune W
Step 2: se calculează distanţa dintre fiecare subserie şi toate celelalte

corespunzătoare unor ferestre disjuncte
Step 3: Subseriile care diferă semnificativ de celelalte sunt considerate

excepţii potenţiale
Probleme:
 Alegerea lui W
 Alegerea pragului

Curs 11:
Metode de tip ansamblu

(meta-modele)

Structura
 Motivaţie
 Ideea modelelor de tip ansamblu
 Colecţii de modele (bucket of models)
 Colecţii de arbori aleatori (random forests)
 Strategii de agregare a modelelor

 Bagging
 Boosting
 Stacking

Motivaţie
Reminder:
 Scopul unui clasificator este estimarea relaţiei dintre atributul de clasă şi
celelalte atribute
 construirea unui clasificator se bazează pe:
 Un set de antrenare
 Ipoteze asupra modelului de clasificare (de exemplu suprafaţa de
decizie este liniară sau liniară pe porţiuni)
 Notaţii
y=f(x)= clasa aferentă datei x

D={(x1,y1),(x2,y2),…,(xL,yL)} = setul de antrenare
g(x;D) = răspunsul estimat de către modelul construit pe baza setului de
antrenare
MSE = eroare medie pătratică
Extragerea modelului din date: estimarea parametrilor modelului astfel ca MSE

să fie minimizată
Motivaţie
Componente ale erorii:
 Deplasare (Bias) = inabilitatea clasificatorului de a clasifica corect cauzată de
limitările modelului (e.g. modelul are suprafete de decizie liniare iar cele reale
sunt neliniare)
 Varianţa (Variance) = cauzată de volumul limitat de date de antrenare (e.g. doi
clasificatori bazati pe acelaşi model dar antrenate pe seturi diferite au
performanţe diferite)

C. Aggarwal, Data Mining. The textbook, 2015
Motivaţie
sunt neliniare)
 Varianţa (Variance) = cauzată de volumul limitat de date de antrenare (e.g.
doi clasificatori bazati pe acelaşi model dar antrenate pe seturi diferite au
1 L 1 L 2
MSE = ∑ ( yi − g ( xi ; D )) = ∑ ( yi − 2 yi g ( xi ; D ) + g ( xi ; D )2 )
2
L i =1 L i =1
1 L 2
E D ( MSE ) = ∑ ( yi − 2 yi E D ( g ( xi ; D )) + E D ( g ( xi ; D )2 ) + ( E D ( g ( xi ; D ))) 2 − ( E D ( g ( xi ; D ))) 2 )
L i =1
1 L
= ∑ (( yi − E D ( g ( xi ; D ))) 2 + ( ED ( g ( xi ; D ) 2 ) − ( ED ( g ( xi ; D ))) 2 )
L i =1
deplasare Varianţa răspunsurilor produse de clasificatori

Antrenati pe diferite seturi de date
(influenţată de model) (influenţată de date)
Motivaţie
sunt neliniare)
 Varianţa (Variance) = cauzată de volumul limitat de date de antrenare (e.g.
doi clasificatori bazati pe acelaşi model dar antrenate pe seturi diferite au
Obs:
 Un model cu valoare mare pt bias va genera erori chiar dacă se modifică setul
de antrenare
 Un model cu varianţă mare va produce rezultate inconsistente când este
antrenat pe diferite seturi de date
Cum se poate reduce eroarea?

 Reducând deplasarea sau reducând varianţa
 Este posibil să se reducă ambele? Cum?

Motivaţie
Bias vs variance
 Modele simple (e.g. Modele liniare, modele bazate pe reguli simple, arbori de
decizie simpli, naïve Bayes)
 Deplasare mare (datorită faptului că suprafaţa de decizie este prea
simplă
 Varianţă mică (modelele simple sunt robuste în raport cu schimbările
din seturile de date; modelele simple suferă rar de supra-antrenare)
 Model complexe (e.g. Reţele neuronale/ arbori de decizie cu multe nivele)

 Deplasare mică (întrucât modelează bine suprafeţele de decizie)
 Varianţă mare (senzitive la modificările în setul de date; pot fi
afectate de supra-antrenare)
Dacă se utilizează un singur model este necesară găsirea unui compromis între
deplasare şi varianţă
Prin combinarea mai multor modele pot fi reduse simultan atât varianţa cât şi
deplasarea
Motivaţie
Combinarea mai multor modele  model de tip ansamblu
Combinând 3 SVM-uri liniare se poate Combinând arbori de decizie antrenaţi

ajunge la suprafaţă neliniară pe seturi diferite se poate reduce varianţa
C. Aggarwal, Data Mining. The textbook, 2015
Este util să se combine
modelele?
O analiza probabilistă simplă
 Considerăm 25 de clasificatori
 Fiecare clasificator are o anumită rată de eroare, ε = 0.35 (probabilitatea
să producă un răspuns eronat)
 Presupunem că cei 25 de clasificatori sunt independenţi
 Probabilitatea ca un ansamblu constituit din cei 25 de clasificatori (în
cazul unei reguli de agregare bazată pe regula majorităţii=:
25
 25  i
∑ 
 i ε (1 − ε ) 25−i
= 0.06
i =13  

Modele de tip ansamblu
Cum se construiesc modelele de tip ansamblu?
 Prin construirea mai multor modele (pe baza unor diferite ipoteze structurale)
pornind de la acelaşi set de date - corespunde ansamblelor centrate pe modele
 Prin antrenarea aceluiaşi model folosind diferite seturi de date (extrase aleator
dintr-un set global de date) – aceasta corespunde ansamblelor centrate pe date
Cum se pot utiliza modelele de tip ansamblu?

 Pentru o anumită dată de intrare se aplică toate modelele din ansamblu iar
rezultatul final se obţine prin agregarea rezultatelor prin:
 Votare (cel mai frecvent răspuns) – în cazul problemelor de clasificare
 Mediere – în cazul problemelor de regresie

Algoritm generic pt un model de tip ansamblu
 Input: set de date D; set de metode/ algoritmi {A1, A2, … Ar }
 Output: un model de tip ansamblu constând din K modele individuale {M1, M2,
…, MK }
REPEAT
 k=1
 select an algorithm A from the set {A1, A2, … Ar }
 create a training dataset Dk (by sampling from D)
 construct the model Mk by applying algorithm A to the dataset Dk
 k=k+1
 Evaluate the performance of the current ensemble {M1, M2, …, Mk } (for each
model the data not included in the corresponding training set are used)
UNTIL desired performance
Algoritm generic pt un model de tip ansamblu
 Input: set de date D; set de metode/ algoritmi {A1, A2, … Ar }
 Output: un model de tip ansamblu constând din K modele individuale {M1, M2,
…, MK }
Cazuri particulare:
 Algoritmi diferiţi, un set de antrenare (e.g. Colecţie de modele - bucket of
models)
 Acelaşi algoritm, diferite seturi de antrenare

 Bagging
 Random forests
 Boosting

Colecţii de modele – bucket of
models
Idee de bază: mai mulţi algoritmi, un set de date  un meta-model agregat
Varianta 1:
 Se antrenează diferite modele utilizând acelaşi set de date
 Rezultatele produse de modelele componente se agreghează prin:
 Regula majorităţii
 Medierea rezultatelor de la modelele componente
Varianta 2:
 Setul de date D se divide în două subseturi A şi B
 Se antrenează toate modelele folosind setul A
 Se selectează modelul cu cel mai bun comportament pentru subsetul B
 Se reantrenează modelul selectat pentru întregul set de date D
Obs:
 Reduce deplasarea întrucât pt diferite părţi ale setului de date ar putea fi diferite
modele mai adecvate

Bagging
 Idee de bază: un algoritm, mai multe
seturi de date  mai mulţi clasificatori
Seturi de antrenare:
 Obţinute prin selecţie cu revenire din
setul complet de date D
 Dacă setul complet are L elemente atunci
probabilitatea ca un anumit element să
fie selectat este 1-(1 – 1/L)L ;
 Exemplu:
[Slides by Kumar/ Introduction

Data mining - Curs 11 to Data Mining, 2004] 14
Bagging
Impact bagging:
 Reduce varianţa
 Nu reduce deplasarea (întrucât acelaşi model este folosit pt toate seturile de

antrenare nu sunt eliminate limitările modelului)
Obs:
 Reducerea varianţei este asigurată doar dacă modelele din ansamblu sunt
independente
 Limitarea corelaţiei dintre modele se poate obţine prin introducerea unor
elemente aleatoare  random forests

Random forests
Random forest = colecţie de arbori aleatori construiţi folosind tehnica de la
bagging (seturile de antrenare sunt construite prin selecţie aleatoare cu
revenire)
Construire random forest:

 Se construieşte un random tree pt fiecare set de antrenare
Utilizare random forest:
 Se aplică fiecare arbore datei de intrare

 Se selectează răspunsul dominant (schemă simplă de votare)

Random forests
Random tree = arboire de decizie construt folosind random-split
Etape:
 Dacă numărul de exemple din setul de antrenare este L, atunci se
selectează L cazuri aleator – dar cu revenire. Acest set este folosit pt
construirea arborelui
 In cazul a M variabile de intrare se fixează un m<<M iar la ramificarea
fiecărui nod se selectează aleator m variable şi cea mai bună dintre ele
este folosită pt a ramifica nodul. Valoarea lui m este păstrată constantă
până la construirea arborelui
 Fiecare arbore este extins cât de mult se poate pt a asigura o valoare mică
a deplasării. Nu se foloseşte pruning.
[Leo Breiman
https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm]
Random forests
Obs: eroarea arborilor aleatori depinde de 2 elemente:
 Corelaţia dintre oricare 2 arbori – cu cât corelaţia este mai mare cu atât
eroarea este mai mare
 Puterea fiecărui arbore din pădure. Un arbore cu eroare mică are putere
mare Cu cât este mai mare puterea arborilor din pădure cu atât eroarea pe
ansamblu este mai mică
[Leo Breiman

Random forests
Obs: Influenţa lui m (numărul de atribute selectate în procesul de ramificare)
 Reducerea lui m reduce atât corelaţia cât şi puterea.

 Creşterea lui m conduce la creşterea corelaţiei şi a puterii
 E necesar un compromis – se alege valoarea lui m care conduce la eroare
mică
Obs: estimarea calităţii se face folosind datele care nu au fost selectate la

construirea arborelui (nu e necesară validare încrucişată) – tehnica “out-of-
bag”
[Leo Breiman

Boosting
Ideea de bază:
 Fiecare instanţă din setul de antrenare are o pondere care poate fi utilizată
 Direct în cadrul modelului (dacă acesta permite utilizare ponderilor)
 sau în definirea unor probabilităţi de selecţie
 Ponderile pot fi adaptive (instanţele clasificate incorect au asociate valori mai
mari ale ponderilor)
Abordare:
 La început toate instanţele au asociate aceleaşi
 Pe parcursul procesului de antrenare:
– Pt Instanţele clasificate incorect se măreşte valoarea ponderii
– Pt Instanţele clasificate corect se micşorează valoarea ponderii
Obs: Se presupune că principala componentă a erorii este deplasarea şi se

încearcă reducerea acesteia prin acordarea unei importanţe mai mari datelor
clasificate incorect
AdaBoost
Algoritm de antrenare:
 Input: algoritm de clasificare de bază: A; set de date: D

 Output:
 Set de modele de clasificare (M1,…, MT)
 Set de ponderi corespunzătoare modelelor
 Ideea de bază
- La fiecare pas t al algoritmului, se obţine o componentă a ansamblului (Mt) –

vezi slide următor
- Clasificatorul de bază e de regulă un clasificator simplu fără putere prea mare de
discriminare (weak classifier)

AdaBoost
AdaBoost (A,D)
t=1; initialize the weights of the training instances: w(t,i)=1/L for all i=1..L
REPEAT
t=t+1; construct Mt using the current values of the instances’ weights
compute the weighted error rate of model Mt on D (Ɛ(t))
compute the model weight α(t)=ln((1-Ɛ(t))/Ɛ(t))/2
FOR i=1,L DO
IF xi is wrongly classified THEN w(t+1,i)=w(t,i)*exp(α(t))
ELSE w(t+1,i)=w(t,i)*exp(-α(t))
FOR i=1,L DO w(t+1,i)=w(t+1,i)/sum(w(t+1,j),j=1..L)
UNTIL (t>=T) or (Ɛ(t)=0) or (Ɛ(t)>=0.5)
Obs: dacă la oricare dintre rundele intermediare rata de eroare este mai mare
decât 50% în loc să se oprească algoritmul se readuc ponderile la 1/L şi se repetă
procedura
AdaBoost
Câteva detalii:
 Rată ponderată de eroare:
1 L
ε t = ∑ wiδ (M t ( xi ) ≠ yi )
L i =1
 Importanţa (pondere) unui model/
clasificator:
1  1 − εt 
αt = ln 
2  εt 

AdaBoost
Etapa de clasificare
(în cazul clasificatorilor binari ce produc valori în {-1,1})
 Se aplică fiecare compnentele ansamblului (M1, M2,…, MT) şi se colectează

rezultatelr (r1,r2,…rT) (in {-1,1})
 Se agreghează rezultatele:
 calcul r=α1r1 + α2r2 +…+ αTrT

 IF r<0 THEN return -1 ELSE return +1

AdaBoost
Initial weights for each data point Data points

for training
0.1 0.1 0.1

Original
Data +++ - - - - - ++
B1
0.0094 0.0094 0.4623
Boosting
Round 1 +++ - - - - - - - α = 1.9459
[Slides by Kumar/ Introduction

Data mining - Curs 11 to Data Mining, 2004] 25
B1
AdaBoost
0.0094 0.0094 0.4623
Boosting
Round 1 +++ - - - - - - - α = 1.9459
B2
0.3037 0.0009 0.0422
Boosting
Round 2 - - - - - - - - ++ α = 2.9323
B3
0.0276 0.1819 0.0038
Boosting
Round 3 +++ ++ ++ + ++ α = 3.8744
Overall +++ - - - - - ++
Stacking
Idee de bază: două nivele de clasificare
Etape principale:
 Se divide setul de date D in două subseturi A şi B
 Primul nivel: se antrenează un ansamblu de k clasificatori bazaţi pe A (poate fi
o colecţie de clasificatori, se pot baza pe bagging sau pe k runde de boosting)
 Second level:
 Se determină k ieşiri (etichete ale claselor) ale clasificatorilor antrenaţi
la primul nivel pentru fiecare dintre instanţele subsetului B
 Se construieşte un set de date având ca atribute de intrare aceste k
ieşiri şi ca atribut de clasă eticheta corectă a instanţei
corespunzătoare din subsetul B
 Se antrenează un clasificator pe acest set nou de date

Stacking
Obs:
 Rezultatul de la stacking este un set de k clasificatori de prim nivel şi un
clasificator combinat
 Pentru o instanţă de test, primul nivel de clasificatori este utilizat o nouă instanţă
k-dimensională pe când al doilea clasificator furnizează rezultatul corespunzător
instanţei transformate
 Atributele originale pot fi combinate cu noile atribute la construirea

clasificatorului corespunzător celui de al doilea nivel; este de asemenea posibil
ca cele k atribute noi să fie probabilităţi şi nu etichete de clase
 Tehnica stacking permite reducerea ambelor componente ale erorii (întrucât al

doilea nivel învaţă din erorile diferitelor componente ale ansamblului)

Sumar
Impactul metodelor de tip ansamblu asupra componentelor erorii
 Bagging şi random forests au fost proiectate să reducă varianţa
 Boosting şi stacking au fost proiectate să reducă ambele componente
Extindere ideii de ansamblu în contextul tehnicilor de clustering
 Aceeaşi idee ca şi la clasificare:

 Aplică diferite metode de clustering (sau aceeaşi metodă dar folosind
diferite valori ale parametrilor)
 Agregare rezultate folosind algoritmi de clustering pt hipergrafuri
(datele reprezintă noduri şi fiecare cluster reprezintă o hipermuchie)

Curs 12:
Analiza documentelor de tip text

(Text Mining)

Structura
• Reminder: reprezentarea documentelor de tip text
• Analiza similarităţii între documente
• Particularităţi ale grupării documentelor

Reminder
Extragerea caracteristicilor dintr-un document: (fişier text – date
nestructurate)
Abordarea bazată pe reprezentarea de tip bag-of-words:


Reminder
bag-of-words
a) Eliminarea cuvintelor de legătură (stop words)


sparse histogram vocabulary computer vision bag visual words vector
occurrence counts vocabulary local image features.”

Reminder
bag-of-words
b) Reducerea cuvintelor la rădăcina lor – stemming (algoritm Porter)

sparse histogram vocabulariy computer vision bag visual words vector
occurrence counts vocabulariy local image features”
[http://textanalysisonline.com/nltk-porter-stemmer]
imag featur”

Reminder
bag-of-words
imag featur”

Reminder
bag-of-words
imag featur”

Reprezentarea datelor
Concepte:
• Corpus - colecţia de documente disponibile

• Lexicon – setul de cuvinte (termeni) folosite – în varianta pre-procesată
(după stemming)
Notaţii:
• n - nr de documente
• d – nr de termeni în lexicon
Reprezentarea unui document:

• vector v cu d componente
• v(i) reprezintă
• numărul de apariţii ale termenului i din lexicon în cadrul documentului
• frecvenţa ajustată a termenului i (reprezentarea de tip TF-IDF)

Reprezentarea TF-IDF:
TF(i) = Term Frequency = numărul de apariţii ale termenului i în document
IDF(i) = Inverse Document Frequency = 1/numărul de documente care

conţine termenul i
v(i)=TF(i)*IDF(i)
Obs:
• Cu cât TF(i) este mai mare cu atât este mai reprezentativ termenul i pentru
document
• Cu cât IDF(i) este mai mare cu atât termenul i are putere mai mică de
discriminare (dacă un termen este comun mai multor documente atunci el nu
furnizează informaţie utilă pentru discriminarea între documente)

Variante ale reprezentării TF-IDF
• În calculul lui TF şi IDF se folosesc frecvenţe relative în locul frecvenţelor

absolute
rTF(i) = nr de apariţii ale termenului i în document / nr total de termeni din
document
rIDF(i) = nr total de documente/ nr de documente care conţine termenul i
v(i)=rTF(i)*rIDF(i)
Obs: în cazul în care un termen apare foarte frecvent într-un document atunci
contribuţia lui va fi dominantă în calculul măsurilor de similaritate sau
disimilaritate – pentru a limita acest lucru se aplica funcţii care atenuează
diferenţele între frecvenţe (ex: funcţia logaritmică, funcţia radical)
v(i)=log(TF(i))*log(IDF(i))

Caracteristici ale reprezentării de tip bag-of-words bazată pe frecvenţe
absolute sau pe TF-IDF:
• Reprezentare rară (sparsity): numărul de elemente nenule din vector este

mic (un document conţine puţine cuvinte din lexicon)
• Pozitivitate (non-negativity): toate componentele vectorului asociat unui

document sunt pozitive
• Informaţii adiţionale (side information): în anumite cazuri documentele au

ataşate metadate care pot fi incluse în analiză (de exemplu link-uri
asociate documentelor web)

Măsuri de similaritate
Măsurile de similaritate sunt utile în:
• Algoritmii de grupare - atât pt cei partiţionali (bazaţi pe reprezentanţi) cât

şi pentru cei ierarhici
• Algoritmii de clasificare bazaţi pe criteriul celui mai apropiat vecin
Presupunem că u şi v sunt vectorii asociaţi unor documente
Măsura cosinus
• cos(u,v)= uTv/(||u|| ||v||)
Măsura Jaccard
• J(u,v)= uTv/(||u||2+ ||v||2- uTv)

Adaptarea algoritmilor de clustering
Algoritmi partiţionali (kMeans, kMedoid)
• Reminder:
• Fiecare cluster are asociat un reprezentant (centroid)
• Asignarea unei date la un cluster se bazează pe analiza similarităţii
(se asignează la clusterul cu cel mai similar reprezentant)
• Reprezentantul se determină folosind media sau mediana
elementelor din cluster (sau cel mai apropiat element de medie)
• Elemente care trebuie adaptate:

• Măsura de similaritate (folosită la asignarea documentelor la un
cluster)
• Reprezentantul unui cluster se poate construi prin “concatenarea”
documentelor ce aparţin clusterului (în cazul reprezentării bazate pe
frecvenţe absolute este echivalentă cu adunarea vectorilor asociaţi)

Algoritmi ierarhici (aglomerativi)
• Reminder:
• Se construieşte matricea de similaritate
• Se asignează fiecare dată la un cluster
• La fiecare etapă se reunesc clusterele cele mai apropiate (similare)
• Elemente componente care trebuie adaptate:

• Măsura de similaritate între documente (folosită la construirea matricii de
similaritate)
• Măsura de similaritate între clustere
– se identifică termenii cei mai reprezentativi (frecvenţa cea mai mare)
din documentele aflate în fiecare cluster (topical words); două clustere sunt
considerate similare dacă există suprapunere mare între seturile de termeni
reprezentativi

Algoritmi probabilişti (algoritmul EM - Expectation Maximization)
• Reminder:
• Fiecare dată este generată de o distribuţie de probabilitate (tipul de
distribuţie depinde de natura datelor)
• În procesul de generare a datelor fiecare dintre distribuţiile de
probabilitate este selectată la rândul ei cu o anumită probabilitate
• Elemente componente care trebuie adaptate:

• Distribuţia de probabilitate
• Binomială – pt vectori cu elemente binare (indicatori de prezenţă)
• Multinomială – pt vectori de frecvenţe

Data Mining 2

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Data Mining 2

Încărcat de

Drepturi de autor:

Formate disponibile

Curs 1:

Introducere în Data Mining

Data Mining - Curs 1 (2017) 1

4. Extragerea de cunoştinţe din date

Data Mining - Curs 1 (2017) 2

• Ce este Data Mining? – concepte de bază

• Ce nu este Data Mining? – tematici corelate

• Principalele tipuri de prelucrări

• Organizarea cursului şi criterii de evaluare

Data Mining - Curs 1 (2017) 3

• Pentru a se genera recomandări (ex: pentru a ghida

Data Mining - Curs 1 (2017) 5

Se porneşte de la: embrioni descrişi prin 60 de caracteristici

Exemplu 2: Procesarea aplicaţiilor pentru împrumut

Data Mining - Curs 1 (2017) 6

Se cunoaşte: un model de încarcare a reţelei în cazul unor condiţii climatice

Exemplu 4: Analiza coşului de cumpărături

Data Mining - Curs 1 (2017) 7

Exemplu 6: Identificarea profilelor utilizator

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0"

Data Mining - Curs 1 (2017) 8

Data mining = “colectarea, curăţirea, procesarea, analiza datelor şi

• Colectare: există diferite surse de date (senzori, documente scrise,

Data Mining - Curs 1 (2017) 9

• Căutarea tuturor clienţilor ce locuiesc într-un oraş specificat nu

Data Mining - Curs 1 (2017) 13

Exemplu: Car Evaluation Database [http://archive.ics.uci.edu/ml/datasets.html]

1 Very high Very high 2 2 small low inaccept.

Data Mining - Curs 1 (2017) 14

Exemplu: documente text

Data Mining - Curs 1 (2017) 16

• Regresie = estimarea valorii unui atribut pe baza valorilor altor

• Asociere = descoperirea unor regul de asociere între atribute

• Excepţii sau anomalii = identificarea entităţilor (instanţe) care par

Care este scopul final?

Observaţie: un model util trebuie să fie caracterizat printr-o bună acurateţe;

Data Mining - Curs 1 (2017) 19

• Diagnoza medicală = asociază unei înregistrări medical o clasă

Exemplu subset dintr-un set de date (breast-cancer-wisconsin - format arff–

Data Mining - Curs 1 (2017) 20

• Filtru anti-spam = identificarea clasei (ilegitim=spam/legitim=ham)

ham What you doing?how are you?

Care este scopul final?

Data Mining - Curs 1 (2017) 22

• Un set de data (nu neapărat structurate)

• Identificarea unui model care descrie modul în care pot fi grupate

Care este scopul final?

• Să se poată verifica dacă două date aparţin aceluiaşi cluster sau nu

Observaţie: pentru unele metode de grupare nu e necesar să se cunoască

• Gruparea clienţilor = identificarea de grupuri de clienţi cu obiceiuri

• Sumarizarea datelor / gruparea documentelor = identificarea de grupuri

• Extragerea profilelor de utilizatori = identificarea grupurilor de utilizatori ai

• Segmentarea imaginilor = identificarea de regiuni omogene în imagini

Data Mining - Curs 1 (2017) 25

• O măsură de similaritate/disimilaritate între date (este specifică

Care este scopul final?

Data Mining - Curs 1 (2017) 26

Data Mining - Curs 1 (2017) 27

Care este scopul final?

Data Mining - Curs 1 (2017) 28

T1: {lapte, pâine, carne, apă}

Data Mining - Curs 1 (2017) 29

Course materials: http://www.info.uvt.ro/~dzaharie/dm2017

Data Mining - Curs 1 (2017) 30