Sunteți pe pagina 1din 6

Obiectivele cursului

 Însuşirea de către studenţi a noţiunii de de model KDP şi a


etapelor din care este compus un astfel de model
 Însuşirea de către studenţi a modalităţilor specifice de prezentare
a datelor atunci când se utilizează tehnici de data mining de
învăţare supervizată sau nesupervizată

Modele KDP (Knowledge Discovery Process)

Data Mining, în traducere liberă, înseamnă minerit în date. În literatura de specialitate poate fi
întâlnit şi sub forma unor formulări echivalente: knowledge extraction, information discovery,
data archeology , data pattern processing, information harvesting etc.

Data mining este doar un pas al unui proces laborios de descoperire a cunoştinţelor din date.
Modelele rezultate din derularea acestui proces se numesc modele KDP (Knowledge Discovery
Process). Un model KDP se defineşte ca un proces de identificare a paternurilor (tiparelor)
valide, noi şi potenţial utile şi pline de înţeles din date. Scopul realizării unui astfel de model
este de a se defini proceduri care să ghideze utilizatorul tehnicilor de data mining în activitatea
de de extragere a cunoştinţelor din date.

În principiu există două categorii mari de modele KDP:

 modele academice
 modele industriale.

Modele academice apar la sfârşitul secolului trecut. Modelul elaborat în 1996 de Fayyad şi
colaboratorii săi este un model care are 9 paşi şi este, alături de modelul alcătuit din 8 paşi de
către Annand şi Buchner în 1998, printre primele realizări în acest domeniu.

Dintre modelele KDP industriale amintim modelulul alcătuit din 5 paşi elaborat de Cabena şi
colaboratorii săi şi modelul CRISP-DM pe 6 paşi dezvoltat de un consorţiu european de
companii. Numele modelului este abrevierea pentru CRoss-Industry Standard Process for Data
Mining, iar consorţiu cuprindea următoarele firme:
 Integral Solution LTD , furnizor de servicii de Data Mining
 NCR, furnizor de baze de date
 Daymler Chrysler, producător de automobile
 OHRA, companie de asigurări

Observaţii. Diversitatea domeniilor de activitate ale firmelor care au contribuit la realizarea


modelului CRISP-DM arată interesul deosebit manifestat, încă din acea perioadă, pentru
aplicaţiile practice ale tehnicilor de data mining. Pornind de la acest model, Cios şi
colaboratorii au dezvoltat în 2005 un model hibrid pe 6 paşi (care îmbină caracteristicile
modelor KDP teoretice cu cele ale modelelor industriale). Paşii modelului sunt după cum
urmează:

Pasul 1, Înţelegerea domeniului problemei presupune în esenţă înţelegerea


particularităţilor problemei şi are ca principale obiective următoarele:

 definirea problemei,
 precizarea persoanele de bază implicate,
 analiza soluţiile curente ale problemei,
 înţelegerea şi învăţarea terminologiei specifice domeniului problemei
 descrierea problemei şi a restricţiilor sale
 orientarea iniţială spre alegerea unui algoritm de data mining (DM) adecvat, de
rezolvare a problemei.

. Pasul 2, Înţelegerea datelor, presupune stabilirea datelor care trebuie colectate şi


alegerea formatului de reprezentare a acestora. La acest pas datele sunt verificate în raport
cu completitudinea (gradul în care datele acoperă cantitativ şi calitativ domeniul activităţii
de realizat), credibilitatea (gradul de încredere în faptul că datele sunt reale, credibile),
redundanţa şi utilitatea lor în raport cu scopul algoritmului DM selectat pentru rezolvare.

Pasul 3, Pregătirea datelor are în vedere precizarea operaţiilor care trebuie să fie făcute
asupra datelor colectate, astfel încât să poată fi utilizate ca date de intrare pentru pasul
următor, adică, pentru Data Mining. La acest pas pot fi enumerate operaţii cum ar fi:
selecţia datelor, execuţia unor teste statistice prin care să se verifice, de exemplu, gradul de
corelaţie al valorilor unor variabile, corectarea erorilor, completarea unor valori lipsă etc.
După aceste operaţii prin care se obţin “date curate” , dacă este cazul, se pot aplica metode
pentru reducerea dimensionalităţii datelor sau pentru derivarea altor atribute (de exemplu
prin discretizare).

Pasul 4. Utilizarea unui algoritm de Data Mining adecvat (poate fi cel ales iniţial sau altul)
pentru extragera cunoştinţelor din date
Pasul 5. Evaluarea cunoştinţelor descoperite, este pasul prin care sunt validate sau respinse
rezultatele obţinute. Aceste rezultate sunt evaluate din diverse perspective, cum ar fi:
gradul de îndeplinire al indicatorilor de validare ai modelului, noutatea, impactul şi
relevanţa acestor rezultate pentru domeniul din care provine problema etc. Dacă modelul
nu îndeplineşte standardele cerute, atunci se încearcă îmbunătăţirea rezultatelor prin
reluarea procesului de la început, după ce au fost făcute corecţiile care ar putea conduce la
variante mai bune.

Pasul 6, Utilizarea cunoştinţelor descoperite, constă în a stabili cum şi unde vor fi


implementate şi folosite cunoştinţele obţinute, precum şi analiza modului în care pot fi
extinse aceste cunoştinţe la alte domenii

Observaţii. Obţinerea unui model KDP bun nu este rezultatul aplicării mecanice a unei
scheme de lucru. În figura de mai jos este ilustrat prin săgeţi faptul că, ori de câte ori este
nevoie, data-minerul (persoana care utilizează tehnicile de data mining) poate oricând să
reia paşii anterori dacă rezultatele parţiale nu corespud standardelor de calitate impuse.
Înţelegerea domeniului
problemei

DATE DE INTRARE(BAZE DE
INTELEGEREA DATELOR DATE,IMAGINI,IMAGINI
<-------------------------VIDEO,DATE
----------------------------
SEMISTRUCTURATE,ETC)

PREGATIREA DATELOR

DATA MINING

CUNOSTINTE
EVALUAREA
(TIPARE,REGULI,ASOCIERI,
CUNOSTINTELOR
----------------------- CLASIFICARI,ETC)
-----------------------------
DESCOPERITE

EXTINDEREA
UTILIZAREA CUNOSTINTELOR
CUNOSTINTELOR LA ALTE
DESCOPERITE ----------------------- ---- ----------->
DOMENII
FORMA STANDARD DE PREZENTARE A DATELOR ÎN DATA MINING

Volumul şi calitatea datelor au o importanţă crucială în construcţia unui model de învăţare. Un


astfel de model presupune şi existenţa unui univers de obiecte pe baza căruia se realizează
învăţarea. Caracteristicile obiectelor sunt descrise cu ajutorul variabilelor, numite şi atribute sau
features (caracteristici, trăsături). Astfel, un obiect poate fi descris prin intermediul unei
înregistrări (sau instanţe) care cuprinde valorile atributelor sale. De regulă avem acces la
universul de obiecte de interes doar prin intermediul unui număr limitat de observaţii (care pot
fi văzute ca o un eşantion (o selecţie) al mulţimii de obiecte pe care o vizăm). Modelul de KDP
se construieşte pe baza acestui set de observaţii numite şi date de antrenament. Datele de
antrenament pot fi etichetate sau nu.
Considerând că datele de antrenament conţin 𝑛 înregistrări, iar fiecare înregistrare are 𝑝
atribute notate A1,A2,...,Ap, vom nota prin 𝒙𝒊 = (𝑥𝑖,1 , 𝑥𝑖,2 , ⋯ , 𝑥𝑖,𝑝 )𝑻 , vectorul atributelor
înregistrării 𝑖, 𝑖 = 1,2, ⋯ , 𝑛 , unde prin 𝒙𝑇 am notat transpusul vectorului 𝒙. În acest caz,
mulţimea datelor de antrenament este scrisă formal ca fiind mulţimea vectorilor
𝒙𝒊 , 𝑖 = 1,2, ⋯ , 𝑛. Se spune că datele de antrenament sunt etichetate dacă fiecărui vector al
atributelor 𝒙𝒊 îi corespunde o valoare reală 𝑦𝑖 , numită etichetă. În acest caz, mulţimea datelor
de antrenament se va scrie formal ca fiind (𝒙𝒊 , 𝑦𝑖 ), 𝑖 = 1,2, ⋯ , 𝑛. În funcţie de cazul pe care îl
avem de rezolvat, datele de antrenament pot fi organizate sub forma tabelului 1.1a, dacă sunt
etichetate sau sub forma tabelul 1.1b, dacă nu sunt etichetate.
Tabelul 1.1a Date de antrenament etichetate
Nr.
A1 A2 … Aj … Ap Etichetă
instanță
1 𝑦1
2 𝑦2
….
i 𝒙𝑖,𝑗 𝑦𝑖
….
n 𝑦𝑛

Tabelul 1.1b Date de antrenament neetichetate


Nr.
A1 A2 … Aj … Ap
instanță
1
2
….
i 𝒙𝑖,𝑗
….
n

Concluzii

 Există două categorii mari de modele KDP: modele academice şi modele industriale
 Modelele KDP sunt alcătuite din mai mulţi paşi, care pregătesc sau valorifică
rezultatele obţinute la pasul de Data Mining
 Forma de organizare a datelor de antrenament trebuie să fie corespunzătoare
tipulului de metodă utilizată (învăţare supervizată sau nesupervizată)