Documente Academic
Documente Profesional
Documente Cultură
1
Data mining – tehnologie şi elemente de securitate
Cuprins
IV. Concluzii.
V. Bibliografie.
2
Data mining – tehnologie şi elemente de securitate
3
Data mining – tehnologie şi elemente de securitate
mining putem prezice care pacienti vor folosi noile strategii de îngrijire a sanatatii, putem
defini modele de comportare ale pacientilor de risc, putem identifica fraudele.
Funcţia principală a Data Mining este, de a extrage modele de cunoştinţe din date.
Pentru aceasta, Data Mining utilizează o varietate de algoritmi din statistică,
recunoasterea formelor, clasificare, logică fuzzy, machine learning, algoritmi genetici,
retele neuronale, vizualizarea datelor si altele. Varietatea de algoritmi poate fi grupată în
principalele componente ale Data Mining:
modelul - care, ca orice model informatic, se reprezintă printr-o functie într-un
spatiu unidimensional sau multidimensional (un ansamblu de functii), depinzând
de parametri. El poate fi reprezentat fie ca o functie liniară de parametri, fie ca o
functie de probabilitate, fie ca o functie fuzzy. Obtinerea modelului se realizează
prin diferiti algoritmi, cum ar fi cei de clasificare si clusterizare;
criteriile de preferintă - care pot fi de natură diferită, unele dintre acestea
bazându-se pe ordonare, altele pe interpolare sau cea mai bună aproximare;
algoritmi de selectie - care conduc la selectarea a trei elemente importante care
apar în Data Mining, si anume: modelul, care se selectează din baza de modele,
datele, care se selectează din baza de date si constituie parametri, si criteriul sau
criteriile de preferinte, care se sele ctează din baza de criterii;
stabilirea abaterilor - care constă în general în algoritmi de determinare a
deviatiei si stabilitătii; o categorie specifică de astfel de algoritmi sunt cei
statistici, prin care se stabilesc abaterile modelului fată de ideal.
Bineînteles că fiecare produs comercial utilizează mai multi algoritmi si în fiecare
dintre ei se regăsesc o parte sau toate componentele de mai sus în diferite proportii.
Metodele data mining provin din calculul statistic clasic, din administrarea
bazelor de date si din inteligenta artificiala. Ele nu înlocuiesc metodele traditionale ale
statisticii, ci sunt considerate a fi extinderi ale tehnicilor grafice si statistice. Deoarece
softului îi lipseste intuitia umana (pentru a face recunoasterea a ceea ce este relevant de
ceea ce nu este), rezultatele metodelor data mining vor trebui supuse în mod sistematic
unei supravegheri umane.
Structura tipica de date potrivita pentru data mining contine observatiile (cazurile,
de exemplu referitoare la pacienti) plasate pe linii iar variabilele plasate pe coloane.
Domeniile sau intervalele de valori pentru fiecare variabila vor trebui sa fie definite
precis, evitându-se cât mai mult posibil exprimarile vagi. Formatul cu linii (ce corespund
observatiilor sau cazurilor) si coloane (ce corespund variabilelor), similar cu cel al unui
fisier spreadsheet, este obligatoriu pentru data mining.
Pregatirea datelor pentru a le fi aplicate instrumentele din data mining consta în:
Preprocesare – eliminarea datelor care nu sunt necesare,
– verificarea consistentei (unitatilor de masura),
– detectarea datelor eronate si eliminarea lor,
– eliminarea valorilor extreme (outliers);
Integrarea datelor – combinarea unor variabile;
Transformarea variabilelor – prin standardizare,
– prin trecere la scala logaritmica;
Separarea bazei de date în trei categorii de date:
– Categoria pentru antrenament,
– Categoria pentru validare,
4
Data mining – tehnologie şi elemente de securitate
5
Data mining – tehnologie şi elemente de securitate
6
Data mining – tehnologie şi elemente de securitate
7
Data mining – tehnologie şi elemente de securitate
O aplicatie data mining este o implementare a tehnologiei data mining ce rezolva un task
specific sau o problema de cercetare. Exemple ale ariilor de aplicatie includ:
companie farmaceutica isi poate analiza puterea de vanzare si rezultatele, din
perioada recenta, pentru a imbunatati obiectivele medicilor sai si pentru a
determina ce activitati de piata vor avea cel mai mare impact in urmatoarele luni.
Datele trebuie sa includa activitatea de piata a competitiei, dar si informatii despre
sistemul de ingrijire a sanatatii local. Rezultatele pot fi distribuite departamentului
de vanzari printr-o retea WAN (wide-area network), ceea ce va determina ca
reprezentatii departamentului sa revizuiasca recomandarile din perseptiva
atributelor cheie din procesul de decizie. Analizele continue si dinamice a datelor
depozitate, permit ca cele mai bune proceduri sa fie aplicate in situatiile de
vanzari specifice.
companie de carti de credit isi poate controla vastul depozit de date ce cuprind
tranzactii ale clientilor pentru a identifica clientii care ar putea fi cei mai interesati
de achizitionarea unui nou produs credit. Folosind un mic test prin posta , pot fi
identificate atributele clientilor care denota interes pentru noul produs. Proiecte
recente au indicat o scadere a costurilor de 20 ori pentru campaniile postale.
companie diversificata de transport cu o mare putere de vanzare poate aplica data
mining”pentru a identifica cele mai bune planuri de viitor pentru serviciile sale.
Folosind „data mining” pentru a analiza experienta propriilor clienti , aceasta
companie poate construi o segmentare unica identificand atributele prospectelor
de mare valoare. Aplicarea acestei segmentari unei baze de date a unei afaceri
generale , cum ar fi cele oferite de Dun&Bradstreet , poate produce o lista a
prospectelor cu prioritatile , dupa regiune
mare companie de bunuri de consum poate aplica data mining pentru a-si
imbunatati procesul de vanzare cu amanuntul. Datele din panourile de consum,
expedieri, si activitatea competitiei pot fi folosite pentru intelegerea motivelor
schimbarii marcilor si a stocurilor. Prin intermediul acestei analize, fabricantul
poate alege ce strategie promotionala se incadreaza cel mai bine in profilul
segmentului de clienti tinta.
O aplicatie care foloseste tehnologia data minig va implementa una sau mai multe
operatii data mining (de multe ori numite task-uri). Fiecare operatie reflecta o modalitate
diferita de distingere a tiparelor sau a orientarilor intr-un set complex de date.
Clasificarea si predictia
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale
data mining. Este o operatie care ajuta organizatiile sa descopere anumite tipare in banci
de date largi si complexe cu scopul de a rezolva probleme specifice de afaceri.
8
Data mining – tehnologie şi elemente de securitate
Tehnici de clasificare
Modul in care instrumentele .data mining. analizeaza datele , si tipul de informatie
pe care il ofera , depinde de tehnicile pe care le foloseste. Cele mai comune tehnici ale
clasificarii sunt : arborii de decizie si retelele neurale. Daca este folosit un arbore de
decizie vom avea un set de conditii ramificate care impart cu succes clientii in grupuri,
definite de valorile din variabilele independente.
Scopul este de a putea produce un set de reguli sau un model de un anumit fel,
care poate identifica un procent ridicat de corespondenti. O conditie a arborelui de decizie
poate fi formulata in felul urmator : .clientii care sunt de sex masculin , sunt casatoriti , au
venituri peste 50.000 $ si care sunt proprietari de locuinta, raspund ofertei noastre.
Conditia va selecta un procent mult mai ridicat de clienti decat daca se aplica o selectie
aleatoare a clientilor.
In contrast, o retea neuronala identifica in ce clasa apartine un client , dar nu ne
poate spune de ce. Factorii care determina clasificarea nu sunt disponibili pentru analiza ,
dar raman impliciti in retea. Un alt set de tehnici utilizate pentru clasificare sunt
algoritmii celui mai apropiat vecin (knearest neighbour algorithms).
Intelegerea si predictia
Tehnici sofisticate de clasificare ne ajuta sa descoperim tipare noi in seturi de
date largi si complexe. Clasificarea este , prin urmare , un puternic ajutor in intelegerea
unei probleme particulare , chiar daca acesta este ratele raspunsurilor la o campanie
9
Data mining – tehnologie şi elemente de securitate
Clustering
Clustering-ul este o operatie necontrolata. Este folosita acolo unde se doreste a se
gasi grupuri de inregistrari similare in datele noastre, fara nici o alta preconditie pe care o
implica acea asemanare. Clustering-ul este folosit pentru identificarea grupurilor de
interes dintr-o baza de date a clientilor, care nu au mai fost recunoscute anterior. De
exemplu , poate fi utilizata pentru a identifica similaritati in utilizarea telefonului
clientilor , cu scopul de a inventa si a vinde noi servicii telefonice.
Clustering-ul este obtinut, de obicei, prin utilizarea metodelor statistice , cum ar fi
algoritmul de inteles-k (k-means algorithm), sau o forma speciala a retelei neuronale
numita harta retea Kohonen. Oricare ar fi metoda utilizata, operatia de baza este aceeasi.
Fiecare inregistrare este comparata cu un set de cluster-e existente, care sunt definite
central lor. O inregistrare este atribuita cluster-ului de care este cel mai aproape, si
acesta , in schimb, schimba valoarea care defineste cluster-ul. Sunt facuti mai multi pasi
pana cand un set de date sa-si reatribuie inregistrarile si sa-si modifice centrii cluster-ilor,
pana la gasirea solutiei optime. De exemplu , cautand cluster-e printre cumparatorii din
supermarket , ar putea fi nevoie de analiza mai multor factori , printre care numarul de
vizite lunare , totalul cheltuielilor la o vizita , cheltuieli pe categorii de produse , timpul
vizitei si metoda de plata.
10
Data mining – tehnologie şi elemente de securitate
11
Data mining – tehnologie şi elemente de securitate
Prognoza
Clasificarea identifica un anume grup sau clasa din care provine articolul. O
prezicere bazata pe un model de clasificare va fi, prin urmare, o consecinta distincta,
identificand un client ca fiind raspunzator sau nu sau a unui pacient cu risc mai mare sau
mai mic de a face infarct.
Prognoza, pe de alta parte, se preocupa cu prezicerea unor valori continui cum ar
fi valorile impartasite, nivelul stocului pietei, sau pretul din viitor a unei marfi cum ar fi
petrolul. Prognoza este adesea facuta cu functii de regresiune . metode statistice pentru
examinarea relatiilor intre variabile pentru a prezice valoarea urmatoare. Pachetele
statistice, cum sunt SAS si SPSS, furnizeaza o larga varietate de astfel de functii care pot
manipula probleme din ce in ce mai complexe. Totusi, asemenea functii statistice de
obicei necesita o cunostere semnificativa o tehnicilor folosite si a conditiilor initiale care
se aplica implementarii lor.
Uneltele datei mining pot de asemenea furniza functii pentru prognoza. In
particular, retelele neuronale au fost folosite pe arii mari pentru prognoza stocurilor de pe
piata. Se poate face o distinctie importanta intre doua tipuri diferite a problemei
prognozei. Problema mai simpla este prognozarea unei singure valoari continue bazate pe
o serie de exemple neordonate. De exemplu, prezicerea venitului unei persoane bazandu-
ne pe detalii personale. Multe dintre uneltele datei mining pot furniza aceasta forma de
prezicere folosind, de exemplu, retelele neuronale, sau in unele cazuri, arbori de decizie.
O problema mai complexa este prezicerea unei sau mai multor valori bazate pe
tiparul secvential, cum este nivelul stocului pietei pentru urmatoarele 30 de zile bazat pe
cifrele din 6 luni anterioare. Putine unelte ale datei mining suporta aceasta forma de
prognoza. Suportul limitat pentru prognoza pe timp indelungat reflecta in parte
complexitatea algoritmica marita a problemei, si partial nevoia de a pregati si a prezenta
datele uneltei datei mining in mod corect si de a furniza iesirea in formatul dorit. Unde se
suporta aceasta prognoza, de obicei este nevoie de analisti pentru a face mai multa
preprocesare a datelor si postprocesare a rezultatelor.
12
Data mining – tehnologie şi elemente de securitate
4. Concluzii
13
Data mining – tehnologie şi elemente de securitate
exemplu, un mod tipic de a pune o întrebare în OLAP si DSS este: „Au cumpărat
persoanele din Cluj mai multe masini decât cele din Brasov în ultimul an?“. Răspunsul
OLAP si DSS este de forma: „Populatia din Cluj a cumpărat 12.000 de masini, în timp
ce în aceeasi perioadă, cea din Brasov a cumpărat 10.000“. Acest răspuns este deci clar,
dar se limitează la ipoteze, deci este rigid. Răspunsurile din DATA MINING si KDD sunt
mult mai flexibile. În cazul lor, întrebările se pun sub forma: „Dă-mi un model care
identifică caracteristica cea mai previzibilă a populatiei care va cumpăra masini“ .
Învătând din experienta trecută, DATA MINING va răspunde sub forma: „Depinde de an
si zonă geografică. Astfel, de exemplu, populatia din Cluj a cumpărat anul trecut mai
multe masini (12.000) fată de cea din Brasov (10.000)“. Avantajul este că DATA
MINING si KDD pot descoperi răspunsuri mai sofisticate si subtile, pe care OLAP si
DSS nu le pot detecta.
Există si multe alte diferente, dintre care cea mai importantă este modul de
rationare. Astfel, rationarea în sistemele OLAP si DSS este deductivă, în timp ce în DM
si KDD este inductivă.
Pe de altă parte, trebuie subliniat că diferentele dintre DM, OLAP si DSS au
tendinta să dispară. Algoritmii si facilitătile DM au început să fie incluse în produsele
DSS si OLAP. De exemplu, AT&T, care este un mare utilizator si furnizor de OLAP, a în
ceput să lucreze la un produs DM, numit Nearest Neighbor System, care clasifică uti
lizatorii săi după similarităti. La rândul lor, si furnizorii de DSS au sisteme specifice de
vizualizare a bazelor de date, deci includerea unor functionalităti de DM este o optiune
normală a lor. Nu este deci de mirare că marii furnizori de OLAP si DSS, cum sunt Pilot
si Comshare, s-au orientat rapid către DM.
Unul dintre domeniile preferate de utilizare a DM, de către producătorii de DSS si
OLAP este valorificarea Internetului. Acest fapt este normal, având în vedere caracterul
eterogen al bazelor si depozitelor de date în acest caz. Astfel, de exemplu, Arbo r
Software a introdus un gateway Web la un pret de 10.000 de dolari, gateway care este un
site între serverul Web si o bază de date OLAP multidimensională de tip Essbase a
companiei. Produsul asigură citirea si scrierea usoară a analizei informatiilor de afaceri
furnizate de browserul Web, ceea ce va usura răspândirea ei pe piata DSS, OLAP si DM.
În ultimii ani, informatica a surprins omenirea, ca de atâtea ori până acum, printr-
o serie de rezultate noi si inedite, cum au fost: aparitia si extinderea Internetului sub
forma World Wide Web la scară planetară, aparitia tehnologiei agentilor intelig enti, a
algoritmilor genetici, a depozitelor de date, a sistemelor fuzzy etc. Toate acestea au pornit
însă de la lumea academică, fiind urgent preluate de cea a afacerilor. Asa cum am mai
subliniat, DM si KDD au pornit invers, de la necesitătile de aface ri, mai exact, de la
necesitatea extragerii cunostintelor din imensitatea de date în mijlocul căreia se află omul
modern. Nu este de mirare deci că firmele mari, cum sunt IBM, Microsoft, GTE etc., si-
au format grupuri proprii de cercetare sau au format g rupuri de cercetare cu universităti
puternice ca MIT, Stanford, Rutgers, Santafe etc. pe acest domeniu. Asa după cum am
mai amintit, piata este în formare, domeniul în stare de artă, primele rezultate apar greu,
deoarece aici este vorba de un domeniu multi si pluri disciplinar, dar lumea afacerilor
simte că este vorba de un avantaj strategic, iar cea a informaticii, că poate pentru ea se
deschide o nouă eră.
14
Data mining – tehnologie şi elemente de securitate
Bibliografie
1. http://www.cio.com/archive/051598_mining.html
2. http://www.oracle.com/ip/analyze/warehouse/datamining/
3. http://www-4.ibm.com/software/data/iminer/fordata/about.html
4. http://www.cognos.com/
5. http://www.microsoft.com/sql/productinfo/datamine.htm
6. http://www.scitegic.com/products_services/pipeline_pilot.htm
7. http://www.anvilinformatics.com/
8. http://en.wikipedia.org/wiki/Data Mining
15