Data Mining - Tehnologie Şi Elemente de Securitate

Data mining – tehnologie şi elemente de securitate
Data mining – tehnologie şi elemente de

securitate
1
Cuprins
I. Ce este Data Mining?
II. Elemente cheie ale Data Mining
III. Aplicaţii data mining
IV. Concluzii.
V. Bibliografie.
2
1. Ce este Data Mining?
În ultimii zece ani asistăm la o creştere explozivă a capacitătii noastre de a genera

şi colecta date. Progresele realizate în colectarea datelor, răspândirea utilizării codurilor
bară pentru majoritatea produselor comerciale şi computerizarea majorităţii tranzacţiilor
de afaceri şi guvernamentale ne-au inundat cu informatii. Se discută din ce în ce mai mult
despre oceanul de date, care în literatura de specialitate se numeste „ubiquitous“. Acest
termen nu are o traducere exactă şi nici o semnificatie foarte precisă. El se referă la datele
care urmăresc în mod aproape invizibil viaţa de zi cu zi a omului modern. Originile
acestor date sunt diferite, iar existenţa lor, aproape insesizabilă cu ochiul liber. Ele provin
din cele mai diverse surse, de la dispozitivele cele mai simple, cum ar fi, maşinile de
spălat cu program, cuptoarele cu microunde, telefoanele digitale, automatele de eliberat
numerar, şi până la baze de date complexe, legate de evidenta populaţiei, sănătate,
circulaţie.
Aceste cantităti mari de date se memorează în depozite sau antrepozite de date,
numite şi data warehouse, utilizând tehnici speciale, denumite OLTP sau OLAP.
Apariţia Internetului a dus la o creştere exponenţială a informaţiilor, practic, este
foarte greu de imaginat uriaşul volum de date care se ascunde în spatele lui.
Pentru luarea unor decizii, omul are nevoie de cunoştinţe. Se pune deci problema
cum se pot analiza datele şi cum se pot extrage cunoştinţele necesare din ele. Dacă datele
sunt relativ putine, analiza se poate realiza simplu, manual, de către specialisti din diferite
domenii sau statisticieni. Pe acestia, unii autori îi numesc „mineri“ sau „excavatori
manuali de date“. Ce ne facem însă în situatia în care avem „munti“ de date? Cât de mare
poate fi azi o bază de date dintr-o aplicatie oarecare? În alte domenii volumul datelor este
mult mai mic. Să ne gândim, de exemplu, la o clinică. Aici sunt mii de bolnavi, care au
fiecare un volum considerabil de date ce rezultă din istoricul bolii, analize de laborator,
imagini captate cu ecografe, angiografe nucleare. Situatia este si mai pregnantă în
domeniul afacerilor.
Deci, evident că pentru astfel de volume de date amorfe, sunt necesare
instrumente speciale pentru extragerea cunostintelor. Nu este de mirare că s-a născut o
nouă disciplină pe care cei mai multi o denumesc Data Mining, altii o denumesc
Knowledge Discovery, altii Knowledge Discovery in Databases, altii Information
Discovery, altii Information Archeology.
Data mining, cunoscut şi ca „descoperirea cunoştintelor în baze de date mari” este
un instrument modern şi puternic al TI&C (Tehnologia Informaţiei şi Comunicaţiilor),
instrument ce poate fi folosit pentru extragerea unor informaţii utile dar încă necunoscute.
Acest instrument automatizează procesul de descoperire a unor relaţii şi combinaţii în
datele brute, iar rezultatele găsite ar putea fi încadrate într-un sistem automat de suport a
deciziei.
Data mining a fost folosit pâna acum în afaceri de catre organizatii comerciale de
succes în scopul de a obtine avantaje critice în competitia lor. Se banuieste ca în viitorul
apropiat acest instrument va fi folosit pentru prelucrarea bazelor de date uriase, ca de
exemplu dosarele computerizate ale pacientilor, la nivel national. De fapt, chiar si în
prezent, prin identificarea procedurilor medicale ce au tendinta de a se grupa, prin data
3
mining putem prezice care pacienti vor folosi noile strategii de îngrijire a sanatatii, putem
defini modele de comportare ale pacientilor de risc, putem identifica fraudele.
Funcţia principală a Data Mining este, de a extrage modele de cunoştinţe din date.
Pentru aceasta, Data Mining utilizează o varietate de algoritmi din statistică,
recunoasterea formelor, clasificare, logică fuzzy, machine learning, algoritmi genetici,
retele neuronale, vizualizarea datelor si altele. Varietatea de algoritmi poate fi grupată în
principalele componente ale Data Mining:
 modelul - care, ca orice model informatic, se reprezintă printr-o functie într-un
spatiu unidimensional sau multidimensional (un ansamblu de functii), depinzând
de parametri. El poate fi reprezentat fie ca o functie liniară de parametri, fie ca o
functie de probabilitate, fie ca o functie fuzzy. Obtinerea modelului se realizează
prin diferiti algoritmi, cum ar fi cei de clasificare si clusterizare;
 criteriile de preferintă - care pot fi de natură diferită, unele dintre acestea
bazându-se pe ordonare, altele pe interpolare sau cea mai bună aproximare;
 algoritmi de selectie - care conduc la selectarea a trei elemente importante care
apar în Data Mining, si anume: modelul, care se selectează din baza de modele,
datele, care se selectează din baza de date si constituie parametri, si criteriul sau
criteriile de preferinte, care se sele ctează din baza de criterii;
 stabilirea abaterilor - care constă în general în algoritmi de determinare a
deviatiei si stabilitătii; o categorie specifică de astfel de algoritmi sunt cei
statistici, prin care se stabilesc abaterile modelului fată de ideal.
Bineînteles că fiecare produs comercial utilizează mai multi algoritmi si în fiecare
dintre ei se regăsesc o parte sau toate componentele de mai sus în diferite proportii.
Metodele data mining provin din calculul statistic clasic, din administrarea
bazelor de date si din inteligenta artificiala. Ele nu înlocuiesc metodele traditionale ale
statisticii, ci sunt considerate a fi extinderi ale tehnicilor grafice si statistice. Deoarece
softului îi lipseste intuitia umana (pentru a face recunoasterea a ceea ce este relevant de
ceea ce nu este), rezultatele metodelor data mining vor trebui supuse în mod sistematic
unei supravegheri umane.
Structura tipica de date potrivita pentru data mining contine observatiile (cazurile,
de exemplu referitoare la pacienti) plasate pe linii iar variabilele plasate pe coloane.
Domeniile sau intervalele de valori pentru fiecare variabila vor trebui sa fie definite
precis, evitându-se cât mai mult posibil exprimarile vagi. Formatul cu linii (ce corespund
observatiilor sau cazurilor) si coloane (ce corespund variabilelor), similar cu cel al unui
fisier spreadsheet, este obligatoriu pentru data mining.
Pregatirea datelor pentru a le fi aplicate instrumentele din data mining consta în:
 Preprocesare – eliminarea datelor care nu sunt necesare,
– verificarea consistentei (unitatilor de masura),
– detectarea datelor eronate si eliminarea lor,
– eliminarea valorilor extreme (outliers);
 Integrarea datelor – combinarea unor variabile;
 Transformarea variabilelor – prin standardizare,
– prin trecere la scala logaritmica;
 Separarea bazei de date în trei categorii de date:
– Categoria pentru antrenament,
– Categoria pentru validare,
4
– Categoria pentru testare.

 Folosirea statisticilor descriptive clasice simple: media, mediana,
amplitudinea, abaterea standard, cuartilele;
 Folosirea diagramelor simple: histograme ale frecventelor, box plot-uri,
diagrame cu bare, diagrame radiale (rozeta).
Metodele data mining „de învatare” pot fi grupate în doua categorii: cele
nesupervizate, respectiv cele supervizate.
Metodele de învatare nesupervizate includ urmatoarele:
1) Analiza Componentelor Principale (ACP). Scopul sau este cel de a reduce
dimensionalitatea datelor multi-variate prin „integrarea” variabilelor corelate,
transformând liniar variabilele initiale în variabile necorelate între ele.
2) Analiza Factoriala (Factor Analysis). Scopul sau este cel de a extrage un numar
mic de factori ascunsi care explica cea mai mare parte a variabilitatii comune si
determina corelatiile observate între datele initiale.
3) Analiza Clasificarii (Cluster Analysis). Scopul sau este cel de a grupa cazurile
(observatiile) în clustere (grupuri, categorii).
Principalele metode de învatare supervizata sunt urmatoarele:
1) Regresia Liniara Multipla. Scopul sau este cel de a descrie asociatiile între doua
2) seturi de variabile, prin intermediul unor formule liniare. Aceste formule sunt
folosite ulterior pentru a prezice valorile unor variabile continue „de raspuns”
odata ce sunt cunoscute valorile tuturor variabilelor „predictor”.
3) Regresia Logistica. În acest tip de regresie „raspunsul” este o variabila binara sau
ordinala (nu una continua).
4) Retelele Neurale. Sunt folosite pentru clasificare. Totusi, o retea neurala contine
de obicei mult mai multi parametri decât un model statistic clasic, este nevoie de
mult mai mult timp de antrenare, iar rezultatele obtinute nu pot fi interpretate cu
usurinta.
5) Analiza Functiilor Discriminante (sau Analiza Discriminarii). Aceasta metoda este
folosita pentru a determina care dintre variabilele predictor discrimineaza cel mai
bine între mai multe grupuri care sunt formate natural.
Modelele identificate de o metoda de data mining vor putea fi transformate în
cunostinte, însa dupa o validare corespunzatoare; apoi, cunostintele vor putea fi folosite
ulterior pentru a fundamenta luarea deciziilor.
5
2. Elemente cheie ale Data Mining
Data Mining este o tehnologie noua si puternica cu un mare potential in ajutorarea

companiilor de a se concentra asupra celor mai importante informatii din .depozitul. lor
imens de date.
Data Minin.a fost definite ca: analiza automata a unor seturi de date largi si
complexe cu scopul de a descoperi tipare semnificante sau tendinte care altfel ar trece
neobservate.
Elementele cheie care fac din uneltele .Data Mining o forma distincta de software
sunt :
Analiza automata
Data Mining automatizeaza procesul de cercetare amanuntita a datele din trecut
cu scopul de a descoperi noi informatii. Aceasta este cea mai importanta diferenta intre
data mining si statistica , unde , un model este divizat de un statistician pentru a trata o
problema specifica de analiza. Tot aceasta diferenta face distinctie intre .data mining. si
sistemele experte, unde, modelul este construit de un inginer din reguli extrase din
experienta si munca unui expert. Fazele descoperirii automate , de asemenea , fac distictia
de OLAP, intrebari simple si instrumente de raport, care sunt folosite pentru verificarea
ipotezelor formulate de utilizator. Data Mining nu se bazeaza pe utilizator in definirea
unei intrebari specifice, ci numai in formularea unui obiectiv cum ar fi identificarea
revendicarilor frauduloase.
Seturi de date largi sau complexe
Una din atractiile data mining este aceea ca face posibila analiza unor seturi de date
foarte largi intr-o perioada rezonabila de timp. Data Mining este de asemenea
convenabila pentru problemele complexe care implica grupari de date relativ mici dar in
care sunt multe campuri sau variabile de analizat. Oricum, pentru problemele simple si
relativ mici , de analiza a datelor , pot exista solutii mai simple , mai ieftine sau mai
eficiente.
Descoperirea de tipare semnificante sau tendinte care altfel ar trece
neobservate
Obiectivul in data mining este de a descoperi relatii intre date ce ar putea oferi
intelesuri utile. Instrumentele .data mining. pot scana bazele de date si pot identifica
tipare , ascunse anterior, intr-un singur pas. Un exemplu , al descoperirii de tipar , este
analiza datelor vanzarii cu amanuntul, pentru identificarea asa-ziselor produse fara
legatura , care sunt adesea vandute impreuna. Alte probleme de descoperire a unui tipar
includ detectarea tranzactiilor frauduloase cu carti de credit, scaderea performantelor intr-
o retea si identificarea datelor anormale care pot fi erori de introducere a datelor. Ultima
semnificatie acestor tipare va fi evaluate de un expert in domeniu - un manager de
marketing sau un administrator de retea - deci rezultatele trebuie sa se afle intr-o forma
in care expertii sa o poata intelege.
Instrumentele Data Mining, pot deasemenea automatiza procesul de gasire a
informatiilor predictive in baze de date mari. Intrebari care in mod normal necesitau
analize vaste, isi pot gasi acum raspunsul, rapid, din date. Un exemplu tipic de problema
predictiva este cea a descoperii nivelului sectorului de piata tintit. Data Mining foloseste
datele din ultimele oferte postale promotionale pentru a identifica tintele cele mai
probabile ce pot maximiza profitul, la urmatoarele oferte. Alte probleme predictive includ
6
prevenirea falimentului sau a altor forme ale acestuia si identificarea segmentelor de

populatie care sa reactioneze in mod similar la diverse evenimente.
Tehnicile .data mining. pot renunta la beneficiile automatizarii platformelor
sofware si hardware existente pentru a spori valoarea resurselor informationale existente ,
si pot fi implementate pe produse si sisteme noi odata ce aceste sunt disponibile on-line.
Cand , aceste tehnici , sunt implementate pe sisteme de procesare client/server sau
paralele de mare performanta , pot analiza baze de date masive si pot da raspunsuri la
intrebari cum ar fi: Care clienti sunt mai pasibili sa raspunda la viitoarea mea oferta
postala promotionala , si de ce?
Tehnologia Data Mining este pregatita pentru aplicatii deoarece ea este sustinuta
de 3 tehnologii care acum sunt suficient de dezvoltate, cum ar fi :
1) Colectii de date masive
2) Computere multi-procesor puternice
3) Algoritmi de cautare a datelor
Bazele de date comerciale se dezvolta ajungand la niveluri fara precedent , in
special in sectorul cu amanuntul. Nevoia continua de motoare computationale
imbunatatite , poate acum fi satisfacuta printr-o maniera eficienta de cost , cu tehnologia
multi-procesoare paralele. Algoritmii de .data mining. incorporeaza tehnici care au existat
de cel putin 10 ani , dar numai recent au fost implementati ca instrumente dezvoltate ,
sigure , usor de inteles , care in mod consistent folosesc metode statistice mai vechi.
Componentele principale ale tehnologiei .data mining. s-au aflat sub dezvoltare de
decenii , in domenii de cercetare ca statistica , inteligenta artificiala si invatarea masinilor
inteligente. In prezent , dezvoltarea acestor tehnologii in concordanta cu motoarele de
baze de date relationale de inalta performanta si vastele eforturile de integrare a datelor ,
fac ca acestea sa fie foarte practice pentru domeniile de depozitare a datelor.
Cheia intelegerii diferitelor fatete ale data mining este distingerea intre aplicatiile,
operatiile , tehnicile si algoritmii data mining.
7
3. Aplicaţii data mining
O aplicatie data mining este o implementare a tehnologiei data mining ce rezolva un task
specific sau o problema de cercetare. Exemple ale ariilor de aplicatie includ:
 companie farmaceutica isi poate analiza puterea de vanzare si rezultatele, din
perioada recenta, pentru a imbunatati obiectivele medicilor sai si pentru a
determina ce activitati de piata vor avea cel mai mare impact in urmatoarele luni.
Datele trebuie sa includa activitatea de piata a competitiei, dar si informatii despre
sistemul de ingrijire a sanatatii local. Rezultatele pot fi distribuite departamentului
de vanzari printr-o retea WAN (wide-area network), ceea ce va determina ca
reprezentatii departamentului sa revizuiasca recomandarile din perseptiva
atributelor cheie din procesul de decizie. Analizele continue si dinamice a datelor
depozitate, permit ca cele mai bune proceduri sa fie aplicate in situatiile de
vanzari specifice.
 companie de carti de credit isi poate controla vastul depozit de date ce cuprind
tranzactii ale clientilor pentru a identifica clientii care ar putea fi cei mai interesati
de achizitionarea unui nou produs credit. Folosind un mic test prin posta , pot fi
identificate atributele clientilor care denota interes pentru noul produs. Proiecte
recente au indicat o scadere a costurilor de 20 ori pentru campaniile postale.
 companie diversificata de transport cu o mare putere de vanzare poate aplica data
mining”pentru a identifica cele mai bune planuri de viitor pentru serviciile sale.
Folosind „data mining” pentru a analiza experienta propriilor clienti , aceasta
companie poate construi o segmentare unica identificand atributele prospectelor
de mare valoare. Aplicarea acestei segmentari unei baze de date a unei afaceri
generale , cum ar fi cele oferite de Dun&Bradstreet , poate produce o lista a
prospectelor cu prioritatile , dupa regiune
 mare companie de bunuri de consum poate aplica data mining pentru a-si
imbunatati procesul de vanzare cu amanuntul. Datele din panourile de consum,
expedieri, si activitatea competitiei pot fi folosite pentru intelegerea motivelor
schimbarii marcilor si a stocurilor. Prin intermediul acestei analize, fabricantul
poate alege ce strategie promotionala se incadreaza cel mai bine in profilul
segmentului de clienti tinta.
Operatii specifice data mining
O aplicatie care foloseste tehnologia data minig va implementa una sau mai multe
operatii data mining (de multe ori numite task-uri). Fiecare operatie reflecta o modalitate
diferita de distingere a tiparelor sau a orientarilor intr-un set complex de date.
Clasificarea si predictia
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale
data mining. Este o operatie care ajuta organizatiile sa descopere anumite tipare in banci
de date largi si complexe cu scopul de a rezolva probleme specifice de afaceri.
8
Clasificarea este un proces de subdivizare a unui set de date cu referinta la un

numar de specific de rezultate. De exemplu, daca vrem sa clasificam clientii in 2
categorii: mari si mici, facem referinta la ricul afacerii pentru fiecare. Categoria sau
clasa in care este plasat fiecare client, este rezultatul clasificarii noastre.
O metoda neprelucrata ar fi sa clasificam clientii dupa venitul lor ce se incadreaza
deasupra sau dedesubtul unui prag. O abordare mult mai subtila ar fi aceea de a incerca sa
gasim o relatie lineara intre 2 factori diferiti, cum ar fi venitul si varsta, pentru a diviza
setul de date in doua grupari. Problemele de clasificare ale lumii reale, de obicei, implica
mult mai multe dimensiuni si prin urmare necesita o delimitare intre clase diferite, mult
mai complexa.
Un exemplu de clasificare : O organizatie de servicii comerciale doreste sa identifice
acei client care ar putea fi interesati de o noua oportunitate de investitie. In trecut a mai
lansat pe piata un astfel de produs si detine date ce arata care din clintii sai au raspuns
la oferta precedenta. Scopul este de a intelege ce factori identifica pe clientii care au
raspuns pozitiv la oferta , pentru ca efortul depus la marketing si la vanzari sa fie
concentrat mai eficient.
Exista, in inregistrarea clientilor , un camp care este setat ca fiind adevarat sau
fals in functie de raspunsul clientului la oferta. Campul este denumit camp tinta sau
variabila dependenta pentru clasificare. Scopul este de a analiza in ce mod alte atribute
ale clientilor (cum ar fi nivelul venitului, tipul job-ului, varsta, sexul, starea civila,
vechimea clientului, si alte tipuri de investitii sau produse cumparate) influenteaza clasa
din care fac parte (clasa indicata de .campul tinta.) Aceasta informatie va fi stocata in alte
campuri din inregistrarea clintului. Campurile distincte incluse in analiza sunt denumite
campuri sau variabile independente sau predictorii.
Tehnici de clasificare
Modul in care instrumentele .data mining. analizeaza datele , si tipul de informatie
pe care il ofera , depinde de tehnicile pe care le foloseste. Cele mai comune tehnici ale
clasificarii sunt : arborii de decizie si retelele neurale. Daca este folosit un arbore de
decizie vom avea un set de conditii ramificate care impart cu succes clientii in grupuri,
definite de valorile din variabilele independente.
Scopul este de a putea produce un set de reguli sau un model de un anumit fel,
care poate identifica un procent ridicat de corespondenti. O conditie a arborelui de decizie
poate fi formulata in felul urmator : .clientii care sunt de sex masculin , sunt casatoriti , au
venituri peste 50.000 $ si care sunt proprietari de locuinta, raspund ofertei noastre.
Conditia va selecta un procent mult mai ridicat de clienti decat daca se aplica o selectie
aleatoare a clientilor.
In contrast, o retea neuronala identifica in ce clasa apartine un client , dar nu ne
poate spune de ce. Factorii care determina clasificarea nu sunt disponibili pentru analiza ,
dar raman impliciti in retea. Un alt set de tehnici utilizate pentru clasificare sunt
algoritmii celui mai apropiat vecin (knearest neighbour algorithms).
Intelegerea si predictia
Tehnici sofisticate de clasificare ne ajuta sa descoperim tipare noi in seturi de
date largi si complexe. Clasificarea este , prin urmare , un puternic ajutor in intelegerea
unei probleme particulare , chiar daca acesta este ratele raspunsurilor la o campanie
9
publicitara postala , sau influenta a diversi factori la probabilitatea ca un pacient sa se

insanatoseasca de la cancer.
In unele imprejurari, o intelegere imbunatatita este suficienta. Aceasta poate
sugera initiative noi si poate procura informatii care imbunatatesc luarea deciziilor in
viitor. Oricum, in multe cazuri motivul dezvoltarii unui model de clasificare precisa este
de a imbunatati capabilitatea de predictie. De exemplu , stim ca , in trecut , 60% din
clientii care sunt de sex masculin , sunt casatoriti , si au venituri peste 60.000$ au
raspuns la promotie ( comparativ cu numai 3% din toti clientii vizati ).
Prin urmare, exista o sansa mai mare ca sansa medie, ca noi clienti ce se
incadreaza in profil, sa fie de asemenea interesati de produsul nostru. In practica, data
mining poate descoperi relatii mult mai complexe ce implica numeroase variabile
predictor, oferind astfel o segmentare mult mai rafinata a clientilor. Se spune ca un model
de clasificare ar trebui sa fie realizat dupa date istorice, pentru care se cunoaste rezultatul
pentru fiecare inregistrare. Acesta este apoi aplicat unui nou set de date neinregistrate, cu
scopul de a prezice rezultatul pentru fiecare inregistrare.
Exista diferente importante intre a clasifica date cu scopul de a intelege
comportamentul clientilor existenti si a folosi acea clasificare pentru a prezice
comportamentul viitor. Pentru seturi de date din trecut , este adesea posibil sa se produca
un set de reguli sau o functie matematica care sa clasifice cu precizie fiecare inregistrare.
De exemplu, daca continuati sa va perfectionati regulile, o sa ajungeti la o regula, pentru
fiecare individ , de forma urmatoare : .100% dintre clientii numiti Ionescu care locuiesc
pe strada Plopilor au raspuns la oferta noastra. O asemenea regula ne ajuta foarte putin
in clasificarea unui nou client. In acest caz, se spune ca modelul este supra-incarcat
pentru setul de date.
Construirea unui model predictiv bun, implica ocolirea supra-incarcarii prin
testarea si armonizarea modelului, pentru a se asigura faptul ca poate fi generalizat noilor
date.
Clustering
Clustering-ul este o operatie necontrolata. Este folosita acolo unde se doreste a se
gasi grupuri de inregistrari similare in datele noastre, fara nici o alta preconditie pe care o
implica acea asemanare. Clustering-ul este folosit pentru identificarea grupurilor de
interes dintr-o baza de date a clientilor, care nu au mai fost recunoscute anterior. De
exemplu , poate fi utilizata pentru a identifica similaritati in utilizarea telefonului
clientilor , cu scopul de a inventa si a vinde noi servicii telefonice.
Clustering-ul este obtinut, de obicei, prin utilizarea metodelor statistice , cum ar fi
algoritmul de inteles-k (k-means algorithm), sau o forma speciala a retelei neuronale
numita harta retea Kohonen. Oricare ar fi metoda utilizata, operatia de baza este aceeasi.
Fiecare inregistrare este comparata cu un set de cluster-e existente, care sunt definite
central lor. O inregistrare este atribuita cluster-ului de care este cel mai aproape, si
acesta , in schimb, schimba valoarea care defineste cluster-ul. Sunt facuti mai multi pasi
pana cand un set de date sa-si reatribuie inregistrarile si sa-si modifice centrii cluster-ilor,
pana la gasirea solutiei optime. De exemplu , cautand cluster-e printre cumparatorii din
supermarket , ar putea fi nevoie de analiza mai multor factori , printre care numarul de
vizite lunare , totalul cheltuielilor la o vizita , cheltuieli pe categorii de produse , timpul
vizitei si metoda de plata.
10
Clustering-ul este adesea interpretata ca un exercitiu de explorare inainte de continua in

cautarea datelor cu tehnica clasificarii. Din acest motiv , o buna cunoastere vizuala este
un ajutor in plus pentru cluster-ing : te face sa cunosti lucrul cu cluster-e , cu scopul de a
recunoaste daca cluster-ele identificate au sens si daca te ajuta in contextul afacerii.
Analiza asocierii si analiza secventiala

Analiza asocierii este o forma necontrolata a .data mining. care cauta legaturi intre
inregistrarile dintr-un set de date. Analiza asocierii este cateodata definita ca .analiza
cosului de consum. , care este cea mai folosita aplicatie a sa. Scopul este de a descoperi ,
de exemplu , ce articol este cel mai des cumparat in acelasi timp , pentru a ajuta
comerciantii cu amanuntul sa organizeze programe stimulente si sa-si aranjeze
magazinele cat mai eficient.
Sa consideram urmatorul exemplu cu berea si taria :
500.000 tranzactii
20.000 tranzactii contin tarie (4%)
30.000 tranzactii contin bere (6%)
10.000 tranzactii contin si bere si tarie (2%)
Caracterul general ( „Support” ) masoara cat de des articolele apar impreuna , sub
forma unui procent din totalul tranzactiilor. In acest exemplu , berea si taria apar
impreuna 2% din total (10.000/500.000).
Increderea sau predictibilitatea („Confidence”) masoara cat de mult depinde un articol
de altul. Deoarece 20.000 tranzactii se refera la tarie si 10.000 la bere , cand oamenii
cumpara tarie , in 50% din cazuri cumpara si bere. Increderea pentru urmatoarea regula
este 50% : .Cand oamenii cumpara tarie , cumpara de asemenea si bere in 50% din
cazuri.. Inversare regulii, enuntata astfel: Cand oamenii cumpara bere , cumpara
deasemenea si tarie in 1/3 din cazuri, are o incredere de 33,33% (calculata ca
10.000/30.000). Remarcati ca cele doua reguli au acelasi suport (2% calculat anterior).
Suportul nu este dependent de directia (sau implementarea) regulii; este dependent de
setul de componente din regula. Daca nu cunoastem nimic despre ce altceva a mai fost
cumparat, putem face urmatoarea afirmatie despre datele disponibile: Oamenii cumpara
tarie 4% din timp. Oamenii cumpara bere6% din timp. Aceste numere : 4% si 6% sunt
numite .increderea asteptata de a cumpara tarie sau bere, indiferent de celelalte
cumparaturi.
Diferenta de nivel („Lift”) masoara raportul dintre increderea unei reguli si increderea
asteptata ca al doilea produs sa fie cumparat. .Lift. este o masura a fortei unui efect. In
exemplul, increderea in regula de cumparare tarie-bere este 50%, in timp ce increderea
asteptata este 6% , ca un client aleator va cumpara bere. Deci , diferenta de nivel oferita
de regula tarie-bere este 8.33 (=50% / 60%). Regula tarie-bere ar fi putut fi exprimata in
termenii .Lift. astfel: .Oamenii care cumpara tarie sunt de 8.33 ori mai tentati sa cumpere
si bere.. Interactiunea dintre tarie si bere este foarte puternica. Un obiectiv cheie al unei
asociatii sau a unui exercitiu .data mining. este de a gasi reguli care au o diferenta de
nivel substantiala, ca aceasta.
Chiar daca regulile cu incredere ridicata si factori suport sunt importante , cele cu
nivele mai scazute pot descoperi tipare mai putin evidente care descopera noi oportunitati
de marketing.
11
O necesitate cheie pentru analiza asociativa o reprezinta capacitatea analizarii

unor baze de date foarte mari. Numerele implicate pot fi descurajatoare: marii vazatori
cu amanuntul monitorizeaza peste 100000 de linii de productie si efectueaza milioane de
tranzactii pe saptamana.
Analiza asociativa nu se limiteaza numai la aplicatiile pentru vanzari cu
amanuntul. De exemplu,o companie de asigurari, o poate folosi pentru a vedea legaturile
dintre cerintele pentru asigurare de sanatate in diferite conditii. Se poate folosi de
asemenea analiza secventiala pentru a urmari, de-a lungul timpului, relatiile dintre
cerinte.
Analiza secventiala, uneori, este considerata ca o operatie separata de tip data
mining, cu toate ca noi o grupam cu analiza asociativa. Analiza secventiala priveste mai
mult legaturile dintre cumparari, decat relatiile care exista intre articole intr-o singura
tranzactie. Analiza secventiala in mod normal furnizeaza reguli cum ar fi: 10 % dintre
clientii care au cumparat un cort, au cumparat in timp de o luna un rucsac.
Prognoza
Clasificarea identifica un anume grup sau clasa din care provine articolul. O
prezicere bazata pe un model de clasificare va fi, prin urmare, o consecinta distincta,
identificand un client ca fiind raspunzator sau nu sau a unui pacient cu risc mai mare sau
mai mic de a face infarct.
Prognoza, pe de alta parte, se preocupa cu prezicerea unor valori continui cum ar
fi valorile impartasite, nivelul stocului pietei, sau pretul din viitor a unei marfi cum ar fi
petrolul. Prognoza este adesea facuta cu functii de regresiune . metode statistice pentru
examinarea relatiilor intre variabile pentru a prezice valoarea urmatoare. Pachetele
statistice, cum sunt SAS si SPSS, furnizeaza o larga varietate de astfel de functii care pot
manipula probleme din ce in ce mai complexe. Totusi, asemenea functii statistice de
obicei necesita o cunostere semnificativa o tehnicilor folosite si a conditiilor initiale care
se aplica implementarii lor.
Uneltele datei mining pot de asemenea furniza functii pentru prognoza. In
particular, retelele neuronale au fost folosite pe arii mari pentru prognoza stocurilor de pe
piata. Se poate face o distinctie importanta intre doua tipuri diferite a problemei
prognozei. Problema mai simpla este prognozarea unei singure valoari continue bazate pe
o serie de exemple neordonate. De exemplu, prezicerea venitului unei persoane bazandu-
ne pe detalii personale. Multe dintre uneltele datei mining pot furniza aceasta forma de
prezicere folosind, de exemplu, retelele neuronale, sau in unele cazuri, arbori de decizie.
O problema mai complexa este prezicerea unei sau mai multor valori bazate pe
tiparul secvential, cum este nivelul stocului pietei pentru urmatoarele 30 de zile bazat pe
cifrele din 6 luni anterioare. Putine unelte ale datei mining suporta aceasta forma de
prognoza. Suportul limitat pentru prognoza pe timp indelungat reflecta in parte
complexitatea algoritmica marita a problemei, si partial nevoia de a pregati si a prezenta
datele uneltei datei mining in mod corect si de a furniza iesirea in formatul dorit. Unde se
suporta aceasta prognoza, de obicei este nevoie de analisti pentru a face mai multa
preprocesare a datelor si postprocesare a rezultatelor.
12
4. Concluzii
Data mining s-a dezvoltat ca o consecinta a disponibilizarii marilor rezervoare de

date. Colectarea datelor în diverse formate de digitizare a început în anii '60 permitând o
analiza retrospectiva a datelor prin intermediul calculatorului. Bazele de date relationale
au aparut în anii '80 împreuna cu Structured Query Language (SQL) permitând analizarea
dinamica la cerere a datelor. Anii '90 sunt caracterizati de o explozie a datelor. Pentru
stocarea lor au început sa se foloseasca depozitele de date (data warehouses). Mineritul
de date a aparut ca raspuns la provocarile cu care s-a confruntat comunitatea specialistilor
în baze de date, care se ocupau cu cantitati masive de date, aplicarea analizei statistice si
aplicare tehnicilor de cautare, specifice inteligentei artificiale asupra datelor. Mineritul de
date este aplicat într-o varietate de domenii, începând cu managementul de investitii pâna
la astronomie. Importanta si potentialul de aplicare al mineritului de date a fost
recunoscut în marketing, domeniul bancar, asigurarea sanatatii, telecomunicatii s.a.
pentru aplicatii cum ar fi analiza cosului de piata, pentru promovarea eficientei, analiza
vulnerabilitatii clientilor, managementul relatiilor cu clientii, crearea de portofoliu,
detectarea fraudei în telefonia celulara. În fiecare dintre aceste aplicatii este necesara
executarea mai multor operatii de minerit de date decât în domeniile depozitarii de date
(data warehousing) si sistemelor suport pentru decizie.
Datorita evolutiei rapide a accesarii datelor online datorata dezvoltarii Internet-
ului, s-a creat o imensa cerere de metodologii de descoperire de cunostinte. În consecinta,
terminologia a evoluat si ea, mineritul de date capatând diferite întelesuri.
Data Mining si KDD sunt foarte legate de o serie de domenii noi ale informaticii.
Nu ne punem problema de a prezenta toate aceste legături. Subliniem, însă, că cele mai
apropiate domenii de DATA MINING si KDD sunt OLAP (On Line Analitic Processing)
si DSS (Decision Suppo rt Systems). Având în vedere faptul că intentionăm să abordăm
tema OLAP si DSS într-un articol viitor, nu vom intra acum în amănunte legate de aceste
domenii. Există multe prezentări, mai mult sau mai putin complete, despre ceea ce este
OLAP si DSS. Conform acestora, OLAP este un mod de utilizare a depozitelor de date,
utilizare care presupune pe de o parte un acces în timp real (OLTP - On Line
Transactional Processing), iar pe de altă parte, o analiză multidimensională (vectorială) a
bazelor de date mari. DSS este un ansamblu format din baze si depozite de date, precum
si alte ansambluri de informatii utile, împreună cu produse soft adecvate întocmirii
rapoartelor, analizei datelor, precum si implementării unor algoritmi de optimizare în
vederea sprijinirii actului decizional al oamenilor de afaceri. Aceste două domenii fiind
foarte apropiate de DATA MINING, determină o serie de furnizori de OLAP sau DSS să
sustină că livrează DATA MINING. „Dând o interpretare slabă notiunii de Data Mining,
vânzătorii OLAP pot spune că se ocupă de DATA MINING“ afirmă Steve Smith, director
de analize avansate la Pilot Software. „Una dintre liniile de demarcare clară dintre cele
două domenii este gradul de automatizare. A doua este gradul de utilizare a mijloacelor
statistice de determinare a ceea ce este interesant si a ceea ce este irele vant“. Acestea
sunt clar în favoarea DSS. OLAP si DSS utilizează mai putini algoritmi si depind de
cererile si ipotezele livrate de utilizator. În ceea ce priveste răspunsurile, diferenta dintre
OLAP si DSS, pe de o parte, si DATA MINING si KDD, pe de altă par te, se poate
asemăna cu cea dintre răspunsurile date de o bază de date si una de cunostinte. Astfel, de
13
exemplu, un mod tipic de a pune o întrebare în OLAP si DSS este: „Au cumpărat
persoanele din Cluj mai multe masini decât cele din Brasov în ultimul an?“. Răspunsul
OLAP si DSS este de forma: „Populatia din Cluj a cumpărat 12.000 de masini, în timp
ce în aceeasi perioadă, cea din Brasov a cumpărat 10.000“. Acest răspuns este deci clar,
dar se limitează la ipoteze, deci este rigid. Răspunsurile din DATA MINING si KDD sunt
mult mai flexibile. În cazul lor, întrebările se pun sub forma: „Dă-mi un model care
identifică caracteristica cea mai previzibilă a populatiei care va cumpăra masini“ .
Învătând din experienta trecută, DATA MINING va răspunde sub forma: „Depinde de an
si zonă geografică. Astfel, de exemplu, populatia din Cluj a cumpărat anul trecut mai
multe masini (12.000) fată de cea din Brasov (10.000)“. Avantajul este că DATA
MINING si KDD pot descoperi răspunsuri mai sofisticate si subtile, pe care OLAP si
DSS nu le pot detecta.
Există si multe alte diferente, dintre care cea mai importantă este modul de
rationare. Astfel, rationarea în sistemele OLAP si DSS este deductivă, în timp ce în DM
si KDD este inductivă.
Pe de altă parte, trebuie subliniat că diferentele dintre DM, OLAP si DSS au
tendinta să dispară. Algoritmii si facilitătile DM au început să fie incluse în produsele
DSS si OLAP. De exemplu, AT&T, care este un mare utilizator si furnizor de OLAP, a în
ceput să lucreze la un produs DM, numit Nearest Neighbor System, care clasifică uti
lizatorii săi după similarităti. La rândul lor, si furnizorii de DSS au sisteme specifice de
vizualizare a bazelor de date, deci includerea unor functionalităti de DM este o optiune
normală a lor. Nu este deci de mirare că marii furnizori de OLAP si DSS, cum sunt Pilot
si Comshare, s-au orientat rapid către DM.
Unul dintre domeniile preferate de utilizare a DM, de către producătorii de DSS si
OLAP este valorificarea Internetului. Acest fapt este normal, având în vedere caracterul
eterogen al bazelor si depozitelor de date în acest caz. Astfel, de exemplu, Arbo r
Software a introdus un gateway Web la un pret de 10.000 de dolari, gateway care este un
site între serverul Web si o bază de date OLAP multidimensională de tip Essbase a
companiei. Produsul asigură citirea si scrierea usoară a analizei informatiilor de afaceri
furnizate de browserul Web, ceea ce va usura răspândirea ei pe piata DSS, OLAP si DM.
În ultimii ani, informatica a surprins omenirea, ca de atâtea ori până acum, printr-
o serie de rezultate noi si inedite, cum au fost: aparitia si extinderea Internetului sub
forma World Wide Web la scară planetară, aparitia tehnologiei agentilor intelig enti, a
algoritmilor genetici, a depozitelor de date, a sistemelor fuzzy etc. Toate acestea au pornit
însă de la lumea academică, fiind urgent preluate de cea a afacerilor. Asa cum am mai
subliniat, DM si KDD au pornit invers, de la necesitătile de aface ri, mai exact, de la
necesitatea extragerii cunostintelor din imensitatea de date în mijlocul căreia se află omul
modern. Nu este de mirare deci că firmele mari, cum sunt IBM, Microsoft, GTE etc., si-
au format grupuri proprii de cercetare sau au format g rupuri de cercetare cu universităti
puternice ca MIT, Stanford, Rutgers, Santafe etc. pe acest domeniu. Asa după cum am
mai amintit, piata este în formare, domeniul în stare de artă, primele rezultate apar greu,
deoarece aici este vorba de un domeniu multi si pluri disciplinar, dar lumea afacerilor
simte că este vorba de un avantaj strategic, iar cea a informaticii, că poate pentru ea se
deschide o nouă eră.
14
Bibliografie
1. http://www.cio.com/archive/051598_mining.html
2. http://www.oracle.com/ip/analyze/warehouse/datamining/
3. http://www-4.ibm.com/software/data/iminer/fordata/about.html
4. http://www.cognos.com/
5. http://www.microsoft.com/sql/productinfo/datamine.htm
6. http://www.scitegic.com/products_services/pipeline_pilot.htm
7. http://www.anvilinformatics.com/
8. http://en.wikipedia.org/wiki/Data Mining
15

Data Mining - Tehnologie Şi Elemente de Securitate

Încărcat de

Informații document

Titlu original

Drepturi de autor

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Data Mining - Tehnologie Şi Elemente de Securitate

Încărcat de

Drepturi de autor:

Data mining – tehnologie şi elemente de securitate

Data mining – tehnologie şi elemente de

I. Ce este Data Mining?

II. Elemente cheie ale Data Mining

III. Aplicaţii data mining

1. Ce este Data Mining?

În ultimii zece ani asistăm la o creştere explozivă a capacitătii noastre de a genera

– Categoria pentru testare.

2. Elemente cheie ale Data Mining

Data Mining este o tehnologie noua si puternica cu un mare potential in ajutorarea

prevenirea falimentului sau a altor forme ale acestuia si identificarea segmentelor de

3. Aplicaţii data mining

Operatii specifice data mining

Clasificarea este un proces de subdivizare a unui set de date cu referinta la un

publicitara postala , sau influenta a diversi factori la probabilitatea ca un pacient sa se

Clustering-ul este adesea interpretata ca un exercitiu de explorare inainte de continua in

Analiza asocierii si analiza secventiala

O necesitate cheie pentru analiza asociativa o reprezinta capacitatea analizarii

Data mining s-a dezvoltat ca o consecinta a disponibilizarii marilor rezervoare de

S-ar putea să vă placă și