Sunteți pe pagina 1din 23

Fraud detection using

Managementul si Protectia Informatiei Bucuresti,2018


Tehnici de Cautare si Regasire a Informatiei
Alexandru Berbece
Data mining – Definitie

“Procesul de descoperire a unor noi relatii, tipare si tendinte prin parcurgerea datelor
existente utilizand tehnologii de recunoastere a tiparelor, precum si a tehnicilor
statistice si matematice. “
Data mining – Ce nu este?

• Aplicatie pentru modelarea datelor

• Aplicatie care utilizeaza forta bruta pentru procesarea datelor

• Tehnologie “black-box”

• Magie
Data mining – Detectia fraudei

• Adoptarea data mining poate fi o strategie excelenta pentru o organizatie cu nevoi


in acest sens, in special cele care vor sa inteleaga ce poate fi realizat cu datele pe
care le detin.
• Detectia fraudei ar trebui sa fie un subiect sensibil astazi mai mult ca niciodata.
Comertul on-line este intr-o continua expansiune, oamenii au mai mult acces la
institutii financiare importante iar acestea trebuie sa fie constiente de modalitatile
de detectare a posibilelor acte frauduloase.
Cum minam datele?

• Cross Industry Standard Process for Data Mining (CRISP-DM)

– Metodologie structurata cu pasi


ierarhici care urmati, conduc la
rezolvarea unei probleme de data
mining;
– Se focuseaza pe probleme
de business;
Tehnici folosite

• Regresie liniara

– Prezicerea valorii unei creante si


compararea ei cu valoarea curenta

– Toate cazurile care nu se incadreaza


in intervalul asteptat, trebuie
evaluare mai atent.
Tehnici folosite

• Arbore decizional

– Ofera posibilitatea de a crea categorii pe baza datelor unor atribute si de a dezvolta un profil
caracteristic unui comportament vizat
– Graful rezultat ajuta la vizualizarea datelor divizate in sectiuni care stau la baza deciziilor
Tehnici folosite

• Clusterizare si asociere

– Metoda ce presupune
gruparea inregistrarilor
similare intre ele
dar diferite de restul datelor
Cross Industry Standard Process for Data Mining (CRISP-DM)
Cross Industry Standard Process for Data Mining (CRISP-DM)

• Intelegerea datelor – etapa explicita care poate fi cea mai costisitoare. Aceasta faza
incepe cu o colectare initiala a datelor si continua cu activitati pentru familiarizare
cu datele, pentru identificarea problemelor de calitate a datelor, descoperirea si
extragerea primelor informatii din date sau pentru a detecta submultimi de date
pentru a forma ipoteze descoperind informatii ascunse. Cum se face ?

• German Credit Fraud Data – date grupate intr-un set inventat de Profesor Hans
Hofman de la Universitatea Hamburg, Germania.
• Model folosit, impreuna cu algoritmi decizionali, in industria bancara pentru
detectia persoanelor viitoare rau platnice, in cazul acordarii unui posibil credit.
German Credit Fraud Data

Data Definition
German Credit Fraud Data

Data Definition
Transpunerea datelor intr-un fisier ARFF (Attribute-Relationship File Format)

http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff
Demo - Weka
Matricea de Cost – Confusion matrix

1 2
--- -------------------- Matricea de cost – masurarea eficientei unui algoritm
1 0 1
---- -------------------
2 5 0

(1 = Good, 2 = Bad)
Demo - Weka

Matricea de cost nu ofera detalii relevante –> clusterizare


Demo - Weka
Explicatie clustere

Primul cluster are cel mai are cel mai


mare numar de Instante. Rezultatul sugereaza
ca persoanele reprezentative au un credit din
trecut deja platit si se afla in grupa de varsta mai mica
(aprox 31), sex feminin si doresc
creditul pentru achizitia unei masini noi.
Explicatie clustere

Al doilea cluster, cu cele mai putine instante, sugereaza


ca membrii grupului au datorii fata de banca,
mai, barbati necasatoriti, varsta mai mica de 41 de ani,
fara o proprietate declarata, solicita creditul
pentru a achizitiona o masina second - hand.

Grup de persoane care necesita o analiza business


mai amanuntita 
Explicatie clustere

Cel de-al treilea cluster, 33,3% din persoane,


sunt barbati necasatoriti, nu au datorii, au o proprietate,
Varsta mai mica de 37 de ani, solicita creditul pentru
achizitia unui televizor.
Concluzii

Datele sunt o resursa valoroasa pentru ca reprezinta instrumentul, care prelucrat,


ofera rapoarte si statistici pe baza carora se iau decizii importante pentru diferite
entitati. De aceea, prepararea datelor este un pas important in metodologie pentru a
obtine rezultate cat mai clare.

Dupa cum am vazut, nu toti algoritmii se pliaza pe nevoile unei entitati. Tocmai de
aceea este necesara alegerea algoritmului care ofera cele mai multe informatii nevoii,
in cazul nostru, de business.
Bibliografie

1. https://en.wikipedia.org/wiki/Confusion_matrix
2. http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff
3. https://www.ibm.com/developerworks/library/os-weka2/#download
Sfarsit

VA MULTUMESC!