Tehnici de Regasire A Informatiei

Fraud detection using
Managementul si Protectia Informatiei Bucuresti,2018

Tehnici de Cautare si Regasire a Informatiei
Alexandru Berbece
Data mining – Definitie
“Procesul de descoperire a unor noi relatii, tipare si tendinte prin parcurgerea datelor
existente utilizand tehnologii de recunoastere a tiparelor, precum si a tehnicilor
statistice si matematice. “
Data mining – Ce nu este?
• Aplicatie pentru modelarea datelor
• Aplicatie care utilizeaza forta bruta pentru procesarea datelor
• Tehnologie “black-box”
• Magie
Data mining – Detectia fraudei
• Adoptarea data mining poate fi o strategie excelenta pentru o organizatie cu nevoi

in acest sens, in special cele care vor sa inteleaga ce poate fi realizat cu datele pe
care le detin.
• Detectia fraudei ar trebui sa fie un subiect sensibil astazi mai mult ca niciodata.
Comertul on-line este intr-o continua expansiune, oamenii au mai mult acces la
institutii financiare importante iar acestea trebuie sa fie constiente de modalitatile
de detectare a posibilelor acte frauduloase.
Cum minam datele?
• Cross Industry Standard Process for Data Mining (CRISP-DM)
– Metodologie structurata cu pasi

ierarhici care urmati, conduc la
rezolvarea unei probleme de data
mining;
– Se focuseaza pe probleme
de business;
Tehnici folosite
• Regresie liniara
– Prezicerea valorii unei creante si

compararea ei cu valoarea curenta
– Toate cazurile care nu se incadreaza

in intervalul asteptat, trebuie
evaluare mai atent.
Tehnici folosite
• Arbore decizional
– Ofera posibilitatea de a crea categorii pe baza datelor unor atribute si de a dezvolta un profil
caracteristic unui comportament vizat
– Graful rezultat ajuta la vizualizarea datelor divizate in sectiuni care stau la baza deciziilor
Tehnici folosite
• Clusterizare si asociere
– Metoda ce presupune
gruparea inregistrarilor
similare intre ele
dar diferite de restul datelor
Cross Industry Standard Process for Data Mining (CRISP-DM)
Cross Industry Standard Process for Data Mining (CRISP-DM)
• Intelegerea datelor – etapa explicita care poate fi cea mai costisitoare. Aceasta faza
incepe cu o colectare initiala a datelor si continua cu activitati pentru familiarizare
cu datele, pentru identificarea problemelor de calitate a datelor, descoperirea si
extragerea primelor informatii din date sau pentru a detecta submultimi de date
pentru a forma ipoteze descoperind informatii ascunse. Cum se face ?
• German Credit Fraud Data – date grupate intr-un set inventat de Profesor Hans
Hofman de la Universitatea Hamburg, Germania.
• Model folosit, impreuna cu algoritmi decizionali, in industria bancara pentru
detectia persoanelor viitoare rau platnice, in cazul acordarii unui posibil credit.
German Credit Fraud Data
Data Definition
German Credit Fraud Data
Data Definition
Transpunerea datelor intr-un fisier ARFF (Attribute-Relationship File Format)
http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff
Demo - Weka
Matricea de Cost – Confusion matrix
1 2
--- -------------------- Matricea de cost – masurarea eficientei unui algoritm
1 0 1
---- -------------------
2 5 0
(1 = Good, 2 = Bad)
Demo - Weka
Matricea de cost nu ofera detalii relevante –> clusterizare

Demo - Weka
Explicatie clustere
Primul cluster are cel mai are cel mai

mare numar de Instante. Rezultatul sugereaza
ca persoanele reprezentative au un credit din
trecut deja platit si se afla in grupa de varsta mai mica
(aprox 31), sex feminin si doresc
creditul pentru achizitia unei masini noi.
Explicatie clustere
Al doilea cluster, cu cele mai putine instante, sugereaza

ca membrii grupului au datorii fata de banca,
mai, barbati necasatoriti, varsta mai mica de 41 de ani,
fara o proprietate declarata, solicita creditul
pentru a achizitiona o masina second - hand.
Grup de persoane care necesita o analiza business

mai amanuntita 
Explicatie clustere
Cel de-al treilea cluster, 33,3% din persoane,

sunt barbati necasatoriti, nu au datorii, au o proprietate,
Varsta mai mica de 37 de ani, solicita creditul pentru
achizitia unui televizor.
Concluzii
Datele sunt o resursa valoroasa pentru ca reprezinta instrumentul, care prelucrat,

ofera rapoarte si statistici pe baza carora se iau decizii importante pentru diferite
entitati. De aceea, prepararea datelor este un pas important in metodologie pentru a
obtine rezultate cat mai clare.
Dupa cum am vazut, nu toti algoritmii se pliaza pe nevoile unei entitati. Tocmai de
aceea este necesara alegerea algoritmului care ofera cele mai multe informatii nevoii,
in cazul nostru, de business.
Bibliografie
1. https://en.wikipedia.org/wiki/Confusion_matrix
2. http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff
3. https://www.ibm.com/developerworks/library/os-weka2/#download
Sfarsit
VA MULTUMESC!

Tehnici de Regasire A Informatiei

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tehnici de Regasire A Informatiei

Încărcat de

Drepturi de autor:

Formate disponibile

Fraud detection using

Managementul si Protectia Informatiei Bucuresti,2018

• Aplicatie pentru modelarea datelor

• Aplicatie care utilizeaza forta bruta pentru procesarea datelor

• Adoptarea data mining poate fi o strategie excelenta pentru o organizatie cu nevoi

• Cross Industry Standard Process for Data Mining (CRISP-DM)

– Metodologie structurata cu pasi

– Prezicerea valorii unei creante si

– Toate cazurile care nu se incadreaza

Matricea de cost nu ofera detalii relevante –> clusterizare

Primul cluster are cel mai are cel mai

Al doilea cluster, cu cele mai putine instante, sugereaza

Grup de persoane care necesita o analiza business

Cel de-al treilea cluster, 33,3% din persoane,

Datele sunt o resursa valoroasa pentru ca reprezinta instrumentul, care prelucrat,

S-ar putea să vă placă și