Documente Academic
Documente Profesional
Documente Cultură
“Procesul de descoperire a unor noi relatii, tipare si tendinte prin parcurgerea datelor
existente utilizand tehnologii de recunoastere a tiparelor, precum si a tehnicilor
statistice si matematice. “
Data mining – Ce nu este?
• Tehnologie “black-box”
• Magie
Data mining – Detectia fraudei
• Regresie liniara
• Arbore decizional
– Ofera posibilitatea de a crea categorii pe baza datelor unor atribute si de a dezvolta un profil
caracteristic unui comportament vizat
– Graful rezultat ajuta la vizualizarea datelor divizate in sectiuni care stau la baza deciziilor
Tehnici folosite
• Clusterizare si asociere
– Metoda ce presupune
gruparea inregistrarilor
similare intre ele
dar diferite de restul datelor
Cross Industry Standard Process for Data Mining (CRISP-DM)
Cross Industry Standard Process for Data Mining (CRISP-DM)
• Intelegerea datelor – etapa explicita care poate fi cea mai costisitoare. Aceasta faza
incepe cu o colectare initiala a datelor si continua cu activitati pentru familiarizare
cu datele, pentru identificarea problemelor de calitate a datelor, descoperirea si
extragerea primelor informatii din date sau pentru a detecta submultimi de date
pentru a forma ipoteze descoperind informatii ascunse. Cum se face ?
• German Credit Fraud Data – date grupate intr-un set inventat de Profesor Hans
Hofman de la Universitatea Hamburg, Germania.
• Model folosit, impreuna cu algoritmi decizionali, in industria bancara pentru
detectia persoanelor viitoare rau platnice, in cazul acordarii unui posibil credit.
German Credit Fraud Data
Data Definition
German Credit Fraud Data
Data Definition
Transpunerea datelor intr-un fisier ARFF (Attribute-Relationship File Format)
http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff
Demo - Weka
Matricea de Cost – Confusion matrix
1 2
--- -------------------- Matricea de cost – masurarea eficientei unui algoritm
1 0 1
---- -------------------
2 5 0
(1 = Good, 2 = Bad)
Demo - Weka
Dupa cum am vazut, nu toti algoritmii se pliaza pe nevoile unei entitati. Tocmai de
aceea este necesara alegerea algoritmului care ofera cele mai multe informatii nevoii,
in cazul nostru, de business.
Bibliografie
1. https://en.wikipedia.org/wiki/Confusion_matrix
2. http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff
3. https://www.ibm.com/developerworks/library/os-weka2/#download
Sfarsit
VA MULTUMESC!