Documente Academic
Documente Profesional
Documente Cultură
Data mining
Data Warehouse si Data mining
Data mining este procesul de cautare automata de sabloane, tipare semnificative in volume
foarte mari de date.
Trei tipuri de aplicatii de DW
Procesarea informatiilor
Interogari, analize statistice de baza, raportari folosind tabele, grafice, figuri
Procesare analitica
Analiza multidimensionala a datelor DW
Operatii OLAP de baza, navigare prin date, pivotari, rotatii, sectionari
Data mining
Descoperire de cunostinte din modele ascunse
Asocieri, construire de modele analitice, realizare de clasificari si predictii, si
prezentarea rezultatelor cu instrumente de vizualizare
OLAM –Online Analitycal Data Mining
Despre data mining
Este o colectie de metodologii, tehnici si algoritmi de analiza a datelor pentru
descoperirea de modele noi in date. Modelele trebuie sa fie valide, utile
si inteligibile
Converteste datele in cunostinte valoroase care pot fi folosite ca suport
pentru decizii
Este folosit pentru seturi mari de date
Procesul este automatizat, nu e necesara interventia umana
Data mining si Knowledge Discovery in Databases (KDD) sunt
considerate de unii autori ca reprezentand acelasi lucru. Altii considera data
mining-ul ca fiind pasul de analiza in procesul KDD, dupa curatarea si
transformarea datelor si inainte de vizualizare/ evaluarea rezultatelor
Despre data mining
Implica metode care sunt la intersectia intre inteligenta artificiala, invatare
automata (machine learning), statistica si sisteme de baze de date.
Cele mai valoroase rezultate obtinute prin DM sunt: clusterizarea,
clasificarea, estimarea, predictia si gasirea lucrurilor care apar impreuna.
Principalele instrumente de DM includ:
Invatare Invatare
supervizata nesupervizata
retelele neuronale;
Naïve Bayes.
Metode predictive
Regresia
Este similara clasificarii, diferenta majora intre cele doua modele este
aceea ca in cazul regresiei atributul predictibil este un numar continuu.
Tehnicile de regresie au fost studiate de sute de ani in domeniul
statisticii. Regresia liniara si regresia logistica sunt cele mai utilizate
metode de regresie. Alte tehnici de regresie sunt arborii de regresie si
retelele neuronale.
Exemplu de problema rezolvata prin acest model: calcularea vitezei
vantului in functie de temperatura, presiunea aerului si umiditate.
Metode descriptive
Clusterizarea
Clustering-ul se mai numeste si segmentare si este utilizat in
identificarea gruparilor naturale a cazurilor, grupari bazate pe un
set de atribute.
Cazurile din cadrul aceluiasi grup au mai multe valori similare
ale atributelor.
Segmentarea este o operatie de data mining nedirijata, nu exista
nici un atribut care sa conduca procesul de instruire, toate
atributele parametri de intrare sunt tratate in mod egal.
Cei mai multi algoritmi de clustering isi construiesc modelul
prin iteratii care se opresc cand modelul este acoperit in
intregime, adica atunci cand limitele acestor segmente sunt
stabilizate.
Metode descriptive
Clusterizarea
Clustering-ul se mai numeste si segmentare si este utilizat in identificarea gruparilor
naturale a cazurilor, grupari bazate pe un set de atribute.
Cazurile din cadrul aceluiasi grup au mai multe valori similare ale atributelor.
Segmentarea este o operatie de data mining nedirijata, nu exista nici un atribut care sa
conduca procesul de instruire, toate atributele parametri de intrare sunt tratate in
mod egal.
Cei mai multi algoritmi de clustering isi construiesc modelul prin iteratii care se
opresc cand modelul este acoperit in intregime, adica atunci cand limitele acestor
segmente sunt stabilizate.
Algoritmul de segmentare grupeaza, de exemplu, pe baza celor doua atribute varsta si
venit setul de date in trei segmente:
Cluster 1: cuprinde populatia tanara cu un
venit scazut;
Cluster 2: cuprinde populatia de varsta medie
cu venituri;
Cluster 3: cuprinde populatia de varsta
inaintata cu un venit scazut.
Metode si tehnici aplicate in
cazuri concrete de business
Probleme analitice Exemple Algoritmi
Clasificare: Incadrarea Analiza riscului de credite Arbori de decizie
cazurilor in clase Analiza renuntarii clientilor Naïve Bayes
predefinite Retinerea clientilor Retele neuronale
Segmentarea: Analiza profilului clientilor Clustering
Taxonomia gruparii Campaniile de mail Sequence
cazurilor similare clustering
Asocierea: Calcularea Analiza cosului de cumparaturi Arborii de decizii
avasata pentru corectii Analiza avansata a datelor Asocierile
Prognoza seriilor de Previzionarea vanzarilor Serii de timp
timp: previziuni Previzionarea preturilor
actiunilor la bursa
Predictia (analiza Cotatia primele de asigurare Toti algoritmii
seriilor): Predictia unei Predictia venitului clientilor
valori pentru un caz nou
pe baza valorilor
cazurilor similare
Analiza deviatiei: Detectarea fraudelor cartilor Toti algoritmii
descoperirea cazurilor de credit
unui segment analizat Analiza intruziunii in retelele
difera de toate cele informatice
celelalte cazuri
DM in DW
Volume f. mari de date – milioane de inregistrari, mii de
atribute
Se realizeaza procesul ETL si se incarca si gestioneaza datele
in sistem multidimensional
Se ofera acces utilizatorilor de business care isi vor realiza
analizele dorite prin aplicatii software specifice
Rezultatele sunt prezentate sub forma de tabele sau grafice
Arhitectura sistem OLAM
(Multidimensional
database)
Aplicatii DM
AT&T utilizeaza o aplicatie de data mining pentru identificarea apelurilor internationale frauduloase;
sistemul american FAIS (Financial Crimes Enforcement Network AI System) utilizeaza data mining
pentru identificarea activitatilor de spalare a banilor in cadrul tranzactiilor foarte mari de bani;
Banca Americii utilizeaza data mining pentru identificarea clientilor care utilizeaza anumite
produse ale bancii si care sunt produsele preferate ale clientilor, in scopul crearii de mixuri de
produse care sa satisfaca exigentele clientilor.
US West Communications, furnizor de servicii de comunicatii cu peste 25 milioane de clienti,
utilizeaza data mining pentru a determina tendintele si nevoile clientilor pe baza unor parametri de
tipul: dimensiunea familiei, varsta medie a membrilor familiei si adresa de rezidenta.
Twentieth Century Fox analizeaza incasarile de box-office pentru a identifica care actori, filme
si scenarii vor fi apreciate in diverse arii de marketing.