0 - Introducere in Data Mining

INTRODUCERE N DATA MINING
1. Importana metodelor data mining i a tehnologiilor web pentru mediul e-business

Motorul economiilor moderne il reprezinta tehnologiile dezvoltate in jurul trinomului Comunicare/Informatie/Cunoastere. Explozia informationala a fost dublata de cresterea exponentiala a accesului public sau privat la informatie. Tera-bytes de informatie sunt acum larg disponibili, fiind tranzitati prin intermediul retelelor cu acoperire globala, precum Internetul, stocati in bazele de date gestionate de companii, sau generati continuu de catre sistemele electronice de procesare a tranzactiilor (de exemplu, scanerele bazate pe coduri cu bare de la punctele de vanzare, serverele din comertul electronic, sau sistemele de tranzactionare ce asigura moduri personalizate de relationare intre parteneri: B2B Business to Bussiness; B2C Business to Customer, C2C Customer to Customer). Principala provocare careia trebuie sa-i faca fata economiile actuale este transformarea acestor masive baze de date in cunoastere coerenta si structurata, iar a cunoasterii in decizii profitabile. Cunoasterea reprezinta principala sursa de avantaje competitive. Bazele de date inzestreaza intreprinderile cu o memorie. Dar memoria nu este de mare folos fara inteligenta computationala, cea care furnizeaza instrumentele si tehnicile pentru extragerea structurilor cognitive latente din date (Data Mining), respectiv mecanismele de inferenta logica, proprii Inteligentei Artificiale, pentru inducerea automata de noi cunostinte. Pe de alta parte, digitalizarea activitatilor comerciale a condus la virtualizarea pietelor si la necesitatea transformarii atat a informatiei cat si a cunoasterii in resurse deschise, accesibile tuturor partenerilor de afaceri in cadrul unor retele de organizatii virtuale. Raportarea autarhica la resurse si activitati nu mai este posibila in aceste conditii, ea trebuind sa lase locul abordarilor de tip colaborativ precum si proceselor si activitatilor distribuite. Globalizarea obliga astfel la mutatii care tin de fundamentele structurale ale economiei mondiale, generand aparitia unor paradigme organizationale radical diferite in raport cu mediul concurential traditional. Transformarile produse sunt atat de profunde incat reclama reinventarea majoritatii conceptelor, strategiilor si instrumentelor traditionale, inclusiv a celor introduse relativ recent, precum tehnologiile de Management al Cunoasterii. Intradevar, mediile de afaceri populate de organizatii virtuale opereaza cu informatie si cunoastere distribuita in retea, ceea ce face inoperant un sistem centrat preponderent pe resurse interne, fara accesul la resursele partajabile si disponibilitatea pentru inovatie pe care o ofera raporturile de colaborare si cooperare cu un mediu de tranzactionare global si conex. Ca rezultat al acestor mutatii conceptuale, dezvoltarea mediului e-business prin integrarea unui sistem eficient de Management al Cunoasterii nu mai poate fi conceputa decat in contextul unei arhitecturi software integrate, bazata pe tehnologii Web: aplicatii/servicii Web, agenti software distribuiti in retea, etc. Adoptarea unei arhitecturi functionale orientate pe servicii (SOA Service Oriented Architecture) vizeaza proiectarea de servicii digitale ghidate de cerintele utilizatorilor, prin utilizarea unor componente modulare, independente de platforma, tehnologic neutrale, ce suporta interoperabilitate, flexibilitate si pot fi reutilizate. Ele trebuie s asigure operationalizarea tuturor procedurilor si activitatilor legate de managementul cunoasterii: achizitionarea, extragerea (abstragerea cunostintelor din date), modelarea, publicarea (pe Internet), regasirea, mentinerea si reutilizarea cunoasterii. Pivotul noilor tehnologii de Management al Cunoasterii il reprezinta metodele si tehnicile de tip Data Mining, iar in particular, Web Mining componenta emergenta a acestora. Integrarea algoritmilor de invatare in arhitectura software a aplicaiilor e-business confera acestora o noua dimensiune: inteligenta computationala, care se traduce implicit in inteligenta decizionala, respectiv inteligenta in afaceri (business intelligence). Aceasta noua dimensiune permite tranzitia la clasa aplicatiilor web inteligente si plaseaza firma in fluxul principal de cunoastere, ca pol de inovatie, competenta si eficienta. Posibilitatea de a se conecta la lantul de oferte global si de a-si valorifica inteligenta computationala si decizionala confera firmei avantaje competitive, permitandu-i sa-si
imbunatateasca pozitia in lantul de valori generate de noile standarde organizationale si concurentiale ale economiei bazate pe cunoastere.
2. Prezentare general a metodelor data mining

Pentru a servi la formalizarea, digitalizarea si operationalizarea cunoasterii, tehnologiile software trebuie sa incorporeze Inteligenta Computationala, adica trebuie sa faca apel la tehnici de Inteligenta Artificiala, ntre care metodele data mining joac un rol esenial. Exista doua clase fundamentale de metode de invatare: - prescriptive (bazate pe invatare supervizata), ce utilizeaza un set de variabile (numite predictori) prin intermediul carora se realizeaza predictii relative la valorile (continue sau discrete) ale altor variabile (numite variabile de decizie); - descriptive (bazate pe invatare nesupervizata), destinate extragerii unor patternuri (structuri inteligibile) din date. Spre deosebire de modelele predictive clasice, a caror constructie se face prin tehnici de estimare parametrica proprii statisticii inferentiale, modelele predictive bazate pe inteligenta artificiala se construiesc in cadrul unei faze de antrenare, prin care modelul invata sa prezica raspunsul potrivit (decizia), cand la intrare se prezinta diverse seturi de valori ale predictorilor. Dupa consumarea fazei de antrenare, modelul poate fi folosit in predictie, pentru a rezolva, dupa caz, fie probleme de clasificare (daca variabila de decizie este nominala sau discreta), fie probleme de regresie (daca variabila de decizie este continua). Prin contrast, metodele descriptive (precum cele de clustering) trateaza uniform variabilele, fara sa distinga intre predictori si raspuns (decizie), ca atare invatarea nu este supervizata (in sensul invatarii din exemple, adica al furnizarii de raspunsuri in cadrul fazei de training). Data Mining se afla in prezent la confluenta mai multor tendinte teoretice cu care are largi zone comune. Dezvoltarea pe scara larga a tehnologiilor bio-mimetice (Retele Neuronale, Algoritmi Genetici) a produs interferente majore, multe metode Data Mining asimiland practic noile tehnologii. Coagularea unor noi paradigme computationale, precum Soft Computing, sau Granular Computing, au contribuit decisiv la reconfigurarea domeniului. Soft Computing defineste clasa tehnicilor de calcul flexibile, ce manifesta toleranta pentru imprecizie, incertitudine si adevar partial, intr-o maniera similara limbajului sau rationamentului uman in situatii comune. Ea creaza cadrul formal pentru integrarea tehnologiilor bio-mimetice amintite mai sus cu Teoria Multimilor Fuzzy si Logica Fuzzy, dar si pentru abordarile hibride ce emerg din acestea: Neuro-Fuzzy, Neuro-Genetice, Fuzzy-Genetice. Modelele functionale clasice ale dependentelor neliniare presupun specificarea ex-ante a formei functionale. Flexibilitatea Retelelor Neuronale sau a Sistemelor de Inferente Fuzzy consta in relaxarea acestei cerinte, de multe ori prea stringenta, si inlocuirea ei cu criterii mai usor de specificat: precizarea arhitecturii retelelor neuronale, respectiv alegerea partitiilor fuzzy si setarea sau acordarea parametrilor functiilor de apartenenta. In plus, aceste tehnologii de modelare au caracteristici structurale care le permit sa capteze neliniaritatile sistemelor reale, datorita calitatii lor intrinseci de a fi aproximatori universali (adica de a estima orice functie calculabila pe o multime compacta, daca se furnizeaza suficiente date experimentale si suficienta putere de calcul). De remarcat totodata ca in calitatea lor de modele predictive, Retelele Neuronale si Sistemele de Inferente Fuzzy se pot folosi atat in probleme de clasificare, cat si in probleme de regresie. Algoritmii Genetici sunt bine echipati pentru determinarea minimului sau maximului global in probleme de optimizare neliniara. Desi nu reprezinta in sine metode Data Mining, ei pot juca totusi un rol important in ghidarea procesului de invatare in cadrul unor configuratii hybride (Neuro-Genetice, sau Fuzzy-Genetice). De exemplu, Algoritmii Genetici pot inlocui mecanismul de propagare inapoi ca o cale de a ajusta ponderile unei Retele Neuronale, sau alternativ, pot fi utilizati pentru a gasi arhitectura optima a retelei, caz in care cromozomii contin numarul de straturi ascunse si numarul de neuroni in fiecare strat. Analog, ele se pot utiliza pentru a cauta cel mai bun model fuzzy in spatiul solutiilor, prin ajustarea optima a dimensiunii si formei partitiilor fuzzy. Hibridizarea Neuro-Fuzzy (al carei reprezentant notoriu este ANFIS), aplica tehnici de invatare neurale pentru setarea parametrilor unui sistem de inferente fuzzy. ANFIS este o retea adaptiva ce implementeaza un algoritm de invatare pentru sisteme fuzzy de tip Sugeno. Algoritmul permite nu doar identificarea parametrilor din consecintele regulilor fuzzy, dar si acordarea fina a parametrilor functiilor de apartenenta din premizele acelorasi reguli. Tehnici flexibile
se pot produce si prin generalizarea unor algoritmi clasici de invatare supervizata: se poate construi, de exemplu extensia fuzzy a arborilor de decizie (frecvent utilizati in clasificare). Pentru predictia unei variabile de decizie continua se pot utiliza Arborii de Regresie. Pentru probleme de clasificare se mai utilizeaza metode precum: K-Nearest Neighbor, Support-Vector Machines, etc. Lor li se adauga metodele clasice de tipul Regresiei Logistice, sau Analizei Discriminante. O serie de tehnici conexe (Bagging, Arching, Boosting) au fost introduse in legatura cu modelelor predictive pentru imbunatatire acuratetei algoritmilor de invatare. In principiu, ele se bazeaza pe aplicarea repetata a algoritmului de invatare unor seturi de date obtinute prin reesantionare, cu ajustarea distributiei acestora pentru a mari rata de invatare in cazul exemplelor dificil de clasificat. Validarea metodelor de clasificare se face utilizand date de test si masuri ale puterii predictive bazate pe rata erorilor de clasificare. Intre procedurile de validare amintim: validare holdout (partitionare binara a bazei de date: una de invatare si alta de test); validare incrucisata (k-fold cross validation) bazata pe partitionarea datelor in k subesantioane si validare incrucisata circulara. Tehnicile de invatare nesupervizata cuprind in mod esential metode de tip Clustering. Ele reprezinta o modalitate de a crea grupe de obiecte (clustere), astfel incat obiectele din acelasi cluster sa aiba profile similare (omogenitate intra-cluster), iar obiectele din clustere diferite sa aiba profile distincte (eterogenitate inter-clustere). Exista numeroase tipuri de algoritmi de clusterizare. Cei ierarhici construiesc o ierarhie (arbore) de clustere, ce se poate reprezenta grafic printr-o dendrograma. La randul lor, algoritmii ierarhici se impart in aglomerativi (bottom-up: noile clustere se formeaza recursiv, prin agregarea clusterelor cu grad maxim de similaritate), respectiv divizivi (top-down: plecand de la un cluster ce reuneste toate obiectele, se procedeaza la divizari succesive pentru a produce noi clustere cu grad maxim de disimilaritate). O alta categorie de algoritmi de clusterizare sunt cei de partitionare: bazati pe realocarea partitiilor (K-means, K-medoids, etc.); probabilistici (mixturi de distributii: SNOB, AUTOCLASS, MCLUST); bazati pe densitate si conectivitate, etc. O directie de dezvoltare efervescenta o reprezinta algoritmii de clusterizare fuzzy. Acestia definesc clustere pe baza unor partitii fuzzy, in care tranzitia intre clustere este graduala. Exemple notabile sunt: Fuzzy C-means (utilizeaza distanta Euclidiana pentru a induce clustere hipersferice); GustafsonKessel; Gath-Geva. Ultimele doua metode utilizeaza distante non-Euclidiene pentru a produce clustere non-hipersferice. Invatarea nesupervizata poate fi abordata si cu un tip special de retele neuronale: retelele Kohonen, sau SOM (Self-Organizing Map). Acestea au o arhitectura ce aplica un spatiu de intrare multidimensional intr-o latice regulata de celule, al carei ordin este inferior dimensiunii spatiului de intrare. Retelele SOM incearca sa gaseasca clustere astfel incat orice doua clustere ce sunt apropiate una de alta in spatiul grila de iesire, au drept corespondent clustere apropiate in spatiul de intrare. Numarul si compozitia clusterelor poate fi vizual determinata pe baza distributiei de iesire generata in cursul procesului de antrenare a retelei. Exista numeroase masuri pentru testarea validitatii procedurilor de clusterizare: indicele Dunn, indicele Beni si Xie, indice de separatie, indice bazat pe entropie, etc. O problema importanta in cazul bazelor de date de mari dimensiuni este reducerea dimensionalitatii. Ea consta in proiectia datelor pe un subspatiu de dimensiune redusa, ales astfel incat sa conduca la o pierdere minima de informatie. Reducerea dimensionalitatii ofera totodata posibilitatea vizualizarii structurilor cognitive (clusterelor) in 2D sau 3D. Procedurile tipice in acest scop sunt Analiza Componentelor Principale si metoda lui Sammon. 3. Cteva aplicaii ale metodelor data mining n e-business Marketingul Direct. Pietele actuale sunt supuse unui rapid proces de globalizare, caracteristicile competitive ale produselor si serviciilor sunt aproape identice, iar prezenta pe piata a ofertantilor este masiva. Datorita dimensiunii si complexitatii acestor piete, marketingul de masa a devenit tot mai scump, deci neprofitabil, fiind inlocuit cu marketingul direct, bazat pe selectarea grupurilor tinta de clienti si stabilirea de interactiuni individualizate cu acestia pe multiple canale de comunicare. Noul model de relationare cu consumatorii potentiali presupune in schimb tehnici complexe de segmentare a pietelor, stabilrea profilului (modelarea comportamentului) clientilor si inducerea de strategii persuasive pentru atragerea sau mentinerea (fidelizarea) lor, dar si pentru recastigarea celor ce migreaza spre alti
ofertanti. Rezultatul a fost repozitionarea strategica a companiilor, a caror orientare produs-centrica s-a transformat rapid intr-una client-centrica. Pentru a pune in practica noile strategii, firmele s-au vazut din ce in ce mai mult obligate sa apeleze la tehnologiile comunicarii si informatiei (ICT) si metodele de procesare a informatiei menite sa abstraga cunostintele relevante din bazele de date de care dispun si sa le converteasca in decizii profitabile. Managementul (analitic) al relatiilor cu clientii. Managementul relatiilor cu clientii (CRM Customer Relationship Management) are ca obiect elaborarea de strategii pentru atragerea de noi clienti, mentinerea celor existenti si recastigarea celor care au migrat catre un alt ofertant. La nivel operational, CRM include toate activitatile ce privesc contactul direct cu consumatorul. La nivel analitic, CRM furnizeaza metodele pentru analiza caracteristicilor comportamentale ale clientilor, prin analiza datelor obtinute din sistemele de procesare a tranzactiilor. Pe baza cunostintelor astfel induse se stabilesc apoi strategiile de urmat in cadrul activitatilor operationale. Managementul relatiilor cu clentii are 3 obiective majore: - Segmentarea pietei, ce descrie procesul de impartire a consumatorilor in grupe cat mai omogene intern, pe baza similaritatilor manifestate (obiceiuri, gusturi, afinitati, etc.). In schimb, grupele trebuie sa fie cat mai eterogene intre ele. Aceasta permite firmei sa trateze personalizat diversele segmente de clienti si sa se concentreze prioritar asupra grupurilor tinta ce corespund anumitor criterii de profitabilitate. - Stabilirea profilului consumatorului presupune modelarea comportamentului consumatorilor in functie de o paleta larga de atribute: geografice; culturale si etnice; conditii economice, venit si putere de cumparare; frecventa de cumparare, frecventa plangerilor si reclamatiilor, preferintele si gradul lor de satisfacere; varsta; valorile, atitudinile si credintele; ciclul de viata; educatia, nivelul de cultura; stilul de viata; canalele media utilizate; metoda de recrutare la care a raspuns clientul. - Pozitionarea produsului in preferintele (intentiile de cumparare) ale potentialilor clienti este un instrument de marketing centrat pe identificarea celor mai atractive trasaturi ale unui produs, astfel incat sa maximizeze tentatia cumparatorului de a-l achizitiona. Ambele categorii de metode Data Mining, atat cele descriptive (clustering), cat si cele predictive, sunt necesare pentru atingerea obiectivelor de mai sus. Variabilele ce definesc profilul consumatorilor servesc pentru a determina masurile de similaritate / disimilaritate in raport cu care se construiesc segmentele. In afara rolului jucat in clusterizare, ele joaca si rolul de predictori, in functie de care se induc regulile de decizie asociate strategiilor de marketing. Regulile ajuta apoi la inferarea de concluzii relative la o variabila de decizie. Pentru identificarea segmentelor se pot folosi metode asociative, precum Learning Vector Quantization (Kohonen, 1987), sau alte metode combinate: Conjoint Analysis si Descriptive Clustering (Green si Krieger, 1991). Metodele regresive sunt cele mai potrivite atunci cand dorim sa intelegem comportamentul consumatorului, in scopul legarii obiceiului de a cumpara de anumiti predictori. Printre metodele din aceasta clasa ce pot fi utilizate sunt: Clusterwise Regression (Spath, 1979; 1981; 1985), Simulated Annealing (De Sarbo, Oliver and Rangaswamy, 1989), etc. O solutie ce ofera performante superioare poate fi obtinuta prin utilizarea metodelor bio-mimetice. In acest sens putem considera mai multi agenti echipati cu reguli simple, cautarea solutiei facandu-se prin procesare paralela, in vreme ce schimbarea de informatii cu privire la aceasta cautare se poate face cu ajutorul unei retele dense de conexiuni (retea neuronala), sau prin intermediul unui proces evolutiv de selectie si reproducere (algoritm genetic). Un exemplu de aplicare a metodelor bazate pe descoperirea regulilor de asociere sau pe identificarea secventelor de episoade temporale este furnizat de analiza cosului pietei. Fiecare regula de asociere are atasate doua masuri, prima numita suport si notata cu s, a doua numita incredere (confidenta) si notata cu c. Suportul indica frecventa unui pattern (cat de des se asociaza anumite elemente). Atunci cand din totalul tranzactiilor asocierea apare in s% din cazuri, regula se scrie: Daca X si Y, atunci Z cu suportul s. Suportul se calculeaza prin: s ( A B ) = P ( A B ) . Confidenta c desemneaza puterea unei asocieri (cat de mult un element depinde de altul). De exemplu: Daca produsele X si Y sunt in cos, atunci produsul Z este de asemenea in cos in c% din cazuri. Avem:
c( A B) = P ( A B) / P( A) . Pe de alta parte, in cazul seriilor de timp pot apare secvente de episoade cu o anumita succesiune, a caror identificare poate sugera o secventa paralela de decizii. Explorarea datelor WEB (Web Mining), cu aplicatii in e-Comert. Web Mining este procesul de descoperire a cunostintelor prin analiza informatiilor din World Wide Web. Descoperirea se poate referi fie la continut, fie la utilizare. Pentru e-Comert, tehnicile Web Mining au devenit esentiale in managementul electronic al relatiilor cu clientii. Dintre obiectivele Web Mining enumeram: descoperirea regulilor de asociere pentru atragerea clientilor; descoperirea episoadelor secventiale ce ajuta la mentinerea clientilor; inducerea regulilor de clasificare si descoperirea clusterelor pentru vanzari incrucisate. Aplicatiile Web Mining pot colecta date precum: protocoale http, Cookies, fisiere log ale serverelor, date de interogare (query data), numarul vizualizarilor de pagina, al vizitelor, al accesarii reclamelor, timpii de vizualizare, etc. Un log de acces al unui server Web contine o istorie completa a fisierelor accesate de clienti. In intrarea unui log gasim adresa IP, ID-ul utilizatorului, timpul de acces si URL-ul. In e-Comert, campurile tipice pot contine cheile consumatorului, produsului, locatiei, datei si sesiunii, precum si anumite informatii statistice (cantitatea, pretul total, etc.). In e-Comert, descoperirea regulilor de asociere poate ajuta in dezvoltarea unor strategii de marketing efective, precum si in indicarea celui mai bun mod de organizare a spatiului Web al firmelor. Descoperirea secventelor de episoade in log-urile de acces ale serverelor Web permite firmelor sa descopere anumite regularitati in modul de succedare a vizitelor utilizatorilor si le ajuta in stabilirea grupurilor tinta carora li se adreseaza actiunile de publicitate. Cat priveste metodele de clasificare, acestea pot fi utilizate pentru generarea profilului elementelor ce apartin unui grup tinta particular, potrivit atributelor acestora. Profilul poate fi apoi utilizat pentru a clasifica noi elemente ce intra in baza de date. In Web Mining, profilul este generat pentru clienti ce acceseaza fisiere particulare ale serverului si se bazeaza pe informatia demografica disponibila despre acei clienti.

0 - Introducere in Data Mining

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

0 - Introducere in Data Mining

Încărcat de

Drepturi de autor:

Formate disponibile

INTRODUCERE N DATA MINING

1. Importana metodelor data mining i a tehnologiilor web pentru mediul e-business

2. Prezentare general a metodelor data mining

S-ar putea să vă placă și