P. 1
curs1 Data Mining

curs1 Data Mining

|Views: 12|Likes:
Published by Turcik
curs1 Data Mining
curs1 Data Mining

More info:

Categories:Types, Presentations
Published by: Turcik on Dec 29, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/18/2015

pdf

text

original

Introducere ˆ ın Data Mining

Curs 1: Prezentare general˘ a Lucian Sasu, Ph.D.
Universitatea Transilvania din Bra¸ sov, Facultatea de Matematic˘ a¸ si Informatic˘ a

March 1, 2012

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

1 / 42

Outline

1

Bibliografia recomandat˘ a Bibliografie pentru curs Bibliografie pentru laborator Data Mining - introducere Definit ¸ii, exemple ¸ si motivat ¸ie Data Mining ¸ si Knowledge Discovery Puncte de dificultate Originile DM Tipuri de aplicat ¸ii DM

2

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

2 / 42

Bibliografie pentru curs

1

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliografie pentru curs

1

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001

2

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Addison-Wesley. Hand.org (UNITBV) Curs 1 March 1. 2011 2 3 lucian. 2001 Jiawei Han.. 2012 3 / 42 . Michael Steinbach. Jian Pei: Data Mining: Concepts and Techniques. 3rd ed.Bibliografie pentru curs 1 Pang-Ning Tan. 2006 David J. Vipin Kumar: Introduction to Data Mining. MIT Press. Micheline Kamber. Morgan Kaufmann Publishers.sasu@ieee. Heikki Mannila and Padhraic Smyth: Principles of Data Mining.

2nd edition. Inference. Robert Tibshirani. Addison-Wesley. Jian Pei: Data Mining: Concepts and Techniques. MIT Press. 2012 3 / 42 . Springer 2009. Jerome Friedman: The Elements of Statistical Learning: Data Mining. Micheline Kamber. Vipin Kumar: Introduction to Data Mining. and Prediction. 2011 Trevor Hastie. 3rd ed.. Heikki Mannila and Padhraic Smyth: Principles of Data Mining. Michael Steinbach. Morgan Kaufmann Publishers.Bibliografie pentru curs 1 Pang-Ning Tan. Hand. 2001 Jiawei Han.org (UNITBV) Curs 1 March 1.sasu@ieee. liber˘ a la download 2 3 4 lucian. 2006 David J.

2012 4 / 42 .sasu@ieee.Bibliografie pentru laborator lucian.org (UNITBV) Curs 1 March 1.

2012 4 / 42 .Bibliografie pentru laborator 1 2 http://rapidminerresources.com http://rapid-i.sasu@ieee.com/content/view/36/209/lang.org (UNITBV) Curs 1 March 1.en/ lucian.

com http://rapid-i. Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques.org (UNITBV) Curs 1 March 1. 2nd edition.en/ Ian H.sasu@ieee.Bibliografie pentru laborator 1 2 3 http://rapidminerresources. 2005 lucian. Morgan Kaufmann. 2012 4 / 42 .com/content/view/36/209/lang. Witten.

org (UNITBV) Curs 1 March 1. clustering. and visualization. Download de aici Weka is a collection of machine learning algorithms for data mining tasks. lucian. regression. It is also well-suited for developing new machine learning schemes. The algorithms can either be applied directly to a dataset or called from your own Java code. association rules.sasu@ieee. classification. Weka contains tools for data pre-processing.Unelte folosite la laborator (1) Weka: Data Mining Software in Java. 2012 5 / 42 .

sasu@ieee.NET via ikvm.net. and visualization. poate fi folosit din GUI sau prin API-ul expus.org (UNITBV) Curs 1 March 1. association rules. posibil s˘ a se apeleze din . It is also well-suited for developing new machine learning schemes. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing. clustering. classification.Unelte folosite la laborator (1) Weka: Data Mining Software in Java. lucian. Software multiplatform˘ a dezvoltat ˆ ın Java. regression. Download de aici Weka is a collection of machine learning algorithms for data mining tasks. 2012 5 / 42 .

sasu@ieee. data and meta data handling. . 2012 6 / 42 . Analytical ETL.umn. and data visualization methods [. data modeling.kdnuggets.com/software/index. the data analysis solution RapidMiner. http://www.Unelte folosite la laborator (2) RapidMiner Community Edition The main product of Rapid-I.com/polls/2010/data-mining-analytics-tools. dar neabordate la laborator: http://www. and Reporting.htm lucian. Data Analysis.edu/˜kumar/dmbook/resources. is the world-leading open-source system for data and text mining.html.org (UNITBV) Curs 1 March 1.kdnuggets. data transformation. Hundreds of data loading. . ] Alte softuri larg folosite. Repositories for process.cs.html http://www-users. graphical user interface for the design of analysis processes. Mecanisme: Data Integration.

sasu@ieee.introducere Definit ¸ii. exemple ¸ si motivat ¸ie Data Mining ¸ si Knowledge Discovery Puncte de dificultate Originile DM Tipuri de aplicat ¸ii DM 2 lucian.org (UNITBV) Curs 1 March 1. 2012 7 / 42 .Outline 1 Bibliografia recomandat˘ a Bibliografie pentru curs Bibliografie pentru laborator Data Mining .

de regul˘ a sub forma de modele ¸ si ¸ sabloane de cunoa¸ stere (Schapiro et al).sasu@ieee.Definit ¸ii Definit ¸ie Data Mining este procesul descoperirii (semi)automate a informat ¸iilor utile ˆ ın depozite mari de date (Tan et al). anterior necunoscute. Definit ¸ie Data Mining este analiza seturilor de date – deseori de dimensiuni mari – rezultate prin observat ¸ii pentru a g˘ asi relat ¸ii noi ¸ si pentru sumarizarea datelor ˆ ın moduri care sunt atˆ at u¸ sor de ˆ ınt ¸eles cˆ at ¸ si utile celui ce det ¸ine datele (Hand et al).org (UNITBV) Curs 1 March 1. lucian. interesante ¸ si potent ¸ial utile din date. Definit ¸ie Data mining este procesul netrivial de extragere a informat ¸iei implicite. 2012 8 / 42 .

lucian.sasu@ieee. g˘ asirea paginilor web care cont ¸in anumit ¸i termeni. Acestea sunt activit˘ a¸ ti de reg˘ asire a informat ¸iei.Termeni alternativi: mineritul cuno¸ stint ¸elor din date extragere de cuno¸ stint ¸e (eng: Knowledge Discovery) – sinonim discutabil analiza date/¸ sabloane Ce NU e Data Mining: g˘ asirea datelor complete privind o persoan˘ a folosind interogare ˆ ıntr–o baz˘ a de date.org (UNITBV) Curs 1 March 1. 2012 9 / 42 .

com.org (UNITBV) Curs 1 March 1. O’Reilly ˆ ın zona Boston. O’Rurke. gruparea client ¸ilor pe baza unui profil de consum comun.sasu@ieee.yippi. lucian.com. gruparea paginilor dintr-un motor de c˘ autare pe baza similarit˘ a¸ tilor: motorul search. predict ¸ia evolut ¸iei preturilor la bilete de avion: farecast.Ce poate fi Data Mining: s˘ a descoperi c˘ a anumite nume sunt mai frecvente ˆ ın unele zone: O’Brien. 2012 10 / 42 .

Clustering de pagini web in Yippi lucian.sasu@ieee. 2012 11 / 42 .org (UNITBV) Curs 1 March 1.

sasu@ieee.Farecast: s˘ a cump˘ ar sau nu acum un bilet de avion? lucian.org (UNITBV) Curs 1 March 1. 2012 12 / 42 .

org (UNITBV) Curs 1 March 1. carduri de debit/credit Calculatoarele au devenit tot mai ieftine ¸ si mai puternice. 2012 13 / 42 . lucian. comert ¸ electronic cump˘ ar˘ aturi ˆ ın magazine/lant ¸uri de desfacere tranzact ¸ii financiare.sasu@ieee.De ce Data Mining: din punctul de vedere al afacerilor (1) O mult ¸ime de date sunt colectate ¸ si depozitate prin sisteme de data warehouse date din Web. procesarea distribuit˘ a este ceva comun.

fraud detection Probleme stringente: “Care sunt cei mai profitabili client ¸i?”. .sasu@ieee. targetted marketing.org (UNITBV) Curs 1 March 1. . “Care produse cump˘ arate atrag achizit ¸ia altor produse?”. “Care va fi evolut ¸ia companiei/piet ¸ei pe segmentul .De ce Data Mining: din punctul de vedere al afacerilor (2) Presiunea impus˘ a de competit ¸ie este motivant˘ a: aducerea unui nou client ˆ ıntr–o ret ¸ea de telefonie este de pˆ an˘ a la 4 ori mai scump˘ a decˆ at p˘ astrarea lui: Customer attrition Cerint ¸e specifice mediului de afaceri: customer profiling. “Care sunt ni¸ sele de piat ¸˘ a?” lucian. ?”. 2012 14 / 42 .

lucian. inginerie ¸ si ¸ stiint ¸˘ a se acumuleaz˘ a rapid date ce trebuie exploatate pentru a duce la noi descoperiri. determinarea genelor care cauzeaz˘ a diferite afect ¸iuni. se dore¸ ste decodificarea complet˘ a a genomului uman.org (UNITBV) Curs 1 March 1. Exemplu: dezvoltarea de sisteme de satelit ¸i pentru observat ¸ii climatice. ˆ ınt ¸elegerea structurii ¸ si funct ¸ionalit˘ a¸ tii genelor. Date genetice generate prin “microarrays”.sasu@ieee. DM e unealt˘ a de baz˘ a pentru bioinformatic˘ a = “aplicarea statisticii ¸ si a informaticii ˆ ın domeniul biologiei moleculare”.De ce Data Mining: din punct de vedere ¸ stiint ¸ific ˆ In domenii precum medicina. 2012 15 / 42 .

480.org (UNITBV) Curs 1 March 1. 2012 16 / 42 .507 rating-uri date de 480.kdnuggets.770 filme KDDCup: 2012: User Modeling based on Microblog Data and Search Click Data 2011: Recomandare de muzic˘ a 2010: Evaluarea performant ¸elor student ¸ilor 2009: Predict ¸ia relat ¸iei cu client ¸ii 2008: Cancer de sˆ an 2007: Netflix prize 2006: embolism pulmonar din date tomografice 2005: clasificarea interog˘ arilor de Internet 2004: fizica particulelor ¸ si biochimie 2003: mineritul ret ¸elelor ¸ si analiza log-urilor competit ¸ia merge pˆ an˘ aˆ ın 1997 Alte competit ¸ii — www.Competit ¸ii Neflix prize: 100.189 utilizatori pentru 17.sasu@ieee.com lucian.

org (UNITBV) Curs 1 March 1. XML. imagini. lucian. date semistructurate (e.sasu@ieee. Procesul const˘ aˆ ıntr–o succesiune de pa¸ si: Datele de intrare se pot g˘ asi ˆ ıntr-o larg˘ a varietate de formate: fi¸ siere text. 2012 17 / 42 .Pa¸ sii unui proces de extragere de cuno¸ stint ¸e (1) Data Mining este parte integrant˘ a a domeniului Knowledge discovery in databases (KDD). HTML). care e un ˆ ıntreg proces de conversie a datelor primare ˆ ın cuno¸ stint ¸e (informat ¸ie). filme etc.g. baze de date relat ¸ionale.

Preprocesarea ¸ si transformarea pot include: selectarea dimensiunilor. lucian. Partea de Data Mining se face printr–o varietate de tehnici. normalizarea.g. La final. reducerea dimensionalit˘ a¸ tii. vizualizare sau reguli de forma “if–then”). sau integrate ˆ ın alte sisteme (e. cuno¸ stint ¸ele rezultate sunt post–procesate (e. se elimin˘ a rezultatele invalide sau neinteresante) ¸ si trebuie prezentate ˆ ıntr–o form˘ a inteligibil˘ a factorilor de decizie (e.g.sasu@ieee. deseori se testeaz˘ a mai multe metode. sistemele utilizate pentru detectare de fraude). 2012 18 / 42 .Pa¸ sii unui proces de extragere de cuno¸ stint ¸e (2) Datele se selecteaz˘ a din multitudinea de surse. Preprocesarea ¸ si transformarea pot lua chiar ¸ si 60% din durata total˘ a a unui proces de extragere a cuno¸ stint ¸elor. tratarea datelor incomplete.org (UNITBV) Curs 1 March 1.g.

economist).sasu@ieee. dependent de cuno¸ stint ¸ele anterioare. Limitarea complexit˘ a¸ tii modelelor folosite ˆ ın procesul de DM: “If you torture the data long enough. you will find a pattern that “fits”.Atent ¸ie la ce se obt ¸ine Tehnici folosite la preprocesare: testarea ipotezelor prin metode statistice – se elimin˘ a rezultatele nerealiste.org (UNITBV) Curs 1 March 1. Principiul lui Bonferroni: if you look harder than the quantity of data supports. 2012 19 / 42 . lucian. it will confess” (Ronald Harry Coase. Eliminarea cuno¸ stint ¸elor “neinteresante” — element subiectiv.

2012 20 / 42 . a “descoperit” c˘ a aproximativ 1/1000 din oameni au ghicit toate cele 10 cartoane a spus oamenilor respectivi c˘ a au abilit˘ a¸ ti extrasenzoriale ¸ si i-a chemat pentru alte experimente la un nou experiment.sasu@ieee. “experimentul” lui Rhine: a cerut unor oameni s˘ a ghiceasc˘ a culorile a 10 cartona¸ se ascunse – se ¸ stiau cele dou˘ a posibilit˘ a¸ ti: ro¸ su ¸ si albastru. oamenii de la pasul anterior nu au mai ghicit aproape deloc culoarea cartoanelor. “Concluzia”: lucian.org (UNITBV) Curs 1 March 1.Principiul lui Bonferroni: paradoxul Rhine (1) Joseph Rhine: parapsiholog ˆ ın anii ’50 care a ˆ ıncercat s˘ a dovedeasc˘ a faptul c˘ a unii oameni au percept ¸ie extra-senzorial˘ a.

sasu@ieee. lucian.Principiul lui Bonferroni: paradoxul Rhine (2) Nu ar fi trebuit s˘ a le spun˘ a oamenilor c˘ a au capacit˘ a¸ ti extra-senzoriale: asta ˆ ıi face s˘ a¸ si le piard˘ a!! Un calcul probabilistic simplu arat˘ a c˘ a raportul de aproximativ 1/1000 poate fi explicat prin evenimente aleatoare ¸ si legea numerelor mari.org (UNITBV) Curs 1 March 1. 2012 21 / 42 . Cunoa¸ sterea principiului lui Bonferroni poate s˘ a salveze de astfel de “descoperiri”.

org (UNITBV) Curs 1 March 1. problem˘ a de descoperire de medicamente: 100000 de atribute. stabilirea reputat ¸iei URL-urilor: 3231961 de atribute Experimentul “Compact Muon Solenoid” la CERN’s Large Hadron Collider genereaz˘ a 40 de terabytes de date pe secund˘ a. proiectul genomului uman: 3.4 miliarde de perechi ¸ si ˆ ıntre 20000 ¸ si 25000 gene. 2012 22 / 42 .Scalabilitatea ¸ si dimensiunea datelor seturile de date ajung u¸ sor la dimensiuni de giga/tera/peta–bytes.sasu@ieee. France Telecom are o baz˘ a de date folosit˘ a pentru luarea deciziilor de 30 TB Wal-Mart are 20 de milioane de tranzact ¸ii pe zi. 16 telescoape europene produc 1 Gb pe secund˘ a. lucian.

org (UNITBV) Curs 1 March 1.Scalabilitatea ¸ si dimensiunea datelor (2) variante: structuri de date specifice. scalarea pe vertical˘ a: rareori suficient˘ a. care s˘ a u¸ sureze interogarea datelor scalarea pe orizontal˘ a sau pe vertical˘ a a resurselor hardware. datele nu ˆ ıncap ˆ ın RAM scalarea pe orizontal˘ a – cazuri remarcabile: Apache Hadoop.sasu@ieee. 2012 23 / 42 . lucian. Apache Mahout — proiecte open–source.

Date eterogene ¸ si complexe atribute eterogene: numerice. serii de timp tehnicile de DM trebuie s˘ a ia ˆ ın considerare relat ¸iile dintre date (corelat ¸ie spat ¸ial˘ a¸ si temporal˘ a. 2012 24 / 42 . ce faci cu datele lips˘ a? eliminarea ˆ ınregistr˘ arilor cu goluri de date nu e ˆ ıntotdeauna o opt ¸iune.sasu@ieee. lucian.org (UNITBV) Curs 1 March 1. categoriale. pagini Web). colect ¸ii de documente (e.g. date ADN cu structur˘ a spat ¸ial˘ a¸ si secvent ¸ial˘ a. relat ¸ie p˘ arinte–copil). conectivitate de grafuri.

nu doar ˆ ıntr–o organizat ¸ie.sasu@ieee.Gestiunea ¸ si distribuirea datelor datele pot fi prezente ˆ ın locat ¸ii multiple. necesitate: DM distribuit sau suport de tip Data Warehouse ˆ ın caz de distribuire: comunicarea necesar˘ a poate s˘ a domine timpul de calcul ˆ ın caz de data warehouse: integrarea datelor necesit˘ a timp ˆ ındelungat “data privacy”: problem˘ a delicat˘ a. diferite aspecte legislative pot interveni lucian.org (UNITBV) Curs 1 March 1. 2012 25 / 42 .

inferent ¸a statistic˘ a etc.org (UNITBV) Curs 1 March 1. Dar statistica ofer˘ a unelte utile – de exemplu metode de testare. lucian. determinarea intervalelor de confident ¸˘ a. Problem˘ a evident˘ a: procesul este laborios DM are ca scop tocmai determinarea pe cˆ at posibil automat˘ a a astfel de ipoteze.Analiz˘ a nestandard Statistica: enuntarea de ipoteze ¸ si apoi testarea lor.sasu@ieee. ˆ In timp ce statistica este ˆ ın mare m˘ asur˘ a tributar˘ a modelelor parametrice. 2012 26 / 42 . datele reale pot avea cu totul alte distribut ¸ii decˆ at cele presupuse.

org (UNITBV) Curs 1 March 1. estimare. Calcul paralel—distribuit — pentru a rezolva problema scalabilit˘ a¸ tii aplicat ¸iilor de DM. modele parametrice. Inteligent ¸˘ a artificial˘ a — tehnici de rat ¸ionament probabilist ¸ si management al incertitudinii ˆ Inv˘ a¸ tare automat˘ a (machine learning) — pornind de la date se creeaz˘ a modele adecvate Recunoa¸ stere de ¸ sabloane (pattern recognition) Sisteme de baze de date – suport pentru stocarea (eventual distribuit˘ a a ) datelor. 2012 27 / 42 . probleme pot ap˘ area din cauz˘ a c˘ a nu toate datele se pot reprezenta u¸ sor sub model relat ¸ional. lucian.sasu@ieee. testarea ipotezelor.Originile DM Statistic˘ a – e¸ santionare.

e. 2012 28 / 42 . anomalii lucian. Descrierea — determinarea de ¸ sabloane.g. tendint ¸e. grup˘ ari. traiectorii. corelat ¸ii.sasu@ieee.Sunt dou˘ a categorii majore de aplicat ¸ii: Predict ¸ia — scopul e de a prezice valoarea concret˘ a a unui atribut pe baza altor atribute. cele care se folosesc pentru predict ¸ie sunt variabile independente sau explicative.org (UNITBV) Curs 1 March 1. Atributul ce urmeaz˘ a a fi prezis se nume¸ ste variabil˘ a dependent˘ a sau ¸ tint˘ a.

org (UNITBV) Curs 1 March 1.Clasificare — predict ¸ie Grupare (Clustering) — descriere Determinarea relat ¸iilor de asociere — descriere Descoperirea ¸ sabloanelor secvent ¸iale — descriere Regresie — predict ¸ie Detectarea deviat ¸iilor — predict ¸ie lucian.sasu@ieee. 2012 29 / 42 .

lucian. 2012 30 / 42 . a unei funct ¸ii) care s˘ a determine clasa pe baza atributelor.org (UNITBV) Curs 1 March 1. risc mare/risc moderat/risc mic.Clasificarea: definit ¸ie Se pleac˘ a de la o colect ¸ie de ˆ ınregistr˘ ari = setul de antrenare Fiecare ˆ ınregistrare e format˘ a din atribute.sasu@ieee. Scopul este g˘ asirea unui model (a unui mecanism. Modelul trebuie s˘ a fac˘ a o clasificare cˆ at mai fidel˘ a pentru ˆ ınregistr˘ ari care nu fac parte din setul de test = date din setul de testare. dintre care unul este “clasa”: bun/rau.

2012 31 / 42 .Clasificarea: exemplu lucian.org (UNITBV) Curs 1 March 1.sasu@ieee.

sasu@ieee.org (UNITBV) Curs 1 March 1. asta d˘ a clasa unei ˆ ınregistr˘ ari. 2012 32 / 42 . se folosesc aceste date pentru a construi un clasificator. lucian. istoricul tranzact ¸iilor etc. ca valoare posibil˘ a din mult ¸imea {a cump˘ arat.Clasificarea: aplicat ¸ia 1 Marketing direct: scopul: reducerea costurilor de trimitere a reclamelor prin po¸ st˘ a prin alegerea unui set de consumatori pentru care ¸ sansele de achizit ¸ie a unui produs sunt mari modalitate de lucru: se pleac˘ a de la produse similare pentru aceste produse ¸ stim dac˘ a au fost sau nu cump˘ arate de c˘ atre consumatorii ˆ ın cauz˘ a. nu a cump˘ arat} se colecteaz˘ a date demografice despre client ¸i.

se folosesc date demografice: situat ¸ia financiar˘ a. ret ¸elele c˘ atre care s–au efectuat.org (UNITBV) Curs 1 March 1. telefonie: apelurile efectuate. 2012 33 / 42 . se eticheteaz˘ a clientul ca fiind loial sau nu plecˆ and de la acest set de antrenare se creeaz˘ a un clasificator care s˘ a fie utilizat pentru alt ¸i client ¸i lucian.sasu@ieee. durata.g. starea civil˘ a etc. frecvent ¸a).Clasificarea: aplicat ¸ia 2 Prevenirea migr˘ arii clientului: Scop: s˘ a se determine dac˘ a un client al serviciilor oferite este pe cale de a pleca la un competitor modalitate de lucru: se folosesc ˆ ınregistr˘ ari detaliate despre tranzact ¸iile f˘ acute de client (e.

org (UNITBV) Curs 1 March 1.sasu@ieee.pentru fiecare segment se ¸ stie exact ce reprezint˘ a poveste de succes: s–au g˘ asit 16 noi quasari. lucian. caz concret: 3000 imagini cu 23040 x 23040 pixeli pe imagine se segmenteaz˘ a imaginea se m˘ asoar˘ a anumite tr˘ as˘ aturi se construie¸ ste un clasificator plecˆ and de la aceste segmente de imagini cu clase ata¸ sate .Clasificarea: aplicat ¸ia 3 Clasificarea obiectelor cere¸ sti Scop: s˘ a se prezic˘ a clasa unor obiecte cere¸ sti pe baza imaginilor luate de telescoape modalitate de lucru: se pleac˘ a de la o colect ¸ie de imagini. 2012 34 / 42 . elemente greu de descoperit ¸ si catalogat prin mijloace tradit ¸ionale.

stadiu final. de vˆ arst˘ a medie. Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere. set de date: 20 de milioane de galaxii.org (UNITBV) Curs 1 March 1. caracteristicile lungimilor de und˘ a primite etc. sursa: http://aps.edu lucian.Clasificarea: aplicat ¸ia 4 Clasificarea galaxiilor ˆ ın: galaxii tinere. vechi. de nivel intermediar. 72 de milioane de stele baza de date de 150 GB atribute: tr˘ as˘ aturi extrase din imagini.sasu@ieee. 2012 35 / 42 .umn.

2012 36 / 42 . fiecare avˆ and un set de atribute ¸ si o m˘ asur˘ a de similaritate.sasu@ieee.org (UNITBV) Curs 1 March 1.Clustering: definit ¸ie Dˆ andu–se un set de puncte. s˘ a se g˘ aseasc˘ a grup˘ ari (cluster–e) cu proprietatea: punctele care apart ¸in unui aceluia¸ si cluster sunt similare ˆ ıntre ele punctele din clustere separate sunt mai put ¸in similare m˘ asur˘ a de similaritate: distant ¸a Euclidian˘ a sau alte m˘ asuri specifice deosebire fat ¸˘ a de clasificare: printre atributele considerate nu exist˘ a un atribut de clas˘ a lucian.

sasu@ieee. lucian. utilitate: detectare de plagiate. c˘ autare de documente similare etc. 2012 37 / 42 .org (UNITBV) Curs 1 March 1.Clustering: exemplu Gruparea automat˘ a de documente scop: g˘ asirea grupurilor de documente care sunt similare pe baza termenilor pe care ˆ ıi cont ¸in modalitate de lucru se contorizeaz˘ a cuvintele se formeaz˘ a o m˘ asur˘ a de similaritate ˆ ıntre documente pe baza frecvent ¸elor pe baza similarit˘ a¸ tii se formeaz˘ a grupurile utilitate: pentru un nou document se descoper˘ a rapid care este clusterul c˘ aruia ˆ ıi apart ¸ine ˆ ın mod natural.

Analiza asocierilor: definit ¸ie Dˆ andu–se un set de colect ¸ii de ˆ ınregistr˘ ari.sasu@ieee. s˘ a se produc˘ a regulile de dependent ¸˘ a care prezic aparit ¸ia unui item pe baza aparit ¸iei altor itemi lucian.org (UNITBV) Curs 1 March 1. 2012 38 / 42 .

echiparea ma¸ sinilor care particip˘ a la reparat ¸ii cu anumite unelte. 2012 39 / 42 .sasu@ieee. ˆ ın funct ¸ie de aceste grup˘ ari se poate specula partea de cross-selling (ieftine¸ sti un produs dar ˆ ıl scumpe¸ sti pe un altul) sau dispunerea pe raft a lor (cele care se vˆ and ˆ ımpreun˘ a s˘ a fie dispuse apropiat).org (UNITBV) Curs 1 March 1. pentru a reduce num˘ arul de deplas˘ ari la client lucian.Analiza asocierilor: exemple g˘ asirea grupurilor de gene care au funct ¸ii ˆ ınrudite identificarea paginilor Web dintr–un site care sunt accesate ˆ ımpreun˘ a Market Basket Analysis: care sunt produsele care se vˆ and bine ˆ ımpreun˘ a.

2012 40 / 42 . lucian.sasu@ieee. s˘ a se g˘ aseasc˘ a regulile care pot prezice dependint ¸ele secvent ¸iale dintre evenimente. fiecare cu timpul la care apare.org (UNITBV) Curs 1 March 1. Spre deosebire de analiza asocierilor: aparit ¸ia evenimentelor este reglat˘ a de restrict ¸ii de timp.Descoperirea ¸ sabloanelor secvent ¸iale: definit ¸ie Dˆ andu–se un set de obiecte.

exemple Prezicerea unui atribut continuu pe baza unor atribute independente. pe o zon˘ a specificat˘ a lucian. Similar cu clasificarea. prezicerea consumului de curent ˆ ıntr–o anumit˘ a perioad˘ a. 2012 41 / 42 . dar la regresie valorile variabilei dependente sunt numerice Intens studiat˘ aˆ ın statistic˘ a¸ si ret ¸ele neurale artificiale Exemple: prezicerea volumului de vˆ anz˘ ari prezicerea vitezei vˆ antului pe baza umidit˘ a¸ tii.org (UNITBV) Curs 1 March 1. presiunii.sasu@ieee. temperaturii etc.Regresie: definit ¸ie.

org (UNITBV) Curs 1 March 1.sasu@ieee.Detectarea anomaliilor detectarea deviat ¸iilor semnificative de la comportamentul normal aplicat ¸ii: detectarea fraudelor cu card bancar detectarea intruziunilor ˆ ın ret ¸ele de calculatoare lucian. 2012 42 / 42 .

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->