Sunteți pe pagina 1din 69

Teza de licen (UAS)

Programul de masterat n Tehnologia


Informaiei 2011
240S07

Xiao Gang

Aplicarea metodelor data mining

TEZ licen | REZUMAT


TURKU UNIVERSITATEA DIN Programul de
masterat tiine Aplicate | Tehnologia
informaiei 2011-06-07 | 42
Instructor: Wikstrm Yngvar M.Eng

Xiaoli Geng

Aplicarea metodelor data mining


Data mining devine din ce n ce mai important. Scopul acestei teze este de a studia i
de exploatare a datelor de cercetare, pentru a clarifica fundal, cunotinele i metoda
de data mining, i de cercetare unele aplicaii domenii specifice. Scopul este, de
asemenea, de a experimenta cu un software open de exploatare unor date eantion,
pentru a dovedi avantajul i avantajul de data mining.
Aceast tez introduce n primul rnd conceptele de baz ale mining, cum ar fi
definirea de data mining, funcia de baz, metode comune i procesul de baz, precum
i dou metode de minerit de date comun, clasificare i grupare. Apoi, o aplicaie de
data mining n reea este discutat n detaliu, urmat de o scurt introducere privind
aplicarea de data mining n proiecte de afaceri, precum i unele cazuri de succes.
Ultimul capitol prezint pur i simplu o platform de lucru de exploatare a datelor
deschise celebru pe nume WEKA, descrie cunotinele legate de software,
caracteristicile i procesul de lucru, i ia un test simplu de data mining pe baza acestui
software.
Aceasta noua tehnologie elimin informaii inutil i obine informaii utile, iar acest lucru
poate fi utilizat pe scar larg n diferite aplicaii. Data mining pot extrage informaii utile
prin mai multe metode si algoritmi diferite, astfel nct s poat fi aplicat pe mai multe
domenii diferite sau medii diferite.

CUVINTE CHEIE: data mining, informaii utile, clasificarea, cerere

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

PREFA
Vara trecut am primit o sansa de a face internship meu de la Hebei Tehnologie &
Science Management Centre comunicare, alturai unei echipe de lucru pe data mining.
Asta a fost prima dat cnd am atins acest dosar, am nvat o mulime de noi
cunotine i sunt profund interesat de aceasta. Am facut proiectul pentru o companie
de semine, exploatare unele date i statistici, iar apoi au raportat rezultatele la acestea.
Am fost att de norocos pentru a avea ansa de a se altura acestei echipe pentru c
acest proiect are nevoie de gen ntotdeauna o cantitate mare de date reale. Acest lucru
mi-a dat o ans practic de a aplica cunotinele mele de data mining n proiect real,
care a extins aria mea de cunotine n acest domeniu. Aa c atunci cnd am nceput
s fac teza mea, am fcut nite cercetri i studii n acest domeniu, i conectat fundal
teoria cu experiena mea practic apoi a finalizat teza.
Deci, la nceput am nevoie s-i mulumesc pentru a-mi Company fundal, Hebei
Tehnologie & Science Management Centre comunicare, precum i, de asemenea, v
mulumesc pentru mdularele mele echipei de proiect. n al doilea rnd, apreciez ntradevr instructorul meu, domnul Wikstrm Yngvar; i profesorul meu de limb, doamna
Skarli Poppy; i Guider nostru tez, domnul Vnnen Ossi. Pe parcursul activitii
mele teze, toi au dat mult ajutor i sfaturi. V mulumesc pentru toi!
n cele din urm, datorit familiei mele, la tatl meu i pe mama. Fr tine nu am putut
avea ansa de a studia n strintate. Mulumesc!
2011/05/18 Turku
Xiaoli Geng

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

Cuprins:
1

Introduction---------------------------------------------------------------------------------------------

Cunotine de fundal ------------------------------------------------ ------------------------------

2.1

Fundalul i Semnificaia proiectului ------------------------------------------ 7

2.2 Munca majore i obiectivele -------------------------------------------- -------------------

2.3 Structura tezei ------------------------------------------------ ----------------------------------- 9


Metode de exploatare date ----------------------------------------------- -----------------------------10
3.1 Conceptele de baz ale mining ------------------------------------------- -------------

10

3.1.1 Originea mining ------------------------------------------ ------------------- 11


3.1.2 Definiia mining ------------------------------------------ --------------- 11
3.1.3 Funcia de baz a mining ----------------------------------------- --------- 14
3.1.4 comune metode de data mining ----------------------------------------- ---- 15
3.1.5 Procesul de baz de data mining ----------------------------------------- --------- 16
Clasificare i Clustering ----------------------------------------------- ------------------ 18
3.2.1 Metoda de clasificare --------------------------------------------- -------------------- 18
3.2.2 Metoda de clustering --------------------------------------------- ------------------------ 19
3.3 Capitolul Rezumat ----------------------------------------------- -----------------------------21
3.2

4 Datele cerere minerit n reeaua ------------------------------------------- ------------4.1

22

Definiia a traficului de reea --------------------------------------------- --------------- 22

4.2 Proprietile de trafic de reea --------------------------------------------- --------------- 24


4.2.1 Definirea proprietilor ------------------------------------------ ------------ 24
4.2.2 Tipul de proprietate --------------------------------------------- ------------------------------ 25
4.2.3 proprietate flux de reea -------------------------------------------- -------------------- 25
4.3 Clasificarea trafic de reea ----------------------------------------------- ------------------ 26
4.3.1 Definiia clasificare trafic ------------------------------------------ ----- 26
4.3.2 Comparaia cu privire la metoda de clasificare trafic ------------------------ 26
4.3.3 Metoda de clasificare bazat pe introducerea statistic ------------- 28
4.3.4 Decizia de clasificare copac -------------------------------------------- ------------- 29
4.4 Capitolul rezumat ----------------------------------------------- -------------------------------- 30
5 Datele de aplicaii miniere din proiect de afaceri ------------------------------------------- -----32
5.1

Aplicarea afaceri practic a mining -------------------------------------- 32


5.1.1 probleme de afaceri tipice rezolvate de data mining ---------------------------- 32

5.2 Aplicaii de data mining n marketing --------------------------------------------- -------- 32


5.3 Cazuri de succes ----------------------------------------------- ---------------------------------- 33

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

Datele de testare minerit pe WEKA --------------------------------------------- -------------6 ------------34


Introducerea sistemului WEKA ---------------------------------------------- -------------6.1 --34
6.2 Caracteristicile sistemului WEKA -------------------------------------------- ---34
Formatul de fiier al sistemului WEKA ------------------------------------------- ------6.3 ---35
6.4 Interfaa sistemului ----------------------------------------------- --------------------------- 37
Test de proiect ------------------------------------------------ --------------------------------6.5 ----39
7 Conclusion-------------------------------------------------------------------------------------------- 41

LISTA FIGURI
1 Figura 3.1 Cum pot analiza aceste date? -------------------------------------------------- - 11
Date Figura 3.2 Mineritul este similar cu aur miniere ---------------------------------------2 - ------12
3 Tabelul 3-1 diferite definiii ale mining ----------------------------------------- ----------

13

4 Figura 3-1-5 Procesul de baz i etapele majore ale mining ------------------------17


Tabelul 3-2 Principalele comparaii metoda de clusterizare ---------------------------------5 -------- ------2

Figura 4.1 Diferite protocoale de nivel n protocolul TCP / IP -----------------------------6 ---23


Figura 4-2 Tip Proprietate -------------------------------------------- -----------------------------7 -26
8 Figura 6.1 O prob fiier de date pentru WEKA ----------------------------------------- --------------36
9 Figura 6.2 Interfaa de WEKA -------------------------------------------- ---------------------

37

10 Figura 6.3 Interfaa de WEKA ------------------------------------------- --------------------

38

11 Figura 6.4 Rezultatul experimental -------------------------------------------- ----------------- 40

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

1 Introducere
Odat cu dezvoltarea tehnicii de calcul, capacitatea oamenilor de a colecta date i
stocarea datelor a fost mult mbuntit. Cercetare tiinific sau toate domeniile vieii
sociale au acumulat o cantitate mare de date, astfel, analiza acestor date se poate
descoperi informaii utile cuprinse n datele, s devin o nevoie comun n aproape
toate domeniile. Ca urmare, rolul de exploatare a datelor a devenit tot mai important.
Tehnologia mining schimb acestor date n informaii i cunotine utile; informaiile i
cunotinele obinute pot fi utilizate pe scar larg n diverse aplicaii, inclusiv
gestionarea afacerilor, controlul produciei, analiza de marketing, proiectare i
explorare tiin. Prin urmare, data mining este rezultatul firesc evaluare a tehnologiei
informaiei, ceea ce este important.
Aa c am ales acest subiect ca proiectul meu tezei. Am folosit, de asemenea, testul
de proiect de a crea un studiu de caz pe data mining. Aceast tez introduce separat
metoda de data mining i diferite aplicaii pe suprafa, explic impactul mining zilele
noastre, i avantajele acestei tehnologii, i prin testul demonstreaz i arat aceast
tehnologie aliat iconic.
Am citit alte teze similare cu a mea, principalele lucruri despre data mining sunt
metodele miniere i aplicaiile. Pot gsi c principalele i utile metode de exploatare
sunt similare ca am introdus n aceast tez, clasificare i clustering, metodele de
exploatare pe baz de arbore de decizie i aa mai departe. Concluziile finale sunt
exprimate avantajele mining din zilele noastre i noile aplicaii n multe domenii diferite.

Obiectivele tezei mele sunt de a explica ideea principal a mining, si de a invata cateva
metode comune de baz, s pun n aplicare un experiment pentru a verifica
avantajele i funciile de data mining.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

Cunotine 2 Context
2.1 Contextul i semnificaia proiectului
n epoca reea, computere i tehnologii de reea se schimb viaa oamenilor. Deoarece
APARNET a fost stabilit, internetul a cunoscut o dezvoltare rapid. Ea a devenit acum
o facilitate global care acoper aproape fiecare gaura i col de pe aceast planet. Ca
o parte principal a Internetului, protocoale de reea au fost bine dezvoltate pentru a
satisface o gam larg de aplicaii practice. Cu toate acestea, cu extinderea continu a
scar de la ambele servicii i utilizatori, problemele pe care Internetul le are de a face
fa sunt, de asemenea, n cretere.
Datorit utilizarea pe scar larg a sistemelor de gestionare a bazelor de date, datele
sunt piling sus ca timpul trece. Oamenii pot nva de la date, dar corpurile mari de date
sunt, cu excepia cazului, deoarece oamenii au nevoie de date specifice, nu o
unassorted. De-a lungul ultimilor ani, dezvoltarea de descoperire de cunotine n acest
domeniu este n cretere rapid datorit pieelor mari i interesele de cercetare.
Progresul tehnologiei informatice i de colectare a datelor tehnici permite oamenilor de
a colecta i stoca date de la o gam mai larg la o vitez fr precedent. Pe de alt
parte, dei tehnologia modern baz de date ne poate ajuta pentru a stoca cantiti
mari de date cu uurin, nu se poate s ne ajute s analizeze i s neleag de date,
sau reprezint date ntr-o form de informaii uor de neles. n trecut, metoda comun
am folosit pentru dobndirea de cunotine a fost analiz, se filtreaz comparaie, iar
apoi am extras normele de cunoatere i create. Cu toate acestea, ca inginerii de
cunotine au limitri privind cunotinele, astfel nct cunotinele am ctigat va fi
limitat. n prezent, n cazul n care achiziia tradiional cunotine se confrunt cu
depozitul de mare de date, aceasta nu poate face nimic, aa tehnologiei de data mining
a fost creat pentru a rspunde acestor provocri.
Data Mining este procesul de extragere de informaii i cunotine implicite de mare,
incomplete, zgomotos, neclare, date aleatoare de aplicare practic, oamenii nu tiu n
avans, dar care este potential util [1, 2].
Motivul pentru extragerea de date are o mare importan n industria de informaii este
cauza cantiti mari de date trebuie s fie schimbat la informaii utile care pot fi uor de
neles de ctre oameni, i ei, de asemenea, pot fi utilizate pe scar larg n diverse
aplicaii, inclusiv managementul afacerilor, producie control, analiz de marketing,
inginerie

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

design i explorare tiin. Prin urmare, data mining este rezultatul firesc evaluare a
tehnologiei informaiei, ceea ce este important.

2.2

Munca i obiectivele majore

Algoritmi data mining au devenit un sistem de tehnologie imens dup ani de dezvoltare.
Acest lucru implic amestecarea diferitelor discipline i un numr mare de algoritmi i
funcii diferite instrumente. Unul din obiectivele de baz ale acestui proiect este de a
studia tehnicile de data mining, citii materiale de data mining aferente, s neleag
conceptele de baz i metodologia general, apucai metodele comune i pentru a
realiza algoritmul preliminar, n special s stpneasc clasificare, gruparea i selecia
facilitate algoritm. Un alt obiectiv este de a studia crile i materialele legate de data
mining, citii ziarele legate de reea clasificare de trafic bazat pe tehnologia de data
mining, s se familiarizeze cu fluxul de reea de curent, afla stadiul de dezvoltare i
rolul de data mining n societatea modern, s nvee tehnologia de aplicare data
mining n reea i modul de aplicare n probleme de afaceri. Ultimul obiectiv este de a
dezvolta abilitile mele de aplicare practice cu tehnici de data mining.
Aceast tez descrie mediul de reea actual acum, pur i simplu analiza dezvoltarea i
statutul matur de tehnologie de reea, discut urmtorul faa locului tehnologie fierbinte,
care poate avansa progresul societii umane, i de a obine actualul fenomen
"explozia de date, dar lipsa de cunotine". Gsim c oamenii sper s analizeze la un
nivel mai ridicat de a face o mai bun utilizare a acestor date, acest lucru duce la
tehnicile de data mining i de descoperire de cunotine, precum i reuete o
elaborare detaliat i introducerea pe metoda de exploatare a datelor, care a fost
propus n 1980. Capitolul trei i patru Capitolul introduce detalii cu privire la aplicarea
de data mining n reea i de afaceri, precum i mai multe cazuri de succes. Aceste
capitole introduce, de asemenea metoda de data mining pe baza caracteristicilor
statistice, un algoritm tipic bazat pe aceast metod numit algoritm arbore de decizie.
n cele din urm, teza introduce software-ul WEKA i unele cunotine relaie, iar
procesul de testare bazat pe platforma WEKA.

Structura 2.3Thesis

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

Teza introduce n principal, conceptele de baz ale mining, metode comune i


aplicarea n proiecte de reele i de afaceri, n plus, se citeaz unele cazuri de succes.
n cele din urm, se descrie un test simplu de data mining bazat pe software WEKA
efectuate de ctre autor.
Primul capitol prezint fundalul cercetare i semnificaia, obiectivul principal al acestui
proiect i activitatea principal i amenajarea pentru structura general a tezei.
Capitolul al doilea descrie metodele de exploatare a datelor. Conceptele de baz ale
metodelor de data mining sunt date. Inclusiv definiia data mining, metode comune i a
proceselor de baz, teza descrie metodele de clasificare utilizate n mod obinuit i
metodele de clustering, iar apoi d orientrile generale ale evalurii i clasificarea.
Al treilea capitol descrie aplicarea de data mining n reea, mai ales despre traficul de
reea i data mining pentru traficul de reea. Avnd n vedere conceptul de fluxul de
trafic de reea, teza prezint caracteristicile funciile de reea duce metode de
clasificare de trafic de reea bazate pe tehnologia de data mining, iar apoi introduce o
metod de clasificare trafic de reea bazat pe arbori de decizie.
Al patrulea capitol introduce cteva aplicaii n afaceri, i unele cazuri de succes ale
proiectului aplicare data mining.
Ultimul capitol este axat n principal software-ul WEKA, introduce caracteristic a
sistemului WEKA, formatul de fiier, interfaa sistemului, procesul de exploatare, iar
apoi descrie test simplu proiect pe WEKA.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

10

3 metode de exploatare de date


Data mining a fost dezvoltat cnd cercetare inteligenta artificiala schimbat treptat
direcie n aplicaii practice n 80 din secolul 20. Data mining este un proiect
interdisciplinar, face cererea pe cunoatere minier de la nivelul sczut la un nivel
superior, precum i metoda de exploatare a datelor ofer suport decizional. Muli
cercettori din diferite domenii s-au dedicat data mining, care este un domeniu de
cercetare in curs de dezvoltare, care evolueaz o noua tehnologie oal fierbinte.
Acest capitol descrie metodele generale de data mining, cu accent pe clasificare i
clustering metodele i criteriile de evaluare n tehnologia lor de data mining.

3.1 Conceptele de baz ale mining


3.1.1 Originea mining
Noi trim acum n epoca de reea; informatic i tehnologie de reea se schimb viaa
social a oamenilor. Viteza de dezvoltare a reelei IP global este dublat la fiecare 6 luni.
n Statele Unite, a avut nevoie de 38 ani de radio pentru a ajunge la 50 de milioane, i
a fost nevoie de 13 ani de televiziune; utilizatorii acceseaz internetul prin dial-up a
ajuns la 50 milioane de euro n doar 4 ani.
n retrospectiv, oamenii ar ntreba: Referitor la promovarea progresului societii
umane n istorie, care tehnologia poate fi comparat cu tehnologia de reea? Care este
urmtorul punct fierbinte de tehnologie?
S ne uitm la unele fenomene care pot fi observate peste tot n viaa noastr de zi cu
zi: "The New York Times", tiprit 10-20 ediii n anii '60; acum se imprim 100-200
ediii, cel mai mare numr de ediii este 1572; n China, "Beijing Youth Daily", tiprete
i 16-40 ediii, i "Raportul Marketing" a ajuns la 100 ediii deja. Cu toate acestea, n
realitate, timpul de citire pe zi este, de obicei 30 pn la 45 de minute, deci, de obicei,
oamenii doar se pot citi un ziar de 24 ediie. Cantiti mari de informaii aduce confort
pentru oameni i aduce o mulime de probleme n acelai timp: n primul rnd, excesul
de informaii este greu de digerat; n al doilea rnd, este dificil s se identifice dac
informaia este adevrat sau fals; n al treilea rnd, este dificil s se asigure
securitatea informaiilor; n al patrulea rnd, forme de informare sunt

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

11

inconsecvente i greu de manevrat unificat. Oamenii au nceput s propun un nou


slogan:
"nva de a se debarasa de informaii". Oamenii au nceput s ia n considerare, Cum
s nu fie inundate cu informaiile, dar pentru a descoperi cunotine utile i de a
mbunti disponibilitatea informaiilor.

Figura 3.1 Cum pot analiza aceste date?


Pe de alt parte, din cauza dezvoltrii rapide a tehnologiei de baze de date, precum i
sistemul de gestionare a bazei de date utilizate pe scar larg, oameni acumuleaz tot
mai multe date. n spatele exploziei de date este ascuns mult informaie importante i
oamenii vor s fac o analiz nivel superior, n scopul de a face o mai bun utilizare a
datelor. Sistemul de baze de date actual pot fi realizate eficient folosind date de intrare,
interogare, statistici i alte funcii, dar nu pot gsi relaiile i normele existente n
interiorul datele i nu poate prezice tendinele viitoare.
Lipsa de unelte de minerit cunotinelor din spatele datelor, duce la "explozie de
cunotine slaba cunoatere".
Din acest motiv, data mining i tehnologia de descoperire de cunotine sunt n curs de
elaborare, i arat vitalitate puternic, evolund astfel din tehnologia data mining
treptat.

3.1.2 Definiia data mining


n anii '80 ai secolului 20, proiectul de cercetare Inteligenta Artificiala (AI) a fost de
eec. AI transformat n aplicaii practice, data mining. Data mining este un nou aplicaii
comerciale de cercetare, AI. n prezent, data mining primete mai mult de afaceri

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

12

atenie organizaii. Cu toate acestea, ceea ce este data mining? Pe scurt, data mining
este extragerea datelor sau cunotine "exploatare" de la cantiti mari de date.

Date Figura 3.2 Mineritul este similar cu aur minerit


Data mining a fost propus nc din '80, n secolul 20. n cursul dezvoltrii sale, multe
autoriti au ridicat propria lor gndire cu privire la definirea mining, definiia principal
este prezentat n Tabelul 3-1.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

13

Tabelul 3-1 definiie diferit de data mining


Cercetatorii

Definiii

SAS

Metoda avansat de explorare a datelor i


stil de modele legate bazat pe un
numr mare de date.

Gartner

Procesul prin analiza atent a mari


cantiti de date pentru a
dezvlui

Grup

Semnificative relaii noi, modele i


tendine.

Aaron Zornes

Procesul de exploatare cunotine de la mare


baze de date pentru a extrage operaionale
informaii pe care nu le tiam nainte.

Fayyad

Cel mai important proces pentru a determina


eficiente, noi si potential de informaii, i
Modelul poate fi neleas n cele din urm de
la
datele.

Zekulin

Extragerea

n
prealabil

uor de neles, atac


baze de date
mari.

Ferruzza

necunoscut,
informaii de la

Utilizate n procesul de descoperire de


cunotine,
somemethodstoidentifyunknown
relaii i modele existente n datele.

Jonn

Gsirea modele utile n timpul procesrii


date.

Parsay

O decizie de a sprijini procesul de a studia


de date de mari dimensiuni stabilite pentru cei
necunoscut
Modelele de informare.

Bhavani

Gasirea de noi relaii semnificative, modele


i procesul de tendinele n cantiti mari de
date
utiliznd tehnologia de recunoatere model,
statistic
i tehnici matematice.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

14

Dei definiiile din tabelul 3-1 au unele diferene, toate mining culminant ca procesul de
date ntr-un model util; fiecare model util ofer un potenial informaii valoroase pentru
utilizatori. Scopul su este de a schimba datele n cunotine, i de a crete valoarea
intrinsec a datelor.
Prin urmare, data mining poate fi definit ca: extragerea de date este procesul care
transform din date de mari dimensiuni, incomplete, zgomotoase, fuzzy, aleatoare
practice de aplicare n informaii i cunotine care este implicit i c oamenii nu tiu n
avans, dar este potenial util dup prelucrare [ 3]. Aceast definiie implic faptul c:
Surse de data mining trebuie s fie real, substanial i zgomotos; cunoaterea gsit
este cel care utilizatorii sunt interesai n; cunoaterea descoperit poate fi acceptabil,
uor de neles i utilizat; aceasta nu are nevoie de cunotine descoperit pentru a se
potrivi tuturor i obiectivul este de a rezolva probleme specifice ntr-un domeniu
specific.

3.1.3 Funcia de baz a mining


n general, funcia de data mining pot fi mprite n dou clase: (1), pe baza unor seturi
de date disponibile electrogene informatii noi, neobinuit; (2) mining predictiv:
generarea unui model de sistematic descris de cunoscuta setul de date. Aceste dou
tipuri conin de obicei urmtoarele funcii:
(1) Concept Descriere
Descriere Concept descrie sensul anumite obiecte, i rezum caracteristicile relevante
ale obiectelor. Descrierea concept poate fi realizat prin urmtoarele metode:
caracteristici de date i distingerea datelor. Primul descrie caracteristicile comune ale
unor obiecte, de exemplu, de la caracteristicile clienilor de calitate ale bancii, putem
identifica potentialii clienti de inalta calitate. Acesta din urm descrie diferena dintre
obiecte eterogene, cum ar fi comparaia ntre fraude de carduri de credit si non evazionitilor.
(2) Analiza de asociere
Analiza de asociere este de a gsi interesant conexiunea, corelaia sau structura de
cauzalitate n articolele de cantiti mari de date. n cazul n care valoarea Piese dou
sau mai multe date "se repet iar probabilitatea este foarte mare c au o relaie, atunci
putem structura un regulilor de asociere pentru aceste date. Scopul analizei asociere
este de a gsi regula asociere ascuns. De exemplu, n cazul n care clientul cumpr
un calculator, el de asemenea va cumpra unele software-ul; aceasta este o regul de
asociere.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

15

(3) Clasificarea i predicie


Clasificarea este de a gsi un model sau o funcie care poate descrie caracteristicile
tipice ale seturi de date, astfel nct s poat identifica proprietatea sau categoria a
datelor necunoscute. De exemplu, solicitanii de carduri de credit vor fi mprite n
grupe de risc sczut, mediu i ridicat.
Predicie folosete date istorice pentru a identifica principiu, modelul de structura i de
a folosi acest model pentru a prezice tipurile i caracteristicile datelor. Un exemplu de
care clienii vor anula serviciu al companiei n urmtoarele ase luni, sau prezice care
clienii vor aplica pentru mai multe servicii.
(4) Analiza cluster
Clustering se mai numete nvare nesupravegheat. Scopul cluster este de a mpri
datele ntr-o serie de subset semnificativ n funcie de anumite reguli; n acelai cluster,
diferena dintre indivizi este mai mic; ntr-un grup diferit distana dintre indivizi este
mult mai mare. De exemplu, n funcie de volatilitatea preului stoc, putem mpri stoc
n diferite categorii; fiecare categorie conine ceea ce, toate informaiile care este foarte
important pentru investitor.
Analiza cluster este diferit de clasificare; Analiza clustering este o metod care nu ofer
un sistem de clasificare nainte, dar se adun informaii n funcie de similitudine.
(5) analiza Outlier
n cazul n care o baz de date conine date care are un comportament inconsecvent
sau modele, acest tip de date se numete outlier. Cele mai multe metode de exploatare
a datelor aruncai analiza outlier ca zgomot sau neobinuit, dar n unele aplicaii, este
necesar s se gseasc datele obinuite, cum ar fi gsirea comportamentele de
cumprare ale clienilor cu venituri extrem de mici sau deosebit de mari prin analiza
outlier.
(6) Analiza Evolution
Analiza Evolution este de a structura model bazat pe legea schimbare i tendinele de
evoluie ale obiectelor de date. Acesta conine n principal analiza datelor secventa de
timp i se bazeaz pe analiza datelor de similaritate. De exemplu, 80% din persoanele
care au cumprat imprimante laser va cumpra un nou toner.

3.1.4 comune metode de data mining


Data mining este dezvoltat de metode de informaii i de nvare main artificiale,
combinat cu metodele tradiionale de analiz statistic, metoda matematic i
vizualizarea de calcul tiinific, atunci datele metode i tehnici miniere format. n
general, clasificarea n funcie de funcia n mod normal, utilizate n mod obinuit
mining

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

16

Metodele sunt rezumate dup cum urmeaz; ele sunt din diferite unghiuri cu privire la
datele de excavare i gsirea modelelor utile i acumularea de cunotine.
(1) Categorizare este de a gsi un set de caracteristici comune de obiecte de date n
baza de date, i n conformitate cu modelul de clasificare datele mpart n diferite clase,
n scopul de a cartografia elementele de date din baza de date la un anumit stil,
prognoza variabilelor int discrete.
(2) Analiza Cluster este de a face un set de date n funcie de asemnrile i
deosebirile mprite n mai multe categorii. Principiul de baz este de a face
similitudinea ntre aceleai categorii date la fel de mari ca posibil, similitudinea dintre
diferitele categorii de date la fel de mici ca posibil. Scopul este de a gsi un grup strns
legat de grupul de observare.
(3) Analiza de regresie reflect valorile de proprietate n cifrele de timp din baza de
date tranzacie; creeaz o funcie de variabile predictor cu date reale, identificarea
dependenelor dintre variabile sau atribute.
(4) Regul de asociere descrie regulile relaia existent ntre elementele de date din
baza de date, care este un produs apariie ntr-un obiect, aceste articole va exporta alte
elemente apar i n acelai obiect, asociaia sau corelarea ascunse n date, gasirea
modul are o asociere puternic caracteristici n datele.
(5) Analiza Caracteristic este extragerea tipul caracteristic legat de date de la un
grup de date din baza de date. Aceste tipuri caracteristice arat caracteristicile
generale ale setului de date. n analiza schimbrilor i abatere, abaterea include o
clas mare de cunotine potenial interesant, cum ar fi situaiile anormale n procesul
de clasificare; scopul este de a cuta diferene semnificative ntre rezultatul de
observare i volumul de referin. Normele neateptat exploatare pot fi aplicate la
descoperire, analiza, identificarea, evaluarea i avertizare timpurie i aa mai departe
pentru o varietate de informaii anormale.
(6) Plase neuronale imita reele neuronale biologice. Este un model de predictie
neliniar prin nvare de formare i se poate finaliza clasificare, grupare, caracteristica
minerit, prognoz i alte sarcini de data mining.
(7) Tehnologia Vizualizare este o tehnologie grafic. Acesta utilizeaz o prezentare
grafic intuitiv a modelului informaii, asociaia de date sau tendina de a factorilor de
decizie. Vizualizare mbuntete eficiena data mining.

3.1.5 Procesul de baz de data mining


Data mining utilizeaz multe metode tiinifice de matematic, statistic, artificial

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

17

inteligen i domenii de reele neuronale, exploatare modelul de cantiti mari de date


este folosit pentru suport decizional, acesta ofer o abordare, instrument i procedeu
de suport decizional de predicie. Muli oameni consider data mining ca un pas
fundamental de Knowledge Process Discovery (KDD), de la baza de date.
Procesul tradiional KDD este prezentat ca Figura 2-1; paii concrei sunt dup cum
urmeaz:
(1) Date de curatare: Se elimin zgomotul sau inconsecvente sau nimic de-a face cu
datele sarcina miniere.
(2) Data Integration: Acesta combin varietate de surse de date.
(3) Selecia datelor: Extrage i analizeaz datele referitoare la sarcin.
(4) Transformarea datelor: Se convertete sau unific datele ntr-o form care potrivit
pentru minerit.
(5) Data Mining: Este etapa fundamental a KDD, intenioneaz s utilizeze metodele
inteligente pentru a extrage model de date.
(6) Evaluare model: n conformitate cu anumite criterii, se identific modelul care
exprim cunotine.
(7) Prezentare de cunotine: Foloseste vizualizare i reprezentare a cunotinelor de
tehnologie pentru a oferi cunotinele minat de utilizatori.

Figura 3-1-5 procesul de baz i etapele majore ale mining

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

18

Figura 3-1-5 descrie un procedeu de baz mining tipic i paii sale majore, include
selecia de date aferente din baza de date; curarea i integrarea transformarea de
date selectate, date, folosind algoritmul data mining pentru minerit model, interpretare
i evaluare a modelului obinut. Date de intrare pot fi stocate n diferite forme, pot locui
intens n baza de date, sau s fie distribuite pe mai multe site-uri, dup operaia de
selecie a datelor a format datele int. Curenie Datele completeaz valorile lips,
netezete date de zgomot pentru a elimina zgomotul i observaii repetate, selecteaz
nregistrrile i caracteristici legate de sarcinile curente de data mining. Integrarea
datelor combin datele din surse multiple de date. O transformare de date schimb
tipul de date ntr-un tip adecvat pentru minerit i este un proces de pre-tratare orientate
spre succes pentru data mining. Analiza i prelucrarea datelor transformate folosesc
algoritmi de data mining, exploatare conine modelul i dezvluie disciplina n datele.
Apoi, urmeaza interpretarea i evaluarea pe modelul obinut, n cazul n care modelele
obinute din minerit nu au nici o importan practic, sau nu se poate obine prin
msura de statistic sau testarea ipotezelor, atunci ele sunt considerate ca rezultatele
mining mincinoase i se elimin. Acest proces necesit repetat, acest proces repetare
se va apropia de esena lucrurilor, prelucrare continuu are o soluie la problema de
optimizare.
Procesul de exploatare a datelor nu este automat. Cele mai multe dintre lucrrile
trebuie s fie fcut manual. Data mining are cerine stricte cu privire la datele i datele
de prelucrare a pre este conturilor de lucru mai dificile i consumatoare de timp pas n
ntregul proces, n general, reprezentnd 60% din timp pe parcursul procesului, i
miniere de doar 10% din volumul de munc total.

3.2 Clasificare i clustering


Aceast seciune va evidenia aceste dou metode importante de data mining.

3.2.1 Clasificare
n data mining, clasificare este o metod sistematic bazat pe datele de intrare pentru
a stabili un model de clasificare. Sarcina Clasificare [8] este de a nva pentru a obine
o funcie f predicie int. Aceast funcie este, de asemenea, numit ca modelul de
clasificare, n procesul de predicie sau de identificare, f dribleaz fiecare atribut setat x
hart a unei predefinit etichet de clas y. Exemplele de clasificare includ metoda
arborelui de decizie de clasificare, clasificarea bazat pe reguli, naiv metoda de
clasificare Bayesian, suport metoda de clasificare vector, Retele neuronale metoda de
clasificare, etc .. Toate acestea

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

19

Tehnologiile folosesc un algoritm de nvare pentru a determina modelul de clasificare,


sunt de ateptat s se potrivi datele de intrare foarte bine, corect i prezice necunoscut
eticheta de clas probe.
Clasificarea este n general mprit n dou etape: (1) procesul de nvare care
creeaz modelul de clasificare pentru a descrie sau pentru a identifica tipul de date sau
concepte de date. (2) procesul de predicie sau de identificare care utilizeaz modelul
de clasificare a prezice obiect necunoscut.

Procesul de nvare construiete un model de analiza tuplul date descris de


proprietate, descrie setul de date destinat, eticheta clasei n figur este jucat, modelul
de clasificare este asigurat de arborele de decizie. Presupunem c fiecare tuplu de
date are un atribut numit etichet de clas, atunci acest atribut Calificativele acest tuplu
de date ca o clas intenionat. Tupluri Multi-date cu eticheta de clas sunt combinate
mpreun pentru a forma setul de date de antrenament. Un singur tuplu se numete
eantion de formare n set de date de instruire; un eantion de formare este ales la
ntmplare de ctre grupurile de prob.
Modelul de clasificare poate fi exprimat ntr-o varietate de forme, cum ar fi arbore de
decizie, IF-THEN regul, cu formula matematic sau Retele Neuronale. Un copac
decizie este o structur similar cu diagrama, fiecare nod reprezint o ncercare valoare
atribut, fiecare ramur reprezint o ieire de test, iar frunzele reprezinta clasa sau
distribuirea sa. Un copac decizie este uor transformat n clasificare forma regul, care
este uor de neles.
Procesul prezice este prezentat dup cum urmeaz: clasificarea tuplul date cu
eticheta clasei necunoscut prin utilizarea modelului de clasificare obinut din etapa
anterioar. Date de testare este un set de tuplu de date cu o etichet de clas, dar
aceasta nu are nevoie de eticheta de test n procesul de testare. nainte de a aplica
modelul de clasificare a de predicie, am evalueze mai nti indicele de evaluare pe
seturi de date de test de la modelul de clasificare. n cazul n care indicele de evaluare
acestui model cu privire la aceste seturi de date este acceptabil, atunci se poate folosi
pentru c tuplu de date cu necunoscut eticheta de clas pentru a prezice clasificare.

3.2.2 Metoda de clustering


Procesul de luare a adunrii de abstract grup de obiecte ca mai multe cluster formate
de obiecte similare se numete Clustering [8]. n procesul de clusterizare, un principiu
de baz este maximizarea similaritatea n fiecare grup i minimizarea similitudinea
dintre diferitele grupuri. Dup clustering, obiectele de date dintr-un grup pot fi tratate ca
un ntreg i au comun eticheta de clas. Clustering este diferit de clasificare, clusterul
s atribut de clas i numrul de clustere sunt necunoscute

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

20

nainte clustering pe datele, sau nu ia n considerare tuplul de date cu etichet de clas


n timpul studiului, n schimb aceast analiz utilizare clustering pentru a obine
eticheta de clas clustering bazat pe rezultatul clustering.

Din cauza deoarece cerinele societii, analiza clustering a devenit un subiect de


cercetare foarte activ n data mining, dar imens date, complex stabilete, de asemenea
prezint provocri speciale pentru grupeze analiz. Cerinele tipice sunt, n principal,
urmtoarele aspecte: (1) scalabilitatea (2) capacitatea de a gestiona diferite tipuri de
proprietate (3) capacitatea de descoperire clusterul form arbitrar (4) capacitatea de fi
utilizate pentru a determina parametrii de intrare cunotinele minime domeniu i
sensibil de ordin nregistrare de intrare (5) capacitatea de a gestiona date zgomotoase
(6) capacitatea de a gestiona date dimensionale mari (7) Pe baza constrngerilor de
clusterizare (8) interpretabilitate si usurinta in utilizare.
n general, principalele algoritmii de grupare pot fi mprite n urmtoarele categorii:

Metoda Compartimentare: Aceast metod creeaz mai nti o divizie iniial, apoi
interactiv prin mutarea obiectului n intervalul diviziune a mbunti partiionarea. Dar
aceast metod poate gsi doar grupuri sferice.

Metod bazat pe Densitate: n cazul n care zona de densitate nconjoar doar un


prag, continu s se grupeze. Aceast metod poate fi utilizat pentru a filtra "date de
zgomot", i pentru a gsi grupuri forma arbitrare.

Metodele bazate pe Grid: Aceast metod face obiect fie distanate n limitele uniti.
Aceast metod are o vitez de procesare rapida.

Dupa ani de cercetari, acum exist un numr mare de algoritm de clustering,


comparaia ntre algoritmi de clustering principale [9] este prezentat n Tabelul 3-2.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

21

Tabelul 3-2 clustering principal comparaie metod

Algoritmul

k-means

Sensibilitate
pe murdare
sau

pe ordinea

anormal

de intrare

Date

Date

Sensibil

Insensibil

Convex sau

Mai Puin

Insensibil

Sferic

Sensibil

Convex sau

Sensibil

Algorith

Appropriat

Grup

Tip

Eficien

Tip de date

S-au gsit

mare

Valoare

Convex sau

Sensibilitate

Sferic
K-medoids

K-pototypes

Sczut

General

Valoare

Mixt

Sferic
CLARA

Inferior

Valoare

Convex sau

Sensibil
Sensibil

Sferic
CLARANS

Inferior

Valoare

Convex sau

Mare

Valoare

Convex sau

Mai Puin
Sensibil

Insensibil

Sferic
Mesteacan

Mai Puin

Foarte
Sensibil

Insensibil

Sensibil

Insensibil

Mai Puin

Sferic
CURE

Superior

Valoare

Arbitrar
Form

DBSCAN

General

Valoare

Arbitrar

Sensibil
Sensibil

Sensibil

Sensibil

Insensibil

Insensibil

Insensibil

Form
STING

Mare

Valoare

Orizontal
sau vertical

Val

Mare

Grup

3.3

Valoare

Arbitrar
Form

Capitolul Rezumat

Acest capitol prezint metodele de exploatare a datelor. Ea descrie pentru prima dat
conceptul de baz de data mining, metodele comune de data mining i fluxul de baz
de data mining. i apoi scoate n eviden de clasificare i clustering metodele i n
cele din urm ofer un criteriu de evaluare comun. Se face o evaluare indice mediu
macro i micro. Aceti indicatori vor servi drept criterii de evaluare pentru selecia
caracteristic i sub-gruparea.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

22

4 Datele cerere minerit n reea


Odat cu dezvoltarea rapid a tehnologiei de reea, aplicaii bazate pe reea sunt din ce
n ce mai multe i mai complexe. Diferite aplicaii legale sau ilegale nu pierde numai ce
mai multe resurse de reea, dar, de asemenea aduce o mare ameninare la adresa
securitii reelei. Din cauza avantajul de a folosi resurse, inginerie de trafic a devenit
important. Identificarea trafic de reea i clasificare este o baz important pentru
gestionarea reelei, de monitorizare a traficului, analiza serviciu, contabilitate de reea
i multe alte aspecte.
Sarcina major a clasificrii trafic este n conformitate cu TCP sau UDP fluxurilor de
informaii sau a proprietii care pot fi msurate sau obinute prin punctele de observare.
Teze fluxuri trece prin link-ul de reea sau aparatul, cum ar fi porturile, coninutul
mesajului, informaii de conectare, statistici de trafic, etc., pentru a specula c cererea
de reea de sus sau protocolul strat (cum ar fi WWW, FTP, P2P, etc.) face parte din
categoria cu caracteristici similare, care sunt prezente n datele serviciului curent. Cheia
clasificarii trafic este de a utiliza informaiile ca baz de clasificare i apoi de a utiliza
acest tip de metod ca metod de clasificare. n prezent, clasificarea masina de
nvare pe baza caracteristicilor statistice de trafic este o problem important de
cercetare. Acest capitol prezint unele concepte de baz ale clasificrii trafic. Acesta
este n principal preocupat de modul n care se aplic metoda de clasificare Machine
Learning privind clasificarea traficului de reea.

4.1 Definiia a traficului de reea


Protocol de reea este, de obicei dezvoltate pentru diferite niveluri; fiecare strat este
responsabil pentru diferite functii de comunicare. O familie protocol, cum ar fi TCP / IP,
este un set de combinaii multiple de protocol la diferite niveluri. TCP / IP este n
general considerat ca un sistem de patru protocol:
(1) Link Layer include, de obicei driverele dispozitivului n sistemul de operare i placa
de interfa corespunztoare n computere.
(2) Nivelul retea trateaz grupuri din activitile de reea. De exemplu, grupul de rutare.
n familia de protocoale TCP / IP, protocoale de reea includ IP (Internet Protocol),
ICMP (Internet Control al Masaj Protocol), i IGMP (Internet Group Management
Protocol).
(3) Transport Layer ofer comunicrile de port-to-port pentru aplicaiile de pe cele dou
gazde. n protocolul TCP / IP, exist dou protocoale de transport diferite:

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

23

TCP (Transmission Control Protocol) i UDP (User Datagram Protocol).


(4) Application Layer este, responsabilitatea de a trata cu detalii specifice aplicaiei.
Protocoale de aplicare comune sunt Telnet, FTP, SMTP, SNMP, WWW i aa mai
departe.

Figura 4.1 Diferite protocoale de nivel n protocolul TCP / IP

Pentru protocoalele TCP / IP la diferite niveluri, n scopul de cercetare a clasificrii


trafic este diferit.
(1) Trafic strat Link ocup analiz mai ales cu modificrile rata de transfer i rata de
transfer pe linia cablu de reea. Scopul este de a reduce eroarea de pe linia de
transmisie i de a mbunti viteza de transmisie pe cablul de reea.
(2) Analiza trafic strat de reea se refer la pachetul IP de rutare strategie, ntrziere
i pierdere. Scopul este de a avea o anumite reguli de filtrare pentru a stoca i
pachete de expediere ct mai curnd posibil, astfel nct s poat reduce pachete
pierdere.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

24

(3) Avnd n vedere c stratul de transport i stratul de aplicare sunt strns legate,
putem pune aceste dou Trafic mpreun pentru studiu analiz. Fluxul de la acest
nivel poate fi definit ca: tur este un obiect i l descrie un tren pachet cu aceeai
adres IP, numrul de port i protocol (TCP, UDP). Este o perioada de cinci tuplu
format din adresa sursa, portul surs i portul de destinaie i protocol strat de
transport. Aceast serie de trenuri de pachete IP poate acorda aceast definiie
pentru a compune un dou sensuri TCP / IP sau UDP fluxului. Scopul cercetrii a
acestui strat este de a identifica stratul de aplicare
protocol.
Proiect de cercetare i Scopul treilea strat de flux de date este de a identifica protocol
de strat de aplicaie. Grup de cinci-tuplu treilea strat este cuplat cu protocolul strat de
aplicare constituie fluxul n acest articol.
Pentru a rezuma, o reea de trafic de flux pot fi definite dup cum urmeaz: fluxul de
trafic de reea este cantitatea de date transmise prin reea, i poate fi vzut ca suma
intre informaiilor care printr-un link de reea sau un dispozitiv ntr-un anumit termen,
specific, poate fi vzut ca un pachete IP care trec printr-un punct de observaie n
reea la un anumit interval de timp.

4.2 Proprietile de trafic de reea


4.2.1 Definiia proprietilor
Un set de date poate fi vzut ca un set de obiecte de date. Un obiect de date este
descris de caracteristicile de baz ale proprietii, care este caracterizat de un set de
obiecte. Proprietatea este, de asemenea numit caracteristici, variabile, cmpuri sau
dimensiuni [7]. Proprietatea se refer la calitile sau caracteristicile obiectelor; se
schimb cu obiectele sau cu timpul. De exemplu, culoarea pielii este una dintre
proprietile de fiine umane, este o proprietate simbol i variaz n funcie de sale
fizice, valorile posibile sunt galben, alb, negru.
Dar proprietate nu este numr sau un simbol. Cu toate acestea, n scopul de a discuta
i analiza mai precis caracteristicile obiectului, vom da aceste numere sau simboluri.
Pentru a utiliza un mod bine definit de a face acest lucru avem nevoie pentru a msura
scara.
Scar de msurare este o regul asociat ntre o valoare numeric sau simbolic cu
proprieti obiect. n multe cazuri, n viaa de zi cu zi, diferitele situaii de proprietate a
unui obiect va fi mapate la o valoare numeric sau simbolic.

4.2.2 Tip de cazare


n general, proprietate este clasificat n patru tipuri: nominal, ordinal, interval i raport
[8].

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

25

Nominal i ordinal poate fi definit ca proprieti categorice sau calitative. Interval i


raportul poate fi definit ca proprieti cantitative sau numerice.
Figura 3-2 prezint aceste patru proprieti, i descrie fiecare tip de proprietate, n cele
din urm exist un exemplu pentru a explica fiecare tip de proprietate i diferenia
fiecare tip de proprietate.

4.2.3 proprietate flux de reea


Cercetarea privind clasificarea reea folosesc de obicei aceleasi 5 tuplele (sursa IP, IP
destinaie, portul surs, porturi destinaie, protocolul de transport) pachetelor de reea,
este fluxul de reea ca unitatea de procesare de baz [12]. Captarea statistice privind
fluxul de reea, transforma-le n vectori caracteristici n spaiul facilitate. Acest vector
caracteristic conine informaia de baz a fluxului de reea, cum ar fi numrul de
pachete din fluxul de reea i aa mai departe. Poate conine i informaiile dup o
anumit transformare, cum ar fi rezultatul secvene de pachete sosire, dup
transformare Fourier.

Tip de proprietate

Nominal
Clasificare

Descriere

Exemplu

Valoarea nominal a proprietii este


doar
un alt nume, valoarea nominal
furnizeaz doar informaii suficiente
pentru a
distinge obiecte.
Valoarea de ordine al proprietii
furniza

Culoarea pielii,
ochilor
culoare,

suficiente informaii pentru a determina


secven obiect
Pentru gama de atribute, diferen
Valoarea este semnificativ, i n
Interval
atribute care exist msurare
unitate
Ordinal

Valoare

Raport

Pentru o variabil raport, diferenele i


Raportul sunt semnificative

identificare
numr
Calitate,
solubilitatea

Date Calendar,
temperatur
Calitate, vrst

Figura 4-2 Tip de cazare

Structurarea un set de caracteristici este una dintre misiunile de baz n data mining.
Calitatea de setul de caracteristici va influena n mod direct rezultatul de data mining.
Procesul structura pe fluxul de reea caracteristic poate fi mprit ntr-un singur sens
de curgere i fluxul bidirecional. ntr-un fel fluxul, secvena de pachete este strict
evaluat de normele n conformitate cu cele 5-tuplele. Caracteristica statistic a fluxului

de reea ntr-un fel de obicei, conine: numrul mediu de mrimea pachetelor, numrul
pachetelor, numrul pachetelor cu SYN sau

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

26

Etichet FIN, etc .. Fluxul bidirecional este secvena de pachete bidirecionale n


conexiune, conine nu numai filmul independent de curgere reea pe dou direcii de
comunicare la porturi, ci, de asemenea, caracteristicile aferente ntre dou flux de reea
ntr-un fel, cum ar fi conexiune durata, conexiune de timp inactiv, etc, deci are
capacitatea de puternic descrie.

4.3 Clasificarea trafic de reea


4.3.1 Definiia clasificare trafic
Clasificare de trafic de reea nseamn clasificare n funcie de tipul aplicaiei de
internet, fluxul TCP dou sensuri sau fluxul de UDP care este traficul generat n
internet bazate pe protocolul TCP / IP, cum ar fi FTP, DNS, WWW, P2P, etc ..
Punctul cheie al clasificrii este de a selecta metoda de clasificare a fluxului TCP sau
UDP fluxul.

4.3.2 Metode de clasificare de trafic i de comparaie


Trafic Metodele de azi de clasificare includ: identificarea pe baz de port, de
identificare pe baz de semntur, pe baza recunoaterii BLINC, identificarea pe baza
statisticilor caracteristicile masina de nvare recunoatere i aa mai departe.

Avantajul metodei de clasificare de identificare pe baz de port este o principiu.


Punerea n aplicare este simplu. Se poate satisface cerina timp real a reelelor de
mare vitez i nu implic viaa privat a utilizatorilor i pot fi implementate prin
hardware, fr calcule complicate. Aceast abordare a avut un foarte bun efect de
identificare n dezvoltarea de internet mai devreme. Cu toate acestea, pentru c tot mai
multe aplicaii utilizeaz portul non-standard acum, metoda traditionala de clasificare
identificare trafic a devenit tot mai dificil. Odat cu dezvoltarea rapid a internetului,
exist mai multe i mai multe protocoale de aplicare a stratului de aplicare, n special
apariia de protocol de aplicare reea P2P care utilizeaz porturile dinamice i imit o
metod anumit port pentru a se camufleze. Apoi, o mulime de resurse lime de band
de reea sunt ocupate, iar aceste fluxuri sunt din ce n ce reprezint o parte mare din
traficul total, chiar mai mult dect o reea jumtate. Prin urmare, identificarea port nu
poate satisface nevoile de clasificare trafic deja, se numai poate fi folosit ca un
supliment pentru alte metode de identificare trafic. Exist o nevoie de o metod mai
eficient de clasificare trafic.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

27

Comparativ cu metoda de clasificare de identificare pe baz de port, identificarea


semntura metod de clasificare stratul de aplicaie are o precizie mai mare,
demonstreaz o bun capacitate de a identifica tipurile de trafic i poate fi utilizat
pentru timp real a sistemului de clasificare a traficului. Cele mai multe sistem de
monitorizare a traficului selectai aceast metod acum, dar este pus sub semnul
ntrebrii din cauza problemelor de confidenialitate personale. n plus, aceast metod
poate identifica numai aplicaii P2P cunoscute, dar nu pot identifica noi protocoale cu
semntur necunoscut. De fapt, ciclul de actualizare de P2P este foarte scurt, noi
versiuni sunt n mod constant n curs de dezvoltare, iar punctul este faptul c costul
pentru nclcarea o semntur privat protocol este scump, astfel nct aceast
tehnologie are nici un avantaj pentru unele pachete IP criptate.

Identificarea BLINC i metodele de identificare a caracteristicilor statistice a depi


dificultile care primele dou metode nu se poate rezolva. Comune Avantajele lor sunt
de mare precizie, completitudine bun, i capacitatea de a identifica noi aplicaii, precum
i reaminti utilizatorilor sa verifice aceste suspectate fluxuri de atac a virusului. Dar
dezavantajul metodei BLINC proiectat de Thomas et al (designer metod) este c
exactitatea lor vor fi afectate de tehnologia de traducere adresa IP sau testarea poziie
echipament. n plus, aa cum aceasta metoda, de asemenea, a propus euristic, se
bazeaza pe experienta, las lacune i permite atacatorilor pentru a proiecta un nou
protocol cu uurin pentru a scpa de aceast clasificare. Pe scurt, drept
comportament strat de transport este de multe ori n strns legtur cu mediul de
reea, comportamentul strat de transport este probabil s fie destul de diferite, dac
exist aceeai aplicaie n diferite medii de reea. Aceast asociere limiteaz domeniul
de aplicare aplicare a acestei metode.
Dei metoda de clasificare bazat pe identificarea BLINC i pe statistic identificare
caracteristici att aparin probabilitatea de metode de clasificare, ele se bazeaz n
principal pe clasificarea strat de transport. Dar avantajul de a doua este c aceasta nu
se bazeaz pe adresa sau flux de port IP-, prin urmare, aceasta nu interfereaz cu de
tehnologiile NAT. Dar dezavantajul este c unele caracteristici sunt extrem de sensibile
la schimbrile dinamice ale reelei, cum ar fi interval de pachete de sosire, durata de
curgere. n plus, aceste metode au un dezavantaj comun; calculul este foarte mare i
nu este disponibil pentru reeaua de mare vitez n clasificare n timp real nc.

Din procesul de implementare, toate metodele de mai sus fac parte din metoda de
msurare pasiv n msur reea i nu va avea niciun impact n timpul procesului de
clasificare. Comun dezavantaj este c metodele de mai sus nu pot nelege
comportamentul reeaua unele aplicaii, cum ar fi cel mai popular P2P

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

28

fiier sistem de partajare acum. n plus, pentru c msurarea pasiv necesit


interceptarea i detectarea la pachet, odat cu dezvoltarea rapid a vitezei de reea,
ora aeriene i spaiu deasupra capului pentru a atinge aceste metode vor fi din ce n ce
foarte mare.

n prezent, pentru metoda actual de clasificare a traficului de reea, statistic reea


caracteristici metoda de clasificare trafic poate depi n mod eficient problemele din
primele trei metode de clasificare. Deci, devine direcia principal de cercetare n
domeniul clasificrii trafic.

Direcie de cercetare Teza se bazeaz pe fluxul de caracteristici statistice, folosind


algoritmi de nvare main, i identificare a protocolului stratului de aplicaie.
Urmtoarea seciune introduce cteva metode de clasificare bine-cunoscute, bazate pe
caracteristicile statistice.

4.3.3 Metoda de clasificare bazat pe introducerea statistic


Pentru metoda de data mining, din punct de vedere masina de nvare, clasificare
trafic pot folosi abstract logic matematic, dup cum urmeaz: s presupunem c
exist un set tip cunoscut de curgere reea C {C1 . C2 , ..., Cm} i un flux reea
cunoscut set de tip

X{X1 , X2 , ..., Xn}, Prin utilizarea metodei de nvare main la "nva" aceast
reea flux stabilit, la structura fluxul de model de clasificare f : X C , Acest model
poate fi folosit pentru a clasifica i prezice necunoscut fluxul de reea de tip.
Clasificarea trafic de reea este o clasificare tipic multiplu. n general, clasificarea
traficul n reea este, prin punctele de observaie de msurare tot TCP sau UDP
informaiile flux "sau proprietatea (cum ar fi porturile, coninut pachete, informaiile de
conectare, statistice trafic, etc.) care trec pe link-ul de reea sau a dispozitivului. Pe
baza acestor informaii, putem specula aplicaia de reea de sus sau protocolul strat
(cum ar fi WWW, FTP, P2P, etc.)
Activitatea de baz a manipulare a problemei de clasificare de trafic prin metoda
exploatare de date conine n principal dou aspecte:
(1) Selectarea corespunztoare proprietile de curgere de reea, abstract-l la vectorul
caracteristic.
(2) Selectarea corespunztoare algoritmi de nvare main pentru a construi modelul
de clasificare. n reea clasificare trafic acum, metoda exploatare mai des utilizate de
date este

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

29

Decizia metod de clasificare Arborele, metoda naiv Bayes clasificare [4, 13, i 14],
precum i metoda de clasificare main reea de sprijin [15, 17].

4.3.4 C4.5 clasificare decizie Arborele trafic


Extragerea de date este descris ca un proces cu dou etape. Primul pas este s
structureze un model de a descrie un set de date cunoscute. Fiecare articol din set de
date are o etichet stil de a identifica categoria tuplele. Pentru ca fiecare prob are deja
etichet stil de nvare este supravegheat. Al doilea pas este de a utiliza modelul
structurat nainte clasificarea. n acest pas, avem nevoie pentru a evalua precizia
metodei de clasificare. n cazul n care precizia este acceptabil, atunci putem folosi
pentru a clasifica tuplele de date cu necunoscut eticheta categorie urmtor. n procesul
de clasificare, s-ar putea nevoie pentru a nota ceva probleme. n primul rnd ne-am
pre-proces de date n funcie de caracteristicile de date, cum ar fi curarea de date
sau de selecie caracteristic. n al doilea rnd, vom evalua pe metoda de clasificare,
trebuie s selectai metoda adecvat pentru a evalua modul i criteriile de evaluare au
o influen puternic asupra rezultatului final.
Decizia Arborele [4, 10, iar 11] este o metod comun de structurare a modelului de
date. Gndirea de baz este de a selecta o proprietate care este cel mai capabil s
disting diferite probele de tip, i s fac proprieti, cum ar fi radacina de copac, i
mpririi probei de formare n buci corespunztoare, apoi selectai proprietatea c
are cea mai mare discriminarea n probele ca al doilea nod strat, i aa mai departe.
Procesul este terminat, atunci cnd toate nodurile frunz includ o singur prob
categorie, acest copac se numeste arbore de decizie.
Decizia Arborele este similar cu diagrama de structura arbore, iar fiecare nod intern
reprezint un test pe o proprietate, fiecare ramur reprezint rezultatul testului, fiecare
nod frunz reprezint o anumit categorie i nodul rdcin este punctul de nceput al
deciziei copac.
Utilaje probleme de clasificare, folosind arbori de decizie are dou etape, n general,:
primul pas este invatarea pe datele de formare stabilite pentru a forma modelul de
clasificare arbore de decizie. Al doilea pas este de a utiliza acest model de clasificare
arbore de decizie pentru a clasifica eantionul n categoria necunoscut.
Cheia de a folosi un arbore de decizie pentru clasificare este de a structura un model
eficient arbore de decizie; procesul de structura are de obicei dou etape: Arbore
Echipament copac Tunderea. Dup cldire copac, arborele de decizie nu este cea mai
simpl i mai compact, pentru c multe ramuri pot reflecta nivelul de zgomot sau
cteva puncte izolate de date de formare; procesul de tiere copac a incercat s
detecta i elimina aceste sucursale, pentru a mbunti

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

30

acurateea clasificrii pe seturi de date necunoscute.


n prezent, algoritmul arbore de decizie cel mai influent este ID3 propus Quinlan n
1986 i C4.5 propus n 1993. C4.5 este un algoritm mbuntit comparativ cu ID3, n
funcie de raportul ctig de informaii pentru a selecta proprietatea ncercare, nu
numai se poate mner discret valorile de proprietate, dar, de asemenea, pot face cu
valori de proprietate continuu.
Pentru atributele de curgere reea non-discrete, algoritmul arbore de decizie C4.5
folosete strategia de discrete spaiul su valoare si schimba-l la forma discret pentru a
calcula. Algoritmul arbore de decizie C4.5 completeaz sus proces pentru a n jos,
selecteaz Proprietatea cu raportul maxim ctig de informaii ca o proprietate de test.
Pentru a elimina ramura anormal cauzate de punctul de zgomot sau aberante, metoda
arborelui de decizie C4.5 utilizeaz proba rmas obinut din datele de formare pentru
prune arborele de decizie iniial i apoi a obine arborele de decizie C4.5 final.
n procesul de prognoz construcie model i de prob, metoda arborelui de decizie
C4.5 nu se bazeaz pe distribuia de mostre de flux de reea; Prin urmare, aceast
metod poate evita n mod eficient posibil impact realizate de schimbrile schimbrilor
prob fluxului de reea i are o stabilitate clasificare bine. Cnd vom folosi arborele de
decizie C4.5 a trata proba clasificate pentru a prezice clasificare, avem nevoie doar
pentru a compara de sus n jos n funcie de valoarea proprietii a probei de curgere
de reea, atunci putem gsi nodul frunz adecvat. Acest tratament este relativ simpl i
foarte eficient.

4.4 Capitolul Rezumat


Acest capitol prezint n principal cererea n reea. Acesta ofer primul unele concepte
de baz i definiii cu privire la traficul de reea de reea i, descrie proprietile date n
trafic, d definiia proprietii, analiza tipul de proprietate, introduce procesul de
facilitate abstracie de trafic de reea, derivat un concept din perspectiva de data mining
pentru a face clasificarea traficului de reea. n acelai timp, se discut de mai multe
reele de trafic comun metode de clasificare bazate pe extragerea datelor, precum i
aplicarea n clasamentul traficului de reea.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

31

Cerere minerit 5 Datele din proiect de afaceri


5.1 Aplicarea n practic a mining
Ce adrese de data mining este de a gsi evenimente valoroase ascunse ntr-o baz de
date uria, iar apoi analiza lor de a obine informaii semnificative, le rezuma ntr-o
structur util, ca baz pentru luarea deciziilor n ntreprindere. Astfel, aplicarea de data
mining este foarte vast. Atta timp ct ntreprinderea are valoarea de analiz i
cererea, se poate folosi instrumente de analiz scop excavare. Cazuri de aplicare
comun apar n retail, productie, finane i asigurri, comunicaii i servicii medicale.

5.1.1 probleme de afaceri tipice rezolvate de data mining


Ar trebui subliniat, de la nceput c tehnologia de data mining este orientate spre
aplicaie. n prezent, n multe zone, data mining este un cuvnt foarte la mod, mai ales
n domeniul bancar, telecomunicatii, asigurari, transport, retail (de exemplu,
supermarket-uri), precum i alte spaii comerciale. Problemele de afaceri tipice care pot
fi rezolvate prin data mining includ: Data Marketing, segmentarea consumatorilor i
clasificare, analiza profilului, Cross-vnzare, precum i analize de pia Putinei Analiza,
Credit Scoring, Fraud Detection, etc ..

5.2 Cereri de data mining n marketing


Tehnologiei de data mining are unele aplicaii mai frecvente la comercializarea
ntreprindere, se bazeaz pe principiile de segmentare a pieei n marketing. Ipoteza de
baz este c "comportamentul din trecut o de consum este cea mai bun explicaie
pentru nclinaia sa de a consuma n viitor".
Prin colectarea, prelucrarea i manipularea o mulime de informaii comportamente de
consum, determin interesul, obiceiurile de consum, tendinele de consum i cererea
de consum a unor grupuri specifice de consumatori sau persoane fizice, atunci deduce
grupurile

de

consumatori

sau

persoane

corespunztoare

pentru

urmatorul

comportamentul consumatorului. Pe aceast baz, putem lua de introducere pe pia


int cu coninut specific pentru grupurile de consumatori identificate, dac vom
compara acest lucru cu comercializarea mas tradiional, care nu distinge
caracteristicile consumatorilor, aceast metod ofer costuri semnificative de
economisire de marketing, mbuntete eficiena de marketing, astfel aduce mai mult
profituri pentru ntreprindere.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

32

5,3 cazuri de succes


(1) cheltuieli de telefon i abordare de management
O companie de telefonie din provincia BC n Canada, a cerut grupul de cercetare KDD
n Universitatea Simon Fraser sa se uite la lor zece ani de date ale clientilor vechi si
rezuma, analiza i propune noi practici tarifare telefon i de management. Grupul de
cercetare elaborat politici care s conduc la companie i a ajutat, de asemenea,
clienii.
(2) American Auto Trader.com este cel mai mare site de vanzari auto din lume; exist
un numr mare de utilizatori care viziteaz site-ul lor pentru a cuta informaii. Ei
folosesc software-ul SAS pentru a face data mining, analiza de zi cu zi de date pentru a
gsi modele de acces ale utilizatorului, evalua gradul de simpatie al produselor, i a
stabilit un anumit server, apoi obine succesul.
(3) Bass Export unul dintre cei mai mari importatori i exportatori de bere din lume,
angajate ntr-o tranzacie de peste mri, n mai mult de 80 de piete, trimiterea 23,000
comenzi n fiecare sptmn, Bass Export trebuie s neleag obiceiurile fiecarui
client, cum ar fi preferinele de brand, etc, pt export folosete Miner inteligent dezvoltat
de IBM pentru a rezolva aceste probleme foarte bine.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

33

6Datele de testare minerit pe WEKA


6.1 Introducerea sistemului WEKA
Numele complet WEKA este Waikato Mediu pentru analiza de cunotine, prescurtarea
acestui software, de asemenea, este o pasre unic n Noua Zeeland. Interesant,
dezvoltatorul principal al WEKA doar vine de la Universitatea din Waikato din Noua
Zeeland. WEKA este un software complet deschis pentru munc mining ofer o
interfa unificat, colecteaz algoritmul de nvare main i de preprocesare a
datelor instrumentele cele mai clasice. Ca un sistem complet de achiziie de cunotine,
aceasta include preprocesarea datelor, clasificarea, gruparea i regulile de asociere,
atribut de selecie, i realizeaz vizualizare ntr-o nou interfa interactiv. Putem
compara rezultatul obinut de la diferite metode, pentru a gsi cele mai bune algoritm
pentru rezolvarea problemei.
Punerea n aplicare a WEKA de cercetare acumulare n domeniu nvare main a
fost realizat de ctre Eibe Frank et al (dezvoltatorii); versiunea WEKA nainte de 1998
a fost implementat cu ajutorul C ++. Dup anul 1998, Eibe Frank a nceput un program
folosind JAVA. Pentru aceasta mutare, el a fost asistat de ceilali membri din echipa de
proiect i unii dezvoltatori de software liber la acel moment. n august 2005, n a 11ACM SIGKDD Conferina Internaional, grupul WEKA de la Universitatea din Waikato
a ctigat premiul de serviciu suprem n data mining i teren descoperire de cunotine.
Sistemul WEKA a fost recunoscut pe scar larg de ctre societate, i este cunoscut
ca o piatr de hotar n istoria de data mining i main nvare depus. Este acum
cele mai complete instrumente de data mining n lume, i pn acum are 11 de ani de
istorie dezvoltare.

6.2 Caracteristicile sistemului WEKA


WEKA este un program gratuit pentru licen academic, nu ntreg cu alte sisteme. Ca
un reprezentant tipic al mining academic, aceasta are urmtoarele caracteristici:

(1) Cross-platform, acesta susine Windows i Unix, precum i multe alte sisteme de
operare;
(2) Acesta susine fiierul text structuri, formatul mining (C4.5), i ofer interfa de
baze de date (JDBC);
(3) Se poate ocupa de tipurile de date ale discrete caracteristice, tipuri continue,
data,.
(4) Acesta ofer tratament lips de valoare, zgomotul eliminare, standardizarea,
discretizarea de date, structura atribut, transforma variabila, date pe pri,
echilibru de date, sortarea proba, proba shuffle, gruparea datelor, reducerea
dimensional, valoare

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

34

operaie de reducere i de prelevare de probe;


(5) Se poate completa preprocesare, clasificare, clustering, asociere, vizualizare i
alte sarcini;
(6) Aceasta susine masina de nvare i a reelelor neuronale;
(7) Acesta ofer combinaii de algoritm, utilizatorii algoritm ncorporat, setrile
parametrilor algoritm (de baz, avansat);
(8) Se poate genera rapoarte de baz, rapoarte de ncercare, format de ieire,
model de implementare a explicat, comparativ modelul, funcie scor de date;
(9) Se realizeaz vizualizare a datelor, proces minerit vizualizare, iar vizualizarea
rezultat minier (nelegere, evaluare).
Multe caracteristici ale WEKA poate reflecta, de asemenea, funcia de WEKA. WEKA
Platforma de data mining complet, practic i la un nivel nalt atinge un numr de
programe de nvare populare; aceste programe pot fi aplicate direct de exploatare a
datelor practic sau de cercetare. n plus, acesta ofer, de asemenea, un cadru pentru
forma de biblioteci de clase Java; acest cadru sprijin cererile de nvare main
ncorporate, i chiar punerea n aplicare a noilor programe de nvare.

6.3 Formatul de fiier al sistemului WEKA


Sistemul WEKA accept trei tipuri de fiier de date pentru a deschide, respectiv c
importurile din fiierul de date locale, site-ul de date sau baza de date pentru a fi
testate. Cu toate acestea, orice fel slide de a deschide, WEKA are ntotdeauna o
anumit limit privind formatul datelor importate.
WEKA utilizeaz un format de date numit ARFF (Atribut-Relaii File Format), acesta
este un text ASCII. Fiierul ARFF este compus dintr-un set de exemple; datele
meteorologice din figura 6.1 corespunde la dosar ARFF este prezentat mai jos: n
form, o transversal numit un exemplu este echivalent cu o prob n statisticile, sau o
nregistrare ntr-o baz de date. Linia vertical este numit un atribut, este echivalent cu
o variabil n statisticile, sau un fiier n baza de date.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

35

Figura 6.1 O prob fiier de date pentru WEKA


Se poate observa din figura 6.1 c formatul de date ARFF este relativ simplu.
Instruciuni specifice sunt dup cum urmeaz:
Fiierul ARFF poate fi mprit n dou pri. Prima parte ofer informaii ef, inclusiv o
declaraie de relaii i declaraii de atribute. A doua parte prezint informaiile date,
datele aferente setul de date.
(1) Informaii eful: @ raport defineste numele setului de date, echivalent cu numele
de tabel de date. @ Atribut definete atributul set de date; ea conine numele
atributului i valorile posibile ale atributului sau de tip atribut.
(2) Informaii Data: @ date definete nceputul stabilit nregistrare a datelor, urmtorul
text este tot seturilor de date de nregistrare, nregistrarea este neordonate, fiecare
element de date ntre fiecare rnd este separat prin virgula "," .De asemenea
pentru elementele de date lips, vom folosi "?" pentru a exprima valoarea lips. Dar
nu exist nici o valoare lips n eantion.

Desigur, atunci cnd importai fiierul de date, vom constata c putem importa de
asemenea, forma fiier cu extensia de nume de fiier. csv (care pot fi exportate ctre
Excel sau Matlab); instana a fiierului C4.5 original, cu nume de fiier extensia este
.names i .data, i a fost serializat numele fiierului extensie este de .bsi. Aceasta se
datoreaz faptului c sistemul WEKA vine cu trei tipuri de convertoare format de fiier
au fost: CSVLoader, C45Loader i SerializedInstanceLoader astfel atunci cnd fiierul
WEKA ARFF nu a putut fi ncrcat, sistemul va apela n mod automat convertorul
format de fiier n mod automat Converter pentru tipurile suplimentare de fiiere n
format ARFF pentru testare.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

36

6.4 Interfaa sistemului


WEKA folosete o serie de tehnici de nvare main standard, care este interfa
unificat grafic (GUI), pentru a combina cu multe metode de pre-procesare si postprocesare, se aplic mai multe algoritmi de nvare diferite n seturi de date, i s
evalueze rezultatele corespunztoare. Atunci cnd utilizatorul execut WEKA, interfata
GUI WEKA Selector va aprea, aa cum se arat n figura 6.2, inclusiv Simple CLI,
Explorer, Experimentul, cunotine Flow.

Figura 6.2 Interfaa de WEKA


Am facei clic pe butonul Explorer, du-te n interfaa grafic cu utilizatorul Explorer, aa
cum se arat n figura 6.2.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

37

Figura 6.3 Interfaa de WEKA


In figura 6.3, exist ase etichete n partea de sus a interfeei WEKA Explorer, separat
corespunztoare diferitelor metode de exploatare a datelor susinute de WEKA.
Acestea includ: Process, clasificare, Cluster, asociat, Select atribute, vizualiza. Prin
aceast interfa utilizator, toate funciile WEKA poate fi completat prin selecie de
meniu i forma de umplere. Acest lucru este nu prin schimbarea opiunii n meniu,
setarea opiunii nu se aplic n sensul c nu este disponibil, precum i proiectarea
opiunile de utilizare ca forma de umplere form, pentru a ghida pas cu pas de utilizator
pentru a explora complet algoritmul n ordine corect. n acelai timp, ofer, de
asemenea, sfaturi de utilizare instrumente n fereastra pop-up, care este un mare ajutor
pentru utilizatori, precum i valorile implicite rezonabile permite utilizatorilor pentru a
obine rezultatele dorite cu un efort minim.
In plus, WEKA conine, de asemenea, trei interfee grafice, dup cum urmeaz:
(1) Interfata Experiment: Acesta este conceput pentru a ajuta utilizatorii s rspund la
problema de baz ntlnite n aplicarea practic, care este, ce metode i parametrii
pot obine cel mai bun rezultat. Dei exploratorul poate, de asemenea interactiv
compara diferite tehnici de nvare, interfata Experiment poate face procesul mai
automatiza i simplu.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

38

(2) Interfata Debit de cunotine: Aceasta permite utilizatorilor s creeze cum s se


ocupe de fluxul de date de la sine. Aceasta permite utilizatorilor s glisai caseta de
pe ecran, care este algoritmi de nvare expres i sursa de date, i s le mpreun
pentru a seta. Acest lucru permite utilizatorilor s combine toate prile care
prezint separat sursele de date, instrumente de prelucrare, metode de nvare,
evaluare i instrumente de vizualizare module mpreun, formeaz un flux de date,
apoi realiza lotul elementare citit i tratament de seturi mari de date, Explorer poate
doar se ocupe de probleme seturile de date mici i mijlocii la scar.

(3) CLI simpl: Prin rularea interfa simpl CLI, utilizatorii pot realiza funciile de baz
ale Explorer. Cunoaterea Flow i experimentator de WEKA. Cnd utilizatorul
tasteaza un programul fr nici opiunile de linie de comand n caseta de editare
din partea de jos a interfeei, panoul de deasupra casetei de editare va afia toate
opiunile disponibile: n primul rnd, opiunile generale, apoi opiuni asociate cu
programul. Prin introducerea comenzii de funcionare corespunztoare, funcia
corespunztoare poate fi atins.

6.5 Test de proiect


Procesul de exploatare a datelor n sistemul WEKA
nainte de experimentul de WEKA data mining, ar trebui s aruncm o privire ca
procesul de sistemul de exploatare a datelor WEKA. Scurt descriere Fiecare nivel de
proces mining este descris dup cum urmeaz:
(1) Strat de intrare de date: Aceasta este faza de pregtire a ntregului mining. Exist
trei modaliti de introducere de date, deschiderea dosarelor locale, site-ul de
download, import baza de date. Deschidei fiierele locale pot importa ARFF,
formate CSV, C4.5, BSI.
(2) Strat mining: Aceasta include preprocesare, clasificarea, gruparea i alte funcii;
preprocesare este cea mai important parte. n acest strat, vom lua preprocesare
pe date n primul rnd, i apoi se pune seturile de date prelucrate n programe de
nvare pentru a ndeplini sarcinile miniere corespunztoare.
(3) Strat de evaluare Model: Este nevoie de model de evaluare cu privire la rezultatul
de data mining, analize i studii de rezultatele mining.
(4) Strat Vizualizare: Se realizeaza vizualizare a datelor, proces minerit vizualizare, i
minerit rezultat vizualizare, ofer un instrument bun suport pentru exploatarea i
mbuntete eficiena minerit.
(5) Strat de depozitare: Se utilizeaz un format specific pentru a stoca rezultatele
miniere.

Deoarece acest test necesit o mulime de date reale pentru a testa, am ales datele
experimentale i rezultatele experimentale din echipa de proiect am fcut nainte, n

timpul plasamentului de lucru. Aici

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

39

urmeaza testul funcia de clustering si analiza.


n modulele de funcii clustering, am ales flori iris ca exemple de setul de date de test,
care conine 150 de eantioane de exemple, fiecare prob are patru atribute, lungime
foaie, cu o lime foaie, lungime petal, cu o lime petal, i ei sunt numeric. Dup cum
tim deja dinainte c irisului are trei categorii, setosa, de culoare versi, virginica, deci
vom folosi algoritmul SimpleKMeans n acest experiment grupare. n acelai timp, vom
schimba numrul de grup (numClusters) la 3 n caseta de editare obiect grup, iar apoi
vom rula i a vedea un grafic grupare vizual. Dup cum se arat n Figura 6.4, seturi de
date din aceast cifr sunt mprite n trei categorii, rou reprezint iris-setosa, verde
reprezint iris-versicolor, albastru reprezint iris-virginica. Fiecare categorie de iris
dispune de 50 de probe; putem sa vizualizati fiecare punct n acest grafic bidimensional,
pentru a vedea valorile specifice atributelor i irisul categorie care instan la acest
punct.

Figura 6.4 Rezultatul experimental

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

40

7 Concluzii
Aceast tez descrie mediul de reea actual noi trim acum, pur i simplu analizeaz
dezvoltarea i starea matur de tehnologie de reea, a discuta despre urmatorul faa
locului tehnologie fierbinte, care pot promova progresul societii umane, i de a obine
actualul fenomen "explozia de date, dar lipsa de cunotine ". Am descoperit ca
oamenii spera pentru a analiza datele de nivel superior pentru a face mai bun utilizare
a acestor date, ceea ce duce la mining i de descoperire de cunotine tehnici, i a
fcut o elaborare detaliat i introducerea pe metoda de exploatare a datelor, care a
fost propus n anii 80 ai secolului 20. Capitolul trei i patru capitol introduce detaliile
cererii mining n reea i de afaceri, i s introduc mai multe cazuri de succes i
metode de exploatare a datelor bazate pe caracteristicile statistice, i un algoritm tipic
bazat pe aceast metod, care este algoritmul arbore de decizie. n cele din urm, teza
introduce software-ul WEKA i unele cunotine interdependente, iar procesul de
testare, precum i un test simplu pe data mining bazat pe platforma WEKA.
Desigur, pentru c acest subiect este un domeniu care nu le-am atins nainte, trebuie
s existe unele deficiene, fie opinii de la un punct de cercetare sau un punct de
aplicaie practic. n viitor a dori s studieze mai profund, aplicaii de data mining de
cercetare.
Ca un instrument de minerit, data mining este convenabil pentru analiz. Nu pot fi
utilizate numai pentru cunoatere a mea, dar, de asemenea, poate fi folosit pentru
suport decizional i analiz de predicie, faciliteaz foarte mult de gestiune a bazei de
date.
Data mining este acelasi cu alte tehnologii, aplicaii sale au avantaje i dezavantaje.
Deoarece data mining poate extrage un fel de cunoatere care nu este uor de gsit,
dac nu este folosit corect, acesta poate reprezenta o ameninare la adresa vieii
private i de informaii de securitate. Pentru a rezolva aceast problem, trebuie s
dezvolte n continuare metodologia, n scopul de a asigura protecia vieii private i de
securitate a informaiilor n timpul procesului de exploatare.

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

41

Referinte
[1] Zhangwei, Liao Xiaofeng, Wu Zhongfu. O nou metod de grupare bazat pe
algoritmul generic [J]. Informatic. 2002, 29 (6): 114-116.
[2] Lin Sin, Xu Peng, Liu Qiong. Clasificare de trafic bazat pe mainile vectoriale suport
[J]. Cercetare i dezvoltare de calculator 2008, 25 (8): 2488-2490.
[3] Kim H, K Claffy, Fomenkov M, Barman D, Faloutsos M, Lee K. clasificare trafic
Internet demistificat: mituri, obiecii i cele mai bune practici [A]. In: ACM CoNEXT
Conference [C]. ACM: Madrid, Spania, 2008, 1-12.
[4] Data Mining Aplicaii site-ul introducere:
http://wenku.baidu.com/view/594457cda1c7aa00b52acb38.htmlAccessed:2011-04-02
[5] Reea de trafic site-ul introducere:
http://baike.baidu.com/view/411702.htmAccessed:2011-04-02
[6] Han J, Kamber M. Data Mining: Concepte i tehnici [M]. Morgan Kaufmann
Publishers: San Francisco, Statele Unite ale Americii, 2000.
[7] Tan PN, Steinbach M, Kumar V. Introducere n Data Mining [M]. Addison-Wesley:
Michigan State, Statele Unite ale Americii, 2006.
[8] Soare Guijie, Liu Jie, Zhao Lianyu. Cercetare algoritm Clustering [J]. Software-ul
Jurnal 2008, 19 (1): 48-61
[9] Nguyen TTT, Armitage G. Un sondaj de tehnici de clasificare a traficului pe
Internet, folosind masina de nvare [J]. Sondaje i Tutoriale 2008 IEEE
Communications, 10 (4): 56-76.
[10] Xu Peng, Lin Sin. Clasificare de trafic bazat pe arbori de decizie C4.5 [J].
Software Jurnalul 2009,20 (10): 2691-2074
[11] Site-ul oficial WEKA:
http://www.cs.waikato.ac.nz/ml/weka/Accessed:2011-03-01

TURKU UNIVERSITATEA DE Stiinte Aplicate, teza de licen | Xiaoli Geng

S-ar putea să vă placă și