Sunteți pe pagina 1din 19

PREPRCESAREA DATELOR Data preprocessing

Introducere
Data mining (Mineritul Datelor) adesea se ocup cu date care nu au fost privite de multi ani, astfel c o mare parte din date conin campuri cu valori, care au expirat, nu mai sunt relevante, sau pur i simplu lipsesc. Obiectivul major este de a reduce la minim GIGO: reducerea la minim a "gunoiului", care ajunge in model astfel incat sa se reduca cantitea de gunoi pe care modelul o ofera la iesire. In aceasta parte de preprocesare se vor examina urmatoarele doua faze ale procesului standard CRISP-DM, intelegerea datelor si pregatirea datelor. De asemenea se arata cum se evalueaza calitatea datelor, curatirea de date neprelucrate(rawdata), tratarea datelor lipsa, i cum se efectueaza transformri pe anumite variabile. Preprocesarea - stadiul de curare a datelor n care anumite informaii sunt ndeprtate, de asemenea se determin metode de lucru cu cmpuri de date lips. Pentru a pregati datele pentru modelare este nevoie sa intelegem:
-

De ce este nevoie pentru a preprocesa datele?

O mare parte din rawdata (date neprelucrate) coninute n bazele de date sunt preprocesate, incomplete, i contin zgomote. Zgomotul este o eroare aleatoare sau variabil n valorile msurate. Acesta poate duce la erori n evaluarea pattern-urilor. Cteva tehnici de netezire a datelor (eliminare a zgomotului) sunt: 1. Filtrarea 2. Clusterarea 3. Combinarea inspeciei umane cu cea a calculatorului 4. Revenirea la starea anterioar. De exemplu, bazele de date pot conine: Cmpurile care sunt nvechite sau redundante Valorile lipsa Valori de tip text Valorile aberante Datele intr-o forma care nu este potrivita pentru modelele data mining Valorile incoerente cu politica sau sens comun. Bazele de date trebuie s fie supuse preprocesarii, n form de curare de date i transformare de date, pentru a fi utile pentru scopurile de exploatare a datelor. Dorian Pyle, n cartea sa Pregtirea datelor pentru data mining [1], estimeaz c pregtirea de date reprezint 60% din tot timpul i efortul depus n ntregul proces de data mining. n acest capitol vom examina dou metode principale pentru pregtirea datelor ce vor fi extrase: curatarea datelor i transformarea datelor. Bazele de date din lumea real sunt astzi foarte susceptibile la zgomot, la lipsuri i inconsisten a datelor. Pentru a putea obine rezultate folositoare din date se folosesc urmtoarele tehnici de preprocesare:
2

Curirea datelor Agregarea datelor; Selectarea datelor; Transformarea datelor; Reducerea datelor.

Aceste tehnici sunt aplicate apriori procesului de data mining i pot mbunti calitatea procesului pentru gsirea abloanelor i/sau reducerea timpului necesar pentru mineritul efectiv.[URL2]

1) Curarea Datelor
Deoarece datele pentru procesul de data mining sunt preluate din diverse surse, acestea au deseori diverse structuri i valori eronate sau lips. Algoritmii de curire a datelor ncearc sumple valorile lips, s netezeasc valorile considerate zgomot prin identificarea extremelor i s corecteze inconsistenele n date. Pentru a ilustra necesitatea de curatare a datele, s privim la unele dintre tipurile de erori care s-ar putea strecura chiar intr-un set mic de date, ca acela din tabelul 2.1. S presupunem c se ateapt ca toi clienii din baza de date sa aiba formatul uzualul de cinci cifre al codului postal U.S. Clientul cu ID 1002 are acest ciudat (pentru ochii americanilor) cod postal de J2S7K7. Dac nu am fi ateni, am putea fi tentai s clasificam aceasta valoare neobinuit ca eroare i sa-l aruncam, pn cnd ne-am opri si ne-am gndim c nu toate rile utilizeaz acelai format al codului potal. De fapt, acesta este codul postal al Sf. Hyancinthe, Quebec, Canada, aceasta reprezint, probabil, date reale de la un client real. Ce n mod evident a avut loc este c un client francez-canadian a fcut o achiziie si a pus codul potal n cmpul obligatoriu. Mai ales n aceast epoc din America de Nord unde acordul de comert e liber, trebuie s fim gata s ne ateptm la valori neobinuite n domenii cutate ca codurile zip, care variaz de la ar la ar. Despre codul potal pentru clientul 1004? Noi nu suntem constienti ca orice tara are patru cifre in codurile zip, cum ar fi 6269 indicat aici, deci aceasta trebuie sa fie o eroare, nu?

IDENTIFICARE Client 1001 1002 1003 1004 1005

Zip 10048 J2S7K7 90210 6269 55101

Genul M F M F

Venituri 75000 -40000 1000000 0 50000 99999

Varsta C 40 45 0 30

Starea civil C V S S D

Suma Tranzaciei 5000 4000 7000 1000 3000

TABELUL 2.1 Se poate gsi orice problema n acest mic set de date?

Probabil c nu. Codurile zip pentru statele din Noua Anglie ncep cu numeralul 0. Cu excepia cazului n care codul zip este definit a fi caracter (text) i nu numeric, software-ul probabil c va taia pe zero, care este aparent ceea ce s-a ntmplat aici. Codul zip este, probabil, 06269, care se refer la Storrs, Connecticut, casa Universitatii din Connecticut. Urmtorul cmp, genul, conine o valoare lips pentru clientul 1003. Domeniul veniturilor, care msoara venitul brut anual, are trei potentiale valori anormale. Primul, clientul 1003 arata ca are un venit de 10 milioane dolari pe an. Dei totul este posibil, mai ales atunci cnd se analizeaz codul postal al clientului (90210, Beverly Hills), aceast valoare a veniturilor intra in categoria datelor de valoare extreme. Anumite statistici, data mining i tehnici de modelare nu vor funciona fr probleme, n prezena valorilor aberante. Srcia este ceva grav, dar este rar de gsit un venit care este negativ, dup cum sarcul client 1004 a avut. Spre deosebire de veniturile clientului 1003, clientul 1004 a raportat venituri de - 40.000 dolari care se afl dincolo de limitele pentru venituri i prin urmare, trebuie sa fie o eroare. Nu este clar modul n care aceast eroare s-a strecurat, probabil cu explicaia cea mai probabil fiind faptul c semnul negativ este o data eronata ratacita la intrare. Cu toate acestea, nu putem fi siguri i ar trebui s abordam aceast valoare cu precauie, ncercnd s fim mai familiarizati cu bazele de date. Deci, ce este n neregul cu venitul clientului 1005 de 99.999 dolari? Poate c nimic, acesta poate, n fapt, s fie valabil. Dar dac toate veniturile celelalte sunt rotunjite la cel mai apropiat de $ 5000, de ce este de precizie clientul 1005? Adesea, n bazele de date vechi, anumite valori specifice sunt menite a fi codurile de intrri anormale, analizate ca valori lips. Poate 99 999 a fost codificat ntr-o baz de date veche s nsemne lipsuri. Din nou, nu putem fi siguri i posibil se refera din nou la articole lipsa. n cele din urm, este clar ca nu stim in ce unitate de msur este precizat venitul. De exemplu, este foarte posibil ca clientul 1002, cu codul postal canadian, are un venit msurat n dolari canadieni, nu dolari U.S. Cmpul de vrst are cateva probleme. Dei toi ceilali clieni au valorile numerice pentru vrst, varsta clientului 1001 este C, probabil, reflect categorizarea pe vrsta ntr-un co marcat C. Software-ul de data mining nu va fi sigur de valoare categoric n domeniul numeric. Despre clientul 1004, varsta de 0? Poate c exist un nou-nscut brbat n Storrs Connecticut, care a fcut o tranzacie de $ 1000. Probabil, vrsta la aceast persoan lipseste i a fost codificata cu 0 pentru a indica aceasta sau o alt condiie anormal (de exemplu, a refuzat s ofere informaii despre vrst). Desigur, pstrarea unui cmp de vrst ntr-o baz de date este un teren minat n sine, deoarece trecerea timpului va face mai repede valorile din campuri nvechite i neltoare. Este mai bine pentru a menine data-tip (domenii analizate ca ziua de nastere), ntr-o baz de date, deoarece acestea sunt constante i pot fi transformate n vrst atunci cnd este necesar. Cmpul starii civile pare bine, nu? Poate nu. Problema sta n spatele acestor simboluri. Noi toti credem c tim ce nseamn aceste simboluri, dar uneori sunt surprinzatoare. De exemplu, dac suntei n cutare de ap rece ntr-o toalet n Montreal i pornii la robinet butonul marcat cu C, poate fi o surpriza, deoarece C, standard pentru Chaud, care este in limba francez pentru cald. Exist, de asemenea, problema de ambiguitate. n tabelul 2.1, de exemplu, este S pentru clientii 1003 i 1004 pentru singur sau separat? Domeniul suma tranzaciei pare satisfctoare, att timp ct suntem ncreztori c tim ce unitate de msur este folosit i c toate nregistrrile sunt tranzacionate n aceast unitate.
4

Manipularea datelor de tip text


Valorile de tip text ridic numeroase dificulti. Aceleai cuvinte separate de un numr diferit de spaii reprezint, n calculator, valori diferite. Chiar notaii cu structur riguros definit, cum sunt numerele de nmatriculare auto, pot genera asemenea probleme. Din aceast cauz este preferabil excluderea acestui tip de variabile. Dac prelucrarea lor nu poate fi totui evitat, soluia cea mai sigur const n codificarea prin tabele de corespondene, n care s figureze toate irurile valide de caractere.[URL1]

Manipularea Datelor Lips


Lipsa de date este o problem care continu s afecteze metodele de analiz a datelor. Lipsa de informaii este rareori benefica. Prin urmare, ar trebui s ne gndim cu atenie la modul n care ne ocupam de problema spinoas a disparitiei datelor. Pentru a ne ajuta in abordarea aceastei probleme, vom introduce noi date, adica un set de date despre masini, iniial elaborate de Ronny Kohavi i Becker Barrydin Silicon Graphics, SGI, i disponibile la depozitul de date on-line la www.sgicom / tech / MLC / db. Setul, contine informaii despre 261 de automobile fabricate n anii 1970 i 1980, inclusiv emisiile de gaze, numrul de cilindri, capacitatea cilindrica, cai putere, i aa mai departe. S presupunem, totui, c unele dintre valorile de teren care au fost, lipsesc pentru anumite nregistrri. Figura 2.1 ofera primele 10 nregistrri din setul de date, cu unele din campuri fara valori (indicat n albastru). Software-ul folosit n aceasta seciune pentru analiza valoriilor lips este Informativ Miner, prin Informativ Corporation (Www.insightful.com).

O metod comun de manipulare a valorilor lips este pur i simplu de a omite de la analiza, nregistrri sau cmpuri cu valori lips. Cu toate acestea, acest lucru poate fi periculos, deoarece modelul valorilor lips poate fi, n fapt, sistematic, i pur i simplu tergerea nregistrrii cu valori lips duce la un subset tendenios a datelor. Mai mult, se pare ca omiterea unei valori
5

lipsa poate sa produca pierderi de informaii n toate celelalte domenii, doar pentru c valoarea unui camp lipsete. Prin urmare, analitii de date au apelat la metode care ar urma s nlocuiasc valoarea lipsa, cu o valoare de nlocuit n funcie de diverse criterii. Informativ Miner ofer o gam de valori de nlocuire pentru datele care lipsesc: 1. nlocuirea valorii lips, cu o constant, specificat de ctre analist. 2. nlocuirea valorii lips, cu medie (pentru variabile numerice), sau Modulul (pentru variabile categoriale). 3. nlocuirea valorii lips, cu o valoare generata la ntmplare observata pe baza variabilei de distribuie. S aruncm o privire la rezultatele pentru fiecare dintre cele trei metode. Figura 2.2 prezinta rezultatul de nlocuire a valorilor lips cu constanta pentru valoarea numeric 0.00 i eticheta lips pentru variabilele categoriale.

Figura 2.3 ilustreaz modul n care valorile lips pot fi nlocuite cu media i modulul. Numarul de cilindri este o variabila categoric, cu modulul de 4, software-ul nlocuiete valoarile lips cu valorea 4. Capacitatea cilindrica, pe de alt parte, este continu (numeric), astfel nct software-ul nlocuiete valorile lips cu valori = 200.65, care este valoarea medie a celor 258 valorilor nonmissing.

Mai mult, media nu poate fi ntotdeauna cea mai bun alegere pentru ceea ce constituie o valoare "tipica". De exemplu, dac multe valori lips se nlocuiesc cu media, nivelul rezultatului de incredere pentru inferen statistic va fi peste optimism, deoarece msurile de rspndire vor fi reduse n mod artificial. Trebuie subliniat c nlocuirea valorilor lips este un joc de noroc, iar beneficiile trebuie s fie cntrite mpotriva posibillitatii invaliditatii rezultatelor. n cele din urm, Figura 2.4 demonstreaz cum Informativ Miner poate nlocui lipsa de valori cu valori generate n mod aleatoriu de variabila de distributie observat. n Figura 2.3 cum de cele patru inregistrari cu valori lipsa al caror camp numar cilindri, au fost inlocuite cu aceasi valoare, ntruct, n Figura 2.4, valorile lips au fost nlocuite cu diferite valori stabilite proporional din distribuia valorilor pe numarul de cilindrii. Pe termen lung, aceast metod este, probabil, superioar mediei de substituie, deoarece, printre alte motive, msurile de centru i de rspndire ar trebui s rmn mai aproape de original. Aceast capacitate de a nlocui valorile lips aleatoriu prin distribuie este unul dintre beneficiile Informativului Miner. Cu toate acestea, nu exist nici o garanie c inregistrarile rezultate ar avea sens. De exemplu, valorile aleatorii elaborate n Figura 2.4 ofera o imagine neleapta, dar este ca nregistrarea 5 sa aiba un numar de cilindri= 8, si o capacitate cilindrica= 82, ceea ce e intr-adevar un motor ciudat! Prin urmare, alte metode, mult mai elaborate, care exista se strduiesc s nlocuiasc valorile lipsa mai exact i precis. De exemplu, exist, metode care cer: Care ar fi valoarea cea mai convenabila pentru aceast valoare lips avnd n vedere toate celelalte atribute pentru o nregistrare anume?

De exemplu, o main american, cu o capacitate cilindrica de 300 cm i 150 de cai putere ar fi, probabil, de ateptat sa aiba mai multi cilindrii dect o main japonez, de 100 cm i 90 cai putere.

Identificarea clasificrilor eronate


S ne uitm la un exemplu de verificare a etichetelor pe clasificarea variabilei categorice, pentru a v asigura c toate acestea sunt valabile i coerente. Una dintre funciile Informativului Miner, este de a afia distribuia frecvenei pe categori a variabilei disponibile. De exemplu, distribuia frecvenei pe variabila categorica origine, prin aplicarea functiei asupra setului de date masini, este dat n tabelul 2.2.

Distribuia frecvenei prezinta cinci clase: SUA, Frana, Statele Unite, Europa si Japonia. Cu toate acestea, doua dintre clase, SUA si Frana, au un numr de doar un automobil fiecare. Ce se ntmpl aici este n mod clar c dou dintre nregistrri au fost clasificate inconsecvent cu privire la originea de fabricare. Pentru a menine coerena cu restul set de date, pentru nregistrarea cu SUA, originea ar fi fost etichetate SUA, i pentru nregistrarea Frana originea ar fi fost etichetata Europa.

Metode grafice pentru identificarea valorilor aberante


Valorile aberante sunt valori extreme, care se afl n apropiere de limita setului de date sau sunt contrare tendinei datelor ramase. Identificarea valorilor aberante este importanta, deoarece acestea reprezint erori n datele de intrare. Chiar dac valoarea aberanta este o data valida i nu o eroare, anumite metode statistice sunt sensibile la prezena valorilor aberante si pot produce rezultate instabile. Reelele neuronale sunt benefice pentru normalizare, cum ar fi algoritmul knearest neighbor care se bazeaza pe masurarea distantei cautand cel mai apropiat vecin. O metoda grafica pentru identificarea valorilor aberante in cazul variabilelor numerice este examinarea unei histograme. Figura 2.5 prezint o histogram generata pe baza greutatii vehicului din setul de date autoturisme. Nu pare a fi un singur vehicul n extrema stanga a cozii de distribuie, cu o greutate de sute de kilograme, dect mii. Examinand datele statistice furnizate de Informativul Miner, gsim greutatea minim a unui vehicul ca fiind de 192.5 de kg, care este, fr ndoial, puin inferioara in coada fata de valoarea aberanta. Pentru un automobil sa aiba o greutate de 192,5 kg tindem s ne ndoim de valabilitatea acestei informaii. O examinare atenta arat c toate celelalte vehicule au greutatea lor nregistrat n numere ntregi, fr zecimale, spre deosebire de valoarea aberanta. Prin urmare, putem presupune c, probabil, greutatea, care iniial era de 1925 de kg, cu zecimale ajunge undeva de-a lungul liniei.

Uneori, bidimensionalele scatter plots pot ajuta pentru a dezvlui valori aberante pentru mai multe variabile. n Figura 2.6 se prezinta un scatter plots intre mpg si greutatea unde sunt prinse cele doua valori aberante. Toate punctele mpreun care se afla de-a lungul axei orizontale formeaza un cluster, cu excepia celor dou valori aberante. Valoarea din stnga este pentru acelai vehicul ca cel identificat n Figura 2.5, cu o greutate de numai 192.5 de kg. Valoarea din coltul dreapta sus este ceva nou: o main care prinde peste 500 de mile pe galon! Ar fi fost o veste mare n orice moment cnd, aceste date au fost extrase, mai ales ca in 1970 erau zilele cu criz de energie. n mod evident, cu excepia cazului n care acest vehicul functioneaza pe baza de cristale dilithium, ne-am uita la o eroare de introducere a datelor.

2)

Transformarea Datelor

O reprezentare a datelor care este compatibil cu algoritmul data-mining ce urmeaz a se implementa se realizeaz n aceast etap. Datele sunt analizate cu scopul determinrii unor caracteristici pentru a reprezenta datele n concordan cu inta ce trebuie atins. Transformarea datelor const n reprezentarea sau consolidarea datelor ntr-o form convenabil pentru mineritul datelor. Ea implic urmtoarele: Netezirea; Agregarea; Generalizarea Normalizarea Construirea atributelor. Variabilele tind sa aiba intervale, care variaz foarte mult de la una de alta. Pentru unii algoritmi de data mining, analiza diferenelor dintre valori vor conduce la variabile care au o influnta mare asupra rezultatelor. Prin urmare, data mining ar trebui s normalizeze variabila numeric, s standardizeze scara de sens, fiecare variabil avand asupra sa rezultate. Exist mai
10

multe tehnici de normalizare, i vom examina dou dintre metodele cele mai predominante. Fie, X care se refer la valoarea noastr din cmpul original i X * care se refer la valoarea cmpului normalizat.[2] Normalizarea Min-Max Normalizarea min-max este folosita pentru a vedea cat de mare este valoarea din camp decat minimul valorii min(X),si masurand aceasta diferenta pe intervale.

De exemplu, consideram variabila timp de 60 pentru setul de date masini care masoara timpul(in secunde), de care are nevoie fiecare automobil sa atinga 60 mile pe ora. S-a gasit normalizarea min-max pentru 3 autovehicule, pentru variabila timp de 60 ca fiind 8, 15.548 respectiv 25 secunde. Privind Figura 2.7 se observa o histograma pentru variabila timp de 60, impreuna cu un rezumat statistic. Pentru un vehicul pregatit pentru drag racing, caruia ii trebuie doar 8 secunde (campul cu valoare minima) pentru a atinge 60 mph, normalizarea min-max este:

Plecand de la acest calcul se observa ca valorile datelor care reprezinta minimul pentru variabila vor avea o normalizare min-max egala cu 0.

11

Pentru vehiculele medii (daca exista) carora le trebuie exact 15.548 secunde(media variabilelor) pentru a atinge 60 mph normalizarea min-max este:
-

Acest lucru ne spune ca ne putem astepta la valori ale variabilelor care se gasesc langa centrul de distributie avand normalizare min-max in apropiere de 0.5. Pentru vehiculele o sa ajung acolo cand sunt pregatit carora le trebuie 25 secunde (variabila maxima) sa atinga 60 mph normalizarea min-max este

Pentru aceasta, valorile datelor reprezinta campul cu valoarea maxima care are normalizarea min-max egala cu1. Ca si rezumat, valorile normalizarii min-max au un interval de la 0 la 1,mai putin valorile datelor care se gasesc in afara intervalului original.

Normalizarea Z-Scor
Scorul Z care este foarte utilizat in lumea analizei statistice, rolul lui este sa extraga diferenta dintre valoarea campului si media valorii campurilor, si masurand aceasta diferenta prin abatarea standard a valorii campurilor. Aceasta este:

Pentru vehiculele carora le trebuie doar 8 secunde sa atinga 60 mph, scorul Z este:

Astfel, datele cu valori sub medie vor avea un scor Z negativ.


Pentru vehiculele medii (daca exista) carora le trebuie exact 15.548 secunde(media variabilelor) pentru a atinge 60 mph scorul Z este:

Acest lucur ne idica faptul ca valorile variabilelor care se incadreaza exact in medie vor avea un scor Z egal cu 0.
-

Pentru masinile carora le trebuie 25 secunde pentru a atinge 60 mph, scorul Z este:

12

Astfel, datele cu valori peste medie vor avea un scor Z pozitiv.

Ca si rezumat, valorile scorului Z vor fi de obicei in intervalul [-4,4], iar valoarea medie avand scorul Z egal cu 0. Figura 2.8 este o histograma pentru variabila timp de 60 in care Informativ Miner calculeaza scorul Z pentru fiecare valoare a campului. De retinut ca distributia este centrata in jurul valori 0 si ca minimul si maximul se afla in intervalul de [-4,4].

Metode Numerice Pentru Identificarea Valorilor Aberante


O metod utilizata de statistica pentru a identifica valorile extreme este de a utiliza Z-scor. Deseori, o valoare extrema poate fi identificat, deoarece aceasta este mult mai departe dect 3 abateri standard de la medie i prin urmare are un scor Z, care este fie mai mic de -3 sau mai mare de 3.Campurile cu valori care au un scor Z dincolo de acest interval, probabil, au nevoie de investigaii suplimentare pentru a verifica faptul c ele nu reprezint erori in datele de intrare sau alte probleme. De exemplu, vehicului caruia ii trebuie un timp de 25 secunde pentru atingerea a 60 mph a avut Z-scor de 3.247. Aceast valoare este mai mare dect 3 (dei nu cu mult mai mult), i, prin urmare acest vehicul este identificat prin aceast metod ca valoare extrema. Analistul de date poate dori sa investigheze valabilitatea acestei valori sau, cel puin sugereaz c vehiculul poate a obinut o optimizare. Din pcate, media i abaterea standard, ambele parte a formulei pentru normalizarea Z-scor, sunt destul de sensibile la prezena valorilor aberante. Dac setului de date i se adaug valori aberante, valoarea medie i abaterea standard vor fi atat de afectate n mod
13

necorespunztor de aceast valoare. Prin urmare, atunci cnd alegei o metod de evaluare a valorilor extreme, ar fi indicat sa nu se foloseasca masuri care sunt sensibile la prezenta acestor valori. Prin urmare, analitii de date au dezvoltat mai multe metode statistice robuste pentru detectarea valorilor extreme, care sunt mai puin sensibile la prezena valorilor aberante n sine. O metod elementar de robuste este utilizarea gamei de interquartile.Quartile impart setul de date stabilit n patru pri, fiecare coninnd 25% din date. - Prima quartile (Q1), este percentila 25. - A doua quartile (Q2) este percentila 50, care este, median. - A treia quartile (Q3), este percentila 75. Gama interquartile (Iqr) este o msur de variabilitate, care este mult mai robusta dect abaterea standard. Iqr se calculeaz ca Iqr = Q3-Q1 poate fi interpretat ca reprezentand rspndirea de mijloc 50% din date. O msur robusta de detectare a valorilor aberante este definit dup cum urmeaz. Valoarea unei date este aberanta daca: a) este situata la 1,5 (Iqr) sau mult mai jos de Q1, sau b) este situata la 1,5 (Iqr) sau mult mai sus de Q3. De exemplu, s presupunem c pentru un set de scoruri de testare, percentila 25, Q1 = 70 i percentila 75 a fost Q3 = 80, astfel c jumtate din toate rezultatele testelor au cazut ntre 70 i 80 . Apoi, gama de interquartile, diferena dintre aceste quartile, care este Iqr = 80 - 70 = 10 Un scor de testare robust ar fi identificat ca valori excepionale n cazul n care: a. Este mai mic dect Q1- 1.5 (Iqr) = 70 - 1.5 (10) = 55, sau b. Este mai mare dect Q3 + 1.5 (Iqr) = 80 + 1,5 (10) = 95

14

Tipuri de conversi
In aplicatiile profesionale cu DM in unele situati se cere o uniformizare a setului de date preluat, tocmai pentru a nu avea foarte multe tipuri de formate ingreunand astfel executia aplicatiei. Ca atare ne propunem conversia din anumite tipuri de date intr-un format AML. 1) Conversia CSV->AML ReadCSV Astfel din clasa de operatori Import se alege Data apoi ReadCSV. Acest operator poate citi fisiere csv, n cazul n care toate valorile unui exemplu sunt scrise ntr-o singur linie i separate de un separator constant.Separatorul potate fi specificat n colomn separatoars.Implicit va imparti linia dupa fiecare virgul, punct i virgul. Expresile arbitrar regulate sunt utilizabile ca separator. Valori goale i semnul de ntrebare este citit ca valore lips. Putei cita valorile (inclusiv separatoare de coloan), cu un citat dublu ("). Putei scpa de caracterul citnd cu un backslash, de exemplu \". Prima linie este folosit impicit pentru nume de atributet. Acest operator ncearc s determine un tip adecvat pentru atributele prin citirea primelor lini i verificarea valorilor care au avut de suferit. n cazul n care toate valorile sunt numere ntregi, atributul va deveni ntreg, n cazul n care apar numere reale, va fi de tip reale. Coloanele care conin valori care nu pot fi interpretate ca numere vor fi nominale, atta timp ct acestea nu se potrivesc modelului.

2) Conversia Excel->AML ReadExcel Din clasa de operatori Import se alege Data, apoi Read Excel. Acest operator poate ncrca date din orice fiier Microsoft Excel, ncepnd cu versiunea Excel 95 i continund pn la versiunea Excel 2003. Utilizatorul trebuie sa defineasc fila din fiier care va fi folosit ca surs de date. Tabelul trebuie sa fie n aa fel formatat, astfel nct fiecare linie s fie o valoare i fiecare coloan un atribut. De regul, prima linie este folosit pentru numele atributelor.

15

3) Conversia ARFF->AML

ReadARFF Din clasa de operatori Import se alege Data apoi ReadARFF. Acest operator poate citi fisiere ARFF. Un ARFF (atribute legtur File Format), fiierul este un fiier text ASCII care descrie o list de cazuri avand n comun un set de atribute. Fiiere ARFF au dou seciuni distincte. Prima seciune este de informaiile din antet, care este urmat de informaii ale datelor. Antet de fiier ARFF conine numele de relaia (@ care este, ignorat de RapidMiner) i o list de atribute, fiecare dintre acestea este definit printr-un atribut de pornire @, urmat de numele i de tipul su. Fiecare atribut n setul de date are propria sa declaraie ATTRIBUTE @, care definete n mod unic numele de atribut si tipul de date. Ordinea n care atributele sunt declarate indic poziia coloanei n seciunea de date a fiierului. Tipurile de atribute posibile sunt: Numeric - ntreg Real Fiecare exemplu este reprezentat pe o singur linie, cu randamente de transport care indic sfritul. Valorile atributelor pentru fiecare exemplu, sunt delimitate de virgule. Valorile lips sunt reprezentate de un singur semn de ntrebare, la fel ca n:?? 4.4, 1.5,, Iris-setosa Semnul la sut (%), introduce un comentariu i vor fi ignorate n timpul executari. Numele de atribute sau valor care conin spaii trebuie s fie citate cu ghilimele simple ('). Formatul ARFF sparse este utlizat n prezent doar pentru atribute numerice.

16

4) Conversia Sql->AML ReadDatabase Din clasa de operatori Import se alege Data apoi ReadDatebase. Acest operator citete date dintr-o baz de date SQL.Interogarea SQL poate fi generata automat prin nume de tabel. Comportamentul dorit poate fi ales prin parametrul define query. Numele coloanei este adesea sensibila. Baze de date se pot comporta diferit aici. nainte de a trimite o interogare la o baz de date, este nevoie de a crea o conexiune. S-ar putea alege fie Gestionare conexiuni de baze de date ... din meniul Instrumente din fereastra principal, sau facei clic pe butonul din dreapta al caseta vertical a parametrului conexiunii. Atunci cnd operatorul este executat, tabelul emis de interogare va fi copiat n memoria calculatorului. Aceasta va oferi tuturor operatorilor un acces rapid la date. Dac masa este prea mare pentru memoria principal, ai putea folosi operatorul de date Stream.

5) Conversie C4.5->AML ReadC4.5


Din clasa de operatori Import se alege Data apoi ReadC4.5. Formatul C4.5 contine doua tipuri de fisiere cu extensia (.names i .data). Ambele fiiere trebuie s fie n acelai director. Fisierul cu extensisa .names descrie setul de date, n timp ce fiierul cu extensia .data conine exemple care alctuiesc setul de date.Fiierele conin serie de identificatori i numere, cu o anumita sintaxa.| (bar vertical), nseamn c restul linie ar trebui s fie ignorata fiind un comentariu. Fiecare identificator format dintr-un ir de caractere care nu includ virgul, semn de ntrebare, o suita de spatii este permis, dar, de asemenea, mai multe spaii se nlocuiesc cu un singur spatiu..names conine o serie de nregistrri care descriu clasele, atributele i valorile setului de date. Fiecare intrare poate fi ncheiat cu o perioad, dar perioada poate fi omisa n cazul n care aceasta ar fi fost ultimul lucru pe o linie. Prima intrare n fiier enumer numele claselor, separate prin virgule. Fiecare linie definete un atribut, n ordinea n care acestea vor aprea n fiierul de date, cu urmtorul format.: Numele atributului: tipul atributului

17

Formatul de iesire AML


Pentru alegerea operatorului de iesire, din calsa de operatori Export se alege WriteAML. Scrie valori ale unor date ntr-un fiier AML. Aceste formate pot fi citit cu ajutorul CSB Read. Fiecare linie a fiierului de date generat este de forma atribute regulate <special attributes> De exemplu, fiecare linie ar putea avea forma valoare1 valoare2 ... valueN <id> <etichet> <prediction> ....confidences> Valorile din paranteze sunt opionale i sunt tiprite numai dac acestea sunt disponibile. Cele confidenele sunt oferite numai pentru previziuni nominale. Rar: Numai valorile non-0 sunt scrise la dosar, precedat de un indice de coloan.

18

Bibliografie

[1] Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, San Francisco, CA, 1999. [2] R. J. A. Little and D. B. Rubin, Statistical Analysis with Missing Data, Wiley, Hoboken, NJ, 1987. [URL1] http://www.cs.waikato.ac.nz/ml/weka/ [URL2] http://www.scribd.com/doc/63599902/13/Preg%C4%83tirea-datelor

19

S-ar putea să vă placă și