Sunteți pe pagina 1din 4

Preprocesare Date

Se da fisierul: hypothyroid.arff care conine informaii referitoare la afectiuni ale tiroidei.


Informaiile sunt cuantificate pentru un numar de 5 categorii (clase) de afectiuni
hypothyroid,
primary hypothyroid,
compensated hypothyroid,
secondary hypothyroid,
negative.
Fiecare din aceste afectiuni este caracterizat de un numr de 29 atribute
Nume atribut
age:
sex:
on thyroxine:
query on thyroxine:
on antithyroid medication:
sick:
pregnant:
thyroid surgery:
I131 treatment:
query hypothyroid:
query hyperthyroid:
lithium:
goitre:
tumor:
hypopituitary:
psych:
TSH measured:
TSH:
T3 measured:
T3:
TT4 measured:
TT4:
T4U measured:
T4U:
FTI measured:
FTI:
TBG measured:
TBG:
referral source:

Valoare
continuous.
M, F.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f, t.
f,t.
continuous.
f,t.
continuous.
f,t.
continuous.
f,t.
continuous.
f,t.
continuous.
f,t.
continuous.
WEST, STMW, SVHC,
SVI, SVHD, other

Fisierul conine
Num Instances: 3772
Num Attributes: 30
Num Continuous: 7 (Int 1 / Real 6)
Num Discrete:
23
Missing values: 6064 / 5.4

Preprocesare Date

Preprocesare
1. In setul de date exista atat date complectate incorrect
Pentru cazul in discutie avem de exemplu pentru varsta personae care au 1 an respective
455 ani. Daca varste de 1 an pot fi considerate corecte cele de 455 ani sunt sigur
incorecte:

Eliminarea lor se face cu :

Presupunem ca luam in considerare numai persoanele cu varsta cuprinsa intre [10, 100]
ani. Se va vizualiza modul in care se scriu expresiile care asigura filtrarea instantelor din
baza de date. Vezi optiunile More si Capabilities, inclusive modul in care se introduce
expresiile din figura de mai jos ( atributele se noteaza cu ATTI I=1,n:

Preprocesare Date

Exercitiu
Sa presupunem ca valoarea TSH poate fi maxim 150. Cele care depasesc aceasta valoare
sunt gresite. Inlaturati valorile gresite.
Salvati baza de date corepunzatoare acestei faze de prelucrare.

2. Inlocuiti valorile lipsa si salvati baza de date rezultata. Inlocuirea se face cu :

3. Determinati care sunt atributele cele mai importante. Se va utiliza secventa:

Preprocesare Date

Exercitiu
Selectati aceste attribute (inclusive atributul de clasa) si creati o noua baza de date pe care
o salvati

4. Construiti pentru setul de date rezultat o :


a) Regula de tip if then else simpla pentru clasificarea in 5 clase a datelor
b) Regula de tip if then else multipla pentru clasificarea in 5 clase a datelor
Care este precizia clasificatorului obtinut?
5. Determinati pentru setul de date in discutie care sunt :
a) Prototipurile pentru cele 5 clase. Care sunt valorile medii pentru atributele luate in
discutie?
b) Obiectele representative pentru cele cinci clase. Care sunt valorile medii pentru
atributele luate in discutie?
Care este precizia clasificatorului obtinut in ambele cazuri?

S-ar putea să vă placă și