Documente Academic
Documente Profesional
Documente Cultură
Referat
la sisteme inteligente
cu tema:
„Analiza setului de date animal sleep”
anul.III - CALCULATOARE
proiect Tehnologii Internet, mai 2019
1
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE
Cuprins
1. Introducere
2. Preprocesarea datelor
3. Algoritmii pentru procesarea setului de date
3.1 Regresia liniară
3.2 Rețele neuronale
3.3 Random forest
Referințe
2
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE
1. Introducere
În prezenta lucrare se analizează setul de date animal sleep. Acesta
conține informații despre diferite specii de animale și obiceiurile lor de
somn. Atributele pe care le conține setul sunt:
body weight în kg
brain weight în g
total sleep (hrs/day) (sum of slow wave and paradoxical sleep)
maximum life span (years)
gestation time (days)
predation index (1-5)
o 1 = minimum (least likely to be preyed upon)
o 5 = maximum (most likely to be preyed upon)
sleep exposure index (1-5)
o 1 = least exposed (e.g. animal sleeps in a
o well-protected den)
o 5 = most exposed
overall danger index (1-5)
o (based on the above two indices and other information)
o 1 = least danger (from other animals)
o 5 = most danger (from other animals)
2. Preprocesarea datelor
Înainte de procesarea propriu-zisă a datelor este nevoie de a parcurge o
etapă importantă de transformare a setului într-o informație folositoare
pentru „knowledge gain”, aceasta etapă fiind preprocesarea datelor.
Motivele cele mai importante pentru care este nevoie de a face acest lucru
sunt :
Datele pot fi incomplete, adică lipsesc valori, atribute.
Datele pot conține “zgomote”, cum ar fi erori sau “outliers”, ce pot
3
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE
4
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE
5
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE
Acesta poate lua doar valori numerice, complet precizate, fără date lipsă.
Rețelele neuronale nu operează decât direct asupra variabilelor numerice.
În cazul problemelor complexe, utilizatorul este pus în situația de a rezolva
un compromis, între a crește numărul de neuroni ascunși, ceea ce poate
conduce la o instruire foarte lentă și a accepta o topologie mai simplă,
asociată unei soluții mai puțin precise. Pentru seturi de date cu număr mare
de atribute, folosirea rețelelor neuronale devine nefezabilă. Acest lucru însă
nu este valabil pentru setul prezent de date, pentru că el nu conține foarte
multe atribute și este de o dimensiune relativ mică, fapt pentru care și s-au
ales rețelele neuronale.
7
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE
Concluzie
În general, setul de date propus nu a fost greu de analizat, pentru că este
unul de proporții mici și nu a fost necesar de recurs la multe metode de
preprocesare.
În concluzie, cea mai mare acuratețe de estimare în cazul setului de date
animal sleep în comparație cu celelalte algoritme folosite, ar avea algoritmul
linear regression care are cea mai mică eroare.
Referințe
1. Ec. Valentin MILITARU, Studiu comparat asupra tehnicilor de data
mining utilizate în rezolvarea problemelor de regresie si clasificare,
http://revistaie.ase.ro/content/27/militaru.pdf
2. https://rria.ici.ro/wp-content/uploads/2015/09/08-art.-6-Lepadatu-RRIA-
final-20sept-2.pdf
3. https://www.researchgate.net/profile/Florin_Gorunescu/publication/323388
145_Data_Mining_Concepte_Modele_si_Tehnici_Ed_Albastra_2006/links/5a
92702d0f7e9ba4296e1943/Data-Mining-Concepte-Modele-si-Tehnici-Ed-
Albastra-2006.pdf