Sunteți pe pagina 1din 8

CENTRUL UNIVERSITAR NORD DIN BAIA MARE

DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

Referat
la sisteme inteligente
cu tema:
„Analiza setului de date animal sleep”

Studenți: Zaharia Dorin, Pereteatcu Adelina

anul.III - CALCULATOARE
proiect Tehnologii Internet, mai 2019

1
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

Cuprins

1. Introducere
2. Preprocesarea datelor
3. Algoritmii pentru procesarea setului de date
3.1 Regresia liniară
3.2 Rețele neuronale
3.3 Random forest
Referințe

2
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

1. Introducere
În prezenta lucrare se analizează setul de date animal sleep. Acesta
conține informații despre diferite specii de animale și obiceiurile lor de
somn. Atributele pe care le conține setul sunt:

 body weight în kg
 brain weight în g
 total sleep (hrs/day) (sum of slow wave and paradoxical sleep)
 maximum life span (years)
 gestation time (days)
 predation index (1-5)
o 1 = minimum (least likely to be preyed upon)
o 5 = maximum (most likely to be preyed upon)
 sleep exposure index (1-5)
o 1 = least exposed (e.g. animal sleeps in a
o well-protected den)
o 5 = most exposed
 overall danger index (1-5)
o (based on the above two indices and other information)
o 1 = least danger (from other animals)
o 5 = most danger (from other animals)

Scopul acestei lucrări este aplicare de tehnici de machine learning pentru


a determina numărul orelor de somn necesare pentru un animal.

2. Preprocesarea datelor
Înainte de procesarea propriu-zisă a datelor este nevoie de a parcurge o
etapă importantă de transformare a setului într-o informație folositoare
pentru „knowledge gain”, aceasta etapă fiind preprocesarea datelor.
Motivele cele mai importante pentru care este nevoie de a face acest lucru
sunt :
 Datele pot fi incomplete, adică lipsesc valori, atribute.
 Datele pot conține “zgomote”, cum ar fi erori sau “outliers”, ce pot

3
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

proveni din inexactitatea intrumentelor de măsurare, din erorile


computaționale sau umane, precum și din erori la transmiterea de date.
 Datele pot fi incosistente, adică conțin discrepanțe în format sau
denumiri, duplicate, probleme generate de existența diferitelor surse a
datelor.
Algoritmii însă, pentru a fi cât mai eficienți, au nevoie de date bine
structurate, fără erori, date lipsă, zgomote sau valori incosistente. Așadar,
“raw data” nu este potrivită procesării, pentru că calitatea ei lasă de dorit, iar
acest lucru poate afecta considerabil rezultatul final după aplicarea tehnicilor
de machine learning.
Există o serie de metode de transformare a datelor “raw”, cum ar fi:
 Data cleaning- completarea datelor lipsă, indentificarea și
eliminarea de outliers, rezolvarea problemei inconsistenței.
 Data integration and transformation – integrarea datelor din
multiple baze de date sau fișiere, rezolvându-se problema datelor
redundante și a diferenței dintre modul de reprezentare.
 Data reduction – reducerea volumului de date în vederea obținerii
aceluiași rezultat sau unui rezultat asemănător
 Data discretization - implică reducerea unui număr de valori ale
unui atribut continuu.
La o primă examinare a setului de date propus s-au observat câteva date
lipsă, care ar putea afecta performanțele metodelor de analiză. Înregistrările
acestora însă nu pot fi omise, pentru că ar duce la pierderi de informații ce ar
genera un subset tendențios. Prin urmare, am recurs la înlocuirea datelor
lipsă cu o valoare medie cu ajutorul operatorului Replace missing values din
RapidMiner.
În afară de aceasta, nu s-au observat valori aberante care ar putea fi
contrar tendinței generale a datelor sau zgomote, datele fiind relativ
consistente. De asemenea, setul nu are un volum mare pentru a fi redus.

4
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

3. Algoritmii pentru procesarea setului de date


Întrucât trebuie să determinăm numărul orelor de somn necesare pentru un
animal, această problemă a fost clasificată drept una de regresie. Analiza
regresiei se referă, în principiu, la:
 Stabilirea existenţei unor relaţii de mărime/efect între mai multe
variabile;
 Prognoza valorilor unei variabile în funcţie de valorile altor variabile
(determinarea efectului „predictorilor” asupra ”răspunsului”).
Algoritmii aleși pentru procesarea setului de date sunt: regresia liniară,
rețelele neuronale și random forest.
În realizarea proceselor din RapidMiner am folosit Cross-Validation, care
este un operator folosit pentru estimarea acurateței unui model asupra setului
de date. Cross-Validation este un operator imbricat și are două subprocese:
subprocesul de Training și cel de Testing. Subprocesul de Training este
folosit la “antrenarea” modelului, iar modelul deja antrenat este ulterior
aplicat în subprocesul de Testing. Performanța modelului este măsurat în
timpul fazei de testare.
Inputul ExampleSet al operatorului Cross-Validation este partiționat în k
subseturi egale, acest număr fiind o valoare introdusă de utilizator. Din cele
k subseturi, unul singur este păstrat drept un set de testare, iar celelalte k-1
subseturi sunt folosite pentru training. Procesul de cross-validation este apoi
repetat de k ori, fiecare din acele subseturi fiind folosite doar o singură dată.
Se obțin k rezultate din cele k interații, calculându-se ulterior media acestora
pentru a produce o unică estimare.

5
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

3.1 Regresia liniară

Criteriul celor mai mici pătrate conduce la calcule algebrice simple, se


pretează la interpretări geometrice clare şi permite interpretări interesante,
motiv pentru care se utilizează cel mai des.
Modul de prezentare a legăturii liniare dintre două variabile, atunci când
aceasta există, se numeşte metoda regresiei liniare (linear regression).
Pentru aceasta se consideră una dintre variabile ca variabilă independentă
sau variabilă predictor, iar cealaltă variabilă ca variabilă dependentă sau
variabilă răspuns (outcome). În cazul de față, variabila dependentă este
total_sleep, iar celelalte atribute sunt variabile independente. Legătura
liniară dintre cele două tipuri de variabile este descrisă de o ecuaţie liniară,
ecuaţia de regresie (regression equation), căreia îi corespunde geometric
dreapta de regresie (regression line). Ecuaţia dreptei de regresie se stabileşte
pe baza metodei “celor mai mici pătrate” (least squares method -LSM) care,
intuitiv, minimizează distanţa între punctele reprezentate de perechile de
date (observed values) şi punctele corespunzătoare de pe dreaptă (fitted
values), obţinute pe verticalele corespunzătoare.

La aplicarea regresiei liniare asupra setului de date se obține


relative_error: 32.03% +/- 12.55% (micro average:
32.19% +/- 29.34%)

3.2 Rețelele neuronale

Rețelele neuronale artificiale sunt compuse din neuroni interconectați.


Legătura dintre neuroni este modelată ca o pondere(valoare numerică) și
aceasta se poate modifica. Printr-un proces de instruire(învățare, adaptare),
ponderile sunt modificate astfel încât să se facă recunoașterea de pattern-uri.
6
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

Acesta poate lua doar valori numerice, complet precizate, fără date lipsă.
Rețelele neuronale nu operează decât direct asupra variabilelor numerice.
În cazul problemelor complexe, utilizatorul este pus în situația de a rezolva
un compromis, între a crește numărul de neuroni ascunși, ceea ce poate
conduce la o instruire foarte lentă și a accepta o topologie mai simplă,
asociată unei soluții mai puțin precise. Pentru seturi de date cu număr mare
de atribute, folosirea rețelelor neuronale devine nefezabilă. Acest lucru însă
nu este valabil pentru setul prezent de date, pentru că el nu conține foarte
multe atribute și este de o dimensiune relativ mică, fapt pentru care și s-au
ales rețelele neuronale.

La aplicarea acestui algoritm, s-a obținut următorul rezultat:


relative_error: 36.79% +/- 18.29% (micro average:
36.54% +/- 43.73%)

3.3 Random forest

Random forest este un ansamblu de învățare folosit pentru probleme cu un


set de date foarte mare atât de clasificare, cât și de regresie. Acesta
construiește o multitudine de arbori de decizie în timpul training-ului de date
și afișează, în cazul regresiei, o valoare medie a predicției a fiecărui arbore
individual, care a antrenat un subset diferit din același set de date. Acest lucru
însă vine în detrimentul unei mici creșteri a gradului de subiectivitate și ceva
pierderi de interpretabilitate, dar, în general, mărește performanțele în
modelul final.
De asemenea, această metodă ajută la identificarea celor mai importante
variabile din mii de variabile de intrare, find foarte scalabilă pentru orice
dimensiune a problemei și are în general un randament ridicat.

7
CENTRUL UNIVERSITAR NORD DIN BAIA MARE
DEPARTAMENTUL DE INGINERIE ELECTRICĂ ŞI CALCULATOARE

La aplicarea acestui algoritm, s-a obținut următorul rezultat:


relative_error: 32.67% +/- 12.30% (micro average:
32.51% +/- 30.26%)

Concluzie
În general, setul de date propus nu a fost greu de analizat, pentru că este
unul de proporții mici și nu a fost necesar de recurs la multe metode de
preprocesare.
În concluzie, cea mai mare acuratețe de estimare în cazul setului de date
animal sleep în comparație cu celelalte algoritme folosite, ar avea algoritmul
linear regression care are cea mai mică eroare.

Referințe
1. Ec. Valentin MILITARU, Studiu comparat asupra tehnicilor de data
mining utilizate în rezolvarea problemelor de regresie si clasificare,
http://revistaie.ase.ro/content/27/militaru.pdf
2. https://rria.ici.ro/wp-content/uploads/2015/09/08-art.-6-Lepadatu-RRIA-
final-20sept-2.pdf
3. https://www.researchgate.net/profile/Florin_Gorunescu/publication/323388
145_Data_Mining_Concepte_Modele_si_Tehnici_Ed_Albastra_2006/links/5a
92702d0f7e9ba4296e1943/Data-Mining-Concepte-Modele-si-Tehnici-Ed-
Albastra-2006.pdf

S-ar putea să vă placă și