Sunteți pe pagina 1din 21

MODELARE

CLASIFICARE
Tutorial
• Data Scientists’ Guide to Azure Machine Learning Studio | Azure AI
Gallery
Etape modelare

Input Date

Pregatire Date

Divizare mt training si mt testare

Alegere algoritm (model)

Train model

Score Model

Evaluate Model
INPUT DATE

• MODULE:
PREGATIRE DATE
(DATA TRANSFORMATION - Manipulation)
• Add Columns: Adaugă un set de coloane dintr-un set de date în altul.
• Add Rows: Adaugă un set de rânduri dintr-un set de date de intrare la
sfârșitul altui set de date.
• Clean Missing Data: Specifică modul de tratare a valorilor care lipsesc dintr-
un set de date.
• Edit Metadata: Editează metadatele asociate cu coloanele dintr-un set de
date.
• Remove Duplicate Rows: Elimină rândurile dublate dintr-un set de date.
• Select Columns in Dataset: Selectează coloanele de inclus într-un set de
date sau de exclus dintr-un set de date dintr-o operație.
Clean Missing Data
• Specifică modul de tratare a valorilor
care lipsesc dintr-un set de date.
• 1. Adaugati modulul Clean Missing
Data la experiment și conectati-l la
setul de date care are valori lipsă.
• Pentru Columns to be cleaned, alegeți
coloanele care conțin valorile lipsă pe
care doriți să le modificați.
• Aveți posibilitatea să alegeți mai multe
coloane, dar trebuie să utilizați
aceeași metodă de înlocuire în toate
coloanele selectate.
• Minimum missing value ratio specificați
numărul minim de valori lipsă necesar
pentru efectuarea operației (%)
De ex. .2 (20%).
Maximum missing value ratio specificați
numărul maxim de valori lipsă care pot fi
prezente pentru operațiunea de efectuat
(%).
De ex. .7 (70%).
Pentru a le include pe toate: valorile
implicite
Min=0
Max=1
• Generate missing value •
indicator column.
• O coloană este adăugată la setul
de date pentru a indica dacă
fiecare coloană a îndeplinit sau
nu criteriile specificate pentru
intervalele minime și maxime si
deci daca a fost modificata
DIVIZAREA DATELOR
(MT TRAINING SI TESTARE)
• Data Transformation -> Sample and Split -> Split Data
• Partitions the rows of a dataset into two distinct sets
• Data intrare: Set de date
• Date iesire: Cele doua subseturi de date
• stanga – cel specificat de modul;
• Dreapta – restul.
• Modul de diviziune: Split Rows
• Selectati optiunea Randomized split dacă doriti să randomizați
selecția de date în cele două grupuri.
DIVIZAREA DATELOR
(MT TRAINING SI TESTARE)
• Random Seed: Trebuie precizata valoare
întreagă >=0 pentru a inițializa secvența de
numere aleatoare.
• Implicit aceasta este setata 0, ceea ce
inseamna ca se foloseste clock system. Deci
la o noua rulare a modulului de fiecare data
se vor obtine multimi diferite.
• Daca se doreste sa se repete modul de
diviziune a setului de date atunci se
precizeaza o valoare pozitiva.
DIVIZAREA DATELOR
(MT TRAINING SI TESTARE)
• Modul de diviziune: Split Rows
• cu stratificare sau fara stratificare
Diviziune cu stratificare
• Stratified split: True
• Alegem aceasta optiune pentru a ne
asigura că cele două seturi de date de ieșire
conțin un eșantion reprezentativ al valorilor
atributului de stratificare ales.
• Cu eșantionarea stratificată, datele sunt
împărțite astfel încât fiecare set de date de
ieșire primește aproximativ același procent
din fiecare valoare a atributului de
stratificare ales.
• De exemplu, vrem să ne asiguram că
multimile de training si de testare sunt
aproximativ echilibrate în ceea ce privește
atributul tinta sau în ceea ce un alt atribut.
ALEGEREA ALGORITMULUI DE CLASIFICARE
TRAINING
(TRAIN MODEL)
• Machine Learning -> Train -> Train Model
• Se foloseste cu un algoritm de clasificare sau de regresie
• Date intrare:
• Stanga: algoritmul ales
• Dreapta: dataset
• Multimea de training trebuie sa contina un atribut tinta (label column). Exemplele
care nu sunt etichetate, sunt ignorate.
• Pentru Label column, click Launch column selector si alege coloana
corespunzatoare atributului tinta.
• Pentru clasificare, atributul tinta trebuie sa fie discret.
• Pentru regresie atributul tinta trebuie sa fie continuu.
• Output:Modelul antrenat
• Se poate folosi cu Score Model pentru a face predictii cu date noi.
APLICAREA MODELULUI MT DE TESTARE
(SCORE MODEL)
• Machine Learning ->Score->Score Model
• Face estimari folosind algoritmul de clasificare sau regresie antrenat.
• Date intrare:
• Stanga: modelul antrenat
• Dreapta: datele noi
• Output: datele noi etichetate conform modelului antrenat (estimarile
facute pentru datele noi)
• Pentru modelele de clasificare, Score Model produce o valoare estimată
pentru fiecare exemplu, precum și probabilitatea valorii estimate.
• Este folosit de obicei ca data de intrare pentru modelul Evaluate model
folosit pentru evaluarea acuratetii modelului.
EVALUAREA MODELULUI
• Evaluate Model
• Evaluează rezultatele unui model de clasificare sau de regresie
folosind metrici standard
• Evaluarea modelului pe exemplele din mt de training
• Evaluarea modelului pe exemplele dintr-o mt de testare
• Comparam estimarile facute de 2 algoritmi diferiti folosind aceeasi multime.
• Evaluarea modelului pe exemplele din mt de training
• Input: setul de date care rezulta din modulul Score Model
• Evaluarea modelului pe exemplele dintr-o mt de testare
• Input:
• setul de date care rezulta din modulul Score Model
• multimea de testare
• Comparam estimarile facute de 2 algoritmi diferiti folosind aceeasi
multime.
• Input:
• setul de date care rezulta din modulul Score Model pentru primul model
• setul de date care rezulta din modulul Score Model pentru al doilea model
Metrice pentru modelele de clasificare

• Acuratetea = (TP+TN)/ (TP+TN+FP+FN)


este proporția rezultatelor corecte împartit la numărul total de cazuri.
Precizia = TP/(TP+FP)
Recall = TP/(TP+FN)
AUC măsoară aria de sub graficul care reprezinta TP pe axa Oy si FP pe axa Ox
350px-Precisionrecall.svg.png (350×636) (wikimedia.org)
Curba ROC

S-ar putea să vă placă și