Documente Academic
Documente Profesional
Documente Cultură
Modele KPD
Date categoriale – acele date care impart obiectele in diferite categorii(nominale – grupa sanguina,
culoarea ochilor/ ordinale – fumator amator/inrait, durere mica/medie/mare)
Date numerice – se impart in date disscrete – numere intreg(nr copii familie) si date numerice
continue – se obtin in urma unor amsuratori – inaltime, greutate
3.Pregatirea datelor
10.Regresia logística
- în cazul în care variabila Y este dihotomică (binară), modelul se numeşte regresie logistică binară - este
cel mai utilizat model de regresie logistică, pentru clasificarea unei observaţii în una din două clase:
absenţă/prezenţă, nu/da, 0/1 etc;
- modelul clasifică o observaţie astfel: pe baza estimatorilor obţinuţi pentru coeficienţii de regresie, se
calculează probabilitatea de apartenţă la o clasă: pentru regresia binară, la obţinerea unei probabilităţi
mai mici decât 0.5, observaţia este introdusă în prima clasă (cea care are drept valoare a variabilei target
0), iar la o probabilitate mai mare de 0.5, observaţia este inclusă în a doua clasă (variabila target cu
valoarea 1).
- exemple de utilizare: în domeniul financiar (se acordă/nu se acordă credit bancar), în domeniul medical
(determinarea dacă o tumoare este mai probabil să fie benignă decât malignă) etc. Funcţia care stă la baza
modelului este funcţia logistică (sigmoidă) f : R (0,1) , care are următoarea formă: z e f z 1 1 ( ) (1)
Această funcţie (cu graficul din Figura 1) poate primi ca argument orice valoare între şi şi indiferent
de argumentul primit, are drept rezultat o valoare între 0 şi 1 (adică o valoare validă pentru o
probabilitate).
11.Analiza discriminanta liniara
Scopul analizei discriminanţilor este de a clasifica obiecte (oameni, clienţi, produse, etc) în două
sau mai multe grupuri pe baza unei mulţimi de trăsături ce descriu obiectele (ex. sex, vârstă, venit,
greutate, etc). În general, vom ataşa un obiect la unul din grupurile predeterminate pe baza
observaţiilor pe care le facem cu privire la acest obiect. Dacă presupunem că grupurile sunt
separabile liniar, putem folosi modelul discriminantului liniar (LDA).
Obiectivul LDA este de a obţine o reducere a dimensiunilor păstrând cât mai mult din informaţia
discriminantă. Avem o mulţime de exemple D-dimensionale {x (1 , x (2 , …, x (N}, N1 aparţinând
clasei ω1, şi N2 clasei ω2, şi urmărim să obţinem un scalar y prin proiecţia exemplelor x pe o
dreaptă: y = wT x
Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe (clusters) definite
algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de informatie, fiecare grupa
reprezentând mai multe puncte având caracteristici similare. Clusterele distincte sunt disjuncte.
Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai multe euristici bazate în principal
pe experienta noastra „vizuala” în gruparea punctelor în regiuni de puncte.
În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele informatii:
13.Clasificatorul KNN
k-NN. Tehnica (prescurtare a expresiei engleze k-Nearest Neighbor) este predictiva de explorare
a datelor utilizata cu precadere în probleme de clasificare. Principiul care sta la baza tehnicii este
relativ simplu: o instanta noua este clasificata prin analiza “proximitatii” sale (sau gradului de
similitudine) cu alte instante dintr-un set de date cunoscut. k-NN este o tehnica folosita în special
pentru clasificarea datelor în categorii multiple, însa poate fi aplicata inclusiv pentru previzionarea
unui atribut-obiectiv de natura numerica (continua sau discreta), ca rezultat al unor dependente
neliniare. Fie un set de date compus din instante care au urmatoarea structura:
i) Prin ce metoda se stabileste relatia de vecinatate dintre doua instante? Care este metrica utilizata
la calculul distantelor dintre doua instante? I
i) Care este valoarea optima pentru k? De câte instante similare este nevoie pentru ca media
atributelor-obiectiv sa se constituie de date, care se presupune ca odata supus analizei, este deja în
forma sa cea mai recenta. Chiar daca de multe ori pot aparea dificultati în stabilirea unei metrici
eficiente, algoritmul este unul dintre putinele care accepta ca input date de natura diferita (continua,
categorica, booleana etc.)
Exista posibilitatea de a alege ordinea de selectie a atributelor astefel incat rezultatele unui
algoritm de rezolvare eficiente neafectatde fenomenul de overfitting . O astfel de metoda este o
metoda bazata pe utilizarea entropiei.
E= ∑𝐾
𝐼=1 𝑝𝑖 𝑙𝑜𝑔2(𝑝𝑖) k – nr de clase din tabela , (pi – este probabilitati de apartinere a clasei i )
Fiecare pas al algoritmului reduce entropía astefel incat parcurgerea completa aceasta va fi 0 .
16.Overfitting
În statistici, depășirea este "producerea unei analize care corespunde prea strâns sau exact unui
anumit set de date și, prin urmare, poate să nu reușească să se potrivească cu date suplimentare sau
să prezică în mod credibil observațiile viitoare." [1] Un model depășit este un model statistic care
conține mai mulți parametri decât poate fi justificat de date. [2] Esența suprapunerii este de a
extrage în necunoștință de cauză o variație reziduală (adică zgomotul) ca și când variația ar
reprezenta structura modelului de bază. [3]: 45 Încadrarea în incintă are loc atunci când un model
statistic nu poate capta în mod adecvat structura de bază a datelor. Un model necorespunzător este
un model în care lipsesc anumiți parametri sau termeni care ar apărea într-un model corect
specificat. [2] Încadrarea în echipă ar avea loc, de exemplu, atunci când se potrivește un model liniar
cu date neliniare. Un astfel de model va avea tendința de a avea performanțe predictive slabe.
Depășirea și echiparea cu echipamente pot apărea mai ales în procesul de învățare a mașinilor. În
procesul de învățare în mașină, fenomenele sunt numite uneori "suprasolicitare" și "subtraining".
17.Subiect 17
18.Estimarea de
In general alegerea intrarilor este o problema dificila. Iesirile retelei sunt mai clar impuse
de problema concreta analizata, pe cand intrarile nu. O regula empirica de alegere a intrarilor
este urmatoarea: 'cu cat mai multe date, cu atat mai bine!' Aceasta regula se aplica atat la
numarul intrarilor unei retele, ca si la numarul sabloanelor de antrenare.
-intrari analogice sunt cele care iau valori continue intre o valoare minima si una maxima. De
exemplu, intre 0 si 1. Pentru datele de pe intrari de tip analogic, se recomanda ca gama lor
de variatie sa nu fie prea mare (diferenta intre valoarea maxima asteptata si valoarea minima
asteptata). In acest scop, daca o intrare analogica are o plaja mare de valori, poate fi eventual
inlocuita cu o alta intrare ce foloseste diferenta intre valoarea analogica curenta si cea
anterioara. In acest fel, aplicand diferenta, gama scade.
Cele mai multe retele ce rezolva probleme reale au atat intrari binare cat si intrari
analogice. Tipul de intrare folosit (binara sau analogica) poate afecta performantele retelei.