Documente Academic
Documente Profesional
Documente Cultură
Modele KPD
Date categoriale – acele date care impart obiectele in diferite categorii(nominale – grupa sanguina,
culoarea ochilor/ ordinale – fumator amator/inrait, durere mica/medie/mare)
Date numerice – se impart in date disscrete – numere intreg(nr copii familie) si date numerice
continue – se obtin in urma unor amsuratori – inaltime, greutate
3.Pregatirea datelor
10.Regresia logística
- tehnică de clasificare supervizată; - modelează relaţia dintre o mulţime de variabile independente Xi
(care pot fi de oricare tip – categoricale sau continue) şi o variabilă dependentă Y, prin calculul
probabilităţii de apartenenţă a unei observaţii la o anumită clasă; o observaţie va fi inclusă în clasa
căreia îi corespunde cea mai mare probabilitate calculată;
- în cazul în care variabila Y este dihotomică (binară), modelul se numeşte regresie logistică binară - este
cel mai utilizat model de regresie logistică, pentru clasificarea unei observaţii în una din două clase:
absenţă/prezenţă, nu/da, 0/1 etc;
- modelul clasifică o observaţie astfel: pe baza estimatorilor obţinuţi pentru coeficienţii de regresie, se
calculează probabilitatea de apartenţă la o clasă: pentru regresia binară, la obţinerea unei probabilităţi
mai mici decât 0.5, observaţia este introdusă în prima clasă (cea care are drept valoare a variabilei target
0), iar la o probabilitate mai mare de 0.5, observaţia este inclusă în a doua clasă (variabila target cu
valoarea 1).
- exemple de utilizare: în domeniul financiar (se acordă/nu se acordă credit bancar), în domeniul medical
(determinarea dacă o tumoare este mai probabil să fie benignă decât malignă) etc. Funcţia care stă la
baza modelului este funcţia logistică (sigmoidă) f : R (0,1) , care are următoarea formă: z e f z 1
1 ( ) (1) Această funcţie (cu graficul din Figura 1) poate primi ca argument orice valoare între şi şi
indiferent de argumentul primit, are drept rezultat o valoare între 0 şi 1 (adică o valoare validă pentru o
probabilitate).
Scopul analizei discriminanţilor este de a clasifica obiecte (oameni, clienţi, produse, etc) în două
sau mai multe grupuri pe baza unei mulţimi de trăsături ce descriu obiectele (ex. sex, vârstă,
venit, greutate, etc). În general, vom ataşa un obiect la unul din grupurile predeterminate pe baza
observaţiilor pe care le facem cu privire la acest obiect. Dacă presupunem că grupurile sunt
separabile liniar, putem folosi modelul discriminantului liniar (LDA).
Obiectivul LDA este de a obţine o reducere a dimensiunilor păstrând cât mai mult din informaţia
discriminantă. Avem o mulţime de exemple D-dimensionale {x (1 , x (2 , …, x (N}, N1
aparţinând clasei ω1, şi N2 clasei ω2, şi urmărim să obţinem un scalar y prin proiecţia
exemplelor x pe o dreaptă: y = wT x
12.Casificatorul Naive Baise
Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe (clusters) definite
algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de informatie, fiecare
grupa reprezentând mai multe puncte având caracteristici similare. Clusterele distincte sunt disjuncte.
Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai multe euristici bazate în principal
pe experienta noastra „vizuala” în gruparea punctelor în regiuni de puncte.
În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele informatii:
13.Clasificatorul KNN
k-NN. Tehnica (prescurtare a expresiei engleze k-Nearest Neighbor) este predictiva de explorare
a datelor utilizata cu precadere în probleme de clasificare. Principiul care sta la baza tehnicii este
relativ simplu: o instanta noua este clasificata prin analiza “proximitatii” sale (sau gradului de
similitudine) cu alte instante dintr-un set de date cunoscut. k-NN este o tehnica folosita în special
pentru clasificarea datelor în categorii multiple, însa poate fi aplicata inclusiv pentru
previzionarea unui atribut-obiectiv de natura numerica (continua sau discreta), ca rezultat al unor
dependente neliniare. Fie un set de date compus din instante care au urmatoarea structura:
i) Prin ce metoda se stabileste relatia de vecinatate dintre doua instante? Care este metrica
utilizata la calculul distantelor dintre doua instante? I
i) Care este valoarea optima pentru k? De câte instante similare este nevoie pentru ca media
atributelor-obiectiv sa se constituie de date, care se presupune ca odata supus analizei, este deja
în forma sa cea mai recenta. Chiar daca de multe ori pot aparea dificultati în stabilirea unei
metrici eficiente, algoritmul este unul dintre putinele care accepta ca input date de natura diferita
(continua, categorica, booleana etc.)
14.Arbori de decizie – algoritmul TDIDT
Este o tehnică de analiză statistică, ce se ocupă cu separarea de mulțimi distincte de obiecte (sau
observații), pe baza variabilelor lor independente observate (Aczel, 2009). Tehnica începe prin a găsi
cea mai discriminatorie variabilă (ce are cea mai mare entropie informațională), care este apoi
combinată, pe rând, cu fiecare din celelalte variabile, până este găsită următoarea variabilă care
contribuie cel mai mult la discriminarea între grupuri. Procesul continuă în mod similar, până în
momentul în care discriminarea dobândită prin includerea oricărei alte variabile suplimentare este
neglijabilă
16.Overfitting
În statistici, depășirea este "producerea unei analize care corespunde prea strâns sau exact unui
anumit set de date și, prin urmare, poate să nu reușească să se potrivească cu date suplimentare sau
să prezică în mod credibil observațiile viitoare." [1] Un model depășit este un model statistic care
conține mai mulți parametri decât poate fi justificat de date. [2] Esența suprapunerii este de a
extrage în necunoștință de cauză o variație reziduală (adică zgomotul) ca și când variația ar
reprezenta structura modelului de bază. [3]: 45 Încadrarea în incintă are loc atunci când un model
statistic nu poate capta în mod adecvat structura de bază a datelor. Un model necorespunzător este
un model în care lipsesc anumiți parametri sau termeni care ar apărea într-un model corect
specificat. [2] Încadrarea în echipă ar avea loc, de exemplu, atunci când se potrivește un model liniar
cu date neliniare. Un astfel de model va avea tendința de a avea performanțe predictive slabe.
Depășirea și echiparea cu echipamente pot apărea mai ales în procesul de învățare a mașinilor. În
procesul de învățare în mașină, fenomenele sunt numite uneori "suprasolicitare" și "subtraining".
17.Subiect 17
18.Estimarea de