Teorie TDM v2

1.
Modele KPD
Procesul de descoperire a cunoștințelor (KDP), numit și descoperirea cunoștințelor în bazele

de date, caută noi cunoștințe în domeniul aplicațiilor. Este definit ca procesul netrivial al
identificarea modelelor valide, noi, potențial utile și, în cele din urmă, ușor de înțeles în
date.procesul generalizează sursele de date nondatabase, deși accentuează bazele de date ca
asursă primară de date. Se compune din mai mulți pași (unul dintre ei este DM), fiecare
încercând să completează o sarcină specială de descoperire și fiecare realizează prin aplicarea
unei descoperiri metodă. Descoperirea cunoștințelor se referă la întregul proces de extragere
a cunoștințelor, inclusiv la modul în care datele sunt stocate și accesate, cum se utilizează
algoritmi eficienți și scalabili pentru a analiza masiv seturi de date, cum să interpretați și să
vizualizați rezultatele și cum să modelați și să sprijiniți interacțiunea între om și mașină. Se
referă, de asemenea, la susținerea procesului de învățare și analiză a aplicației domeniu.
2.Categorii de date utilizate in DM
Date categoriale – acele date care impart obiectele in diferite categorii(nominale – grupa sanguina,
culoarea ochilor/ ordinale – fumator amator/inrait, durere mica/medie/mare)
Date numerice – se impart in date disscrete – numere intreg(nr copii familie) si date numerice
continue – se obtin in urma unor amsuratori – inaltime, greutate
3.Pregatirea datelor
Se pune problema calitatii datelor (eliminarea valorilor extreme/aberante), a valorilor lipsa, a

datelot duplicat, a datelor introduce incorrect, a datelor expirate, etc. In functie de problemele
detectate privind calitatea datelor se procedeaza la rezolvarea acestora prin diferite metode. Pt
vaorile externe aberrante de aplica proceduri de filtrare, se pot elimina valorile ce se abat mult de la
medie. De oibcei exista valori lipsa, unde se aplica estimarea valorilor lipsa sau eliminarea valorilor
ce au atribute lipsa. Pt datele duplicat se sterg duplciatele.
4. Strategii de tratare a datelor lipsa
5.Regresie liniara simpla – prez generala
6.Rezolvare modelului de regresie simpla
7.Utilizarea modelului de regresie simpla pt predictie
8.Modelul de regresie liniara
9.Validarea mdelului de regresie
10.Regresia logística
- tehnică de clasificare supervizată; - modelează relaţia dintre o mulţime de variabile independente Xi
(care pot fi de oricare tip – categoricale sau continue) şi o variabilă dependentă Y, prin calculul
probabilităţii de apartenenţă a unei observaţii la o anumită clasă; o observaţie va fi inclusă în clasa
căreia îi corespunde cea mai mare probabilitate calculată;
- în cazul în care variabila Y este dihotomică (binară), modelul se numeşte regresie logistică binară - este
cel mai utilizat model de regresie logistică, pentru clasificarea unei observaţii în una din două clase:
absenţă/prezenţă, nu/da, 0/1 etc;
- modelul clasifică o observaţie astfel: pe baza estimatorilor obţinuţi pentru coeficienţii de regresie, se
calculează probabilitatea de apartenţă la o clasă: pentru regresia binară, la obţinerea unei probabilităţi
mai mici decât 0.5, observaţia este introdusă în prima clasă (cea care are drept valoare a variabilei target
0), iar la o probabilitate mai mare de 0.5, observaţia este inclusă în a doua clasă (variabila target cu
valoarea 1).
- exemple de utilizare: în domeniul financiar (se acordă/nu se acordă credit bancar), în domeniul medical
(determinarea dacă o tumoare este mai probabil să fie benignă decât malignă) etc. Funcţia care stă la
baza modelului este funcţia logistică (sigmoidă) f : R  (0,1) , care are următoarea formă: z e f z    1
1 ( ) (1) Această funcţie (cu graficul din Figura 1) poate primi ca argument orice valoare între   şi   şi
indiferent de argumentul primit, are drept rezultat o valoare între 0 şi 1 (adică o valoare validă pentru o
probabilitate).
11.Analiza discriminanta liniara
Scopul analizei discriminanţilor este de a clasifica obiecte (oameni, clienţi, produse, etc) în două
sau mai multe grupuri pe baza unei mulţimi de trăsături ce descriu obiectele (ex. sex, vârstă,
venit, greutate, etc). În general, vom ataşa un obiect la unul din grupurile predeterminate pe baza
observaţiilor pe care le facem cu privire la acest obiect. Dacă presupunem că grupurile sunt
separabile liniar, putem folosi modelul discriminantului liniar (LDA).
Proprietatea de separabilitate liniară sugerează că grupurile pot fi separate printr-o combinaţie

de trăsături care descriu obiectele. Dacă avem numai două trăsături, separatorii vor deveni
drepte. Dacă avem trei trăsături, separatorul devine un plan, iar dacă numărul trăsăturilor este
mai mare, separatorul devine un hiperplan.
Obiectivul LDA este de a obţine o reducere a dimensiunilor păstrând cât mai mult din informaţia
discriminantă. Avem o mulţime de exemple D-dimensionale {x (1 , x (2 , …, x (N}, N1
aparţinând clasei ω1, şi N2 clasei ω2, şi urmărim să obţinem un scalar y prin proiecţia
exemplelor x pe o dreaptă: y = wT x
12.Casificatorul Naive Baise
Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe (clusters) definite
algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de informatie, fiecare
grupa reprezentând mai multe puncte având caracteristici similare. Clusterele distincte sunt disjuncte.
Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai multe euristici bazate în principal
pe experienta noastra „vizuala” în gruparea punctelor în regiuni de puncte.
În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele informatii:
 distanta între punctele unui spatiu multidimensional;

 strategia de alegere a punctului reprezentativ (adica a „centrului”) pentru orice grupare de
puncte;
 distanta între doua grupe de puncte.
13.Clasificatorul KNN
k-NN. Tehnica (prescurtare a expresiei engleze k-Nearest Neighbor) este predictiva de explorare
a datelor utilizata cu precadere în probleme de clasificare. Principiul care sta la baza tehnicii este
relativ simplu: o instanta noua este clasificata prin analiza “proximitatii” sale (sau gradului de
similitudine) cu alte instante dintr-un set de date cunoscut. k-NN este o tehnica folosita în special
pentru clasificarea datelor în categorii multiple, însa poate fi aplicata inclusiv pentru
previzionarea unui atribut-obiectiv de natura numerica (continua sau discreta), ca rezultat al unor
dependente neliniare. Fie un set de date compus din instante care au urmatoarea structura:
- n atribute numerice independente {Xi, i=1,n};
- m atribute booleene sau categorice independente {Aj, j=1,m};
- un atribut-obiectiv Y, reprezentând variabila dependenta a carui valoare va trebui estimata

pentru noile instante. Pentru a previziona valoarea atributuluiobiectiv al unei instante noi,
algoritmul cauta în setul de date k înregistrari “apropiate” de acea instanta, pentru care se cunosc
valorile lui Y. Predictia este data de media valorilor lui Y aferente “vecinilor” identificati în setul
de date. Aplicarea conceptului în practica ridica urmatoarele probleme:
i) Prin ce metoda se stabileste relatia de vecinatate dintre doua instante? Care este metrica
utilizata la calculul distantelor dintre doua instante? I
i) Care este valoarea optima pentru k? De câte instante similare este nevoie pentru ca media
atributelor-obiectiv sa se constituie de date, care se presupune ca odata supus analizei, este deja
în forma sa cea mai recenta. Chiar daca de multe ori pot aparea dificultati în stabilirea unei
metrici eficiente, algoritmul este unul dintre putinele care accepta ca input date de natura diferita
(continua, categorica, booleana etc.)
14.Arbori de decizie – algoritmul TDIDT
15.Utilizarea entropiei pt selectarea atributelor de dezvoltare
Este o tehnică de analiză statistică, ce se ocupă cu separarea de mulțimi distincte de obiecte (sau
observații), pe baza variabilelor lor independente observate (Aczel, 2009). Tehnica începe prin a găsi
cea mai discriminatorie variabilă (ce are cea mai mare entropie informațională), care este apoi
combinată, pe rând, cu fiecare din celelalte variabile, până este găsită următoarea variabilă care
contribuie cel mai mult la discriminarea între grupuri. Procesul continuă în mod similar, până în
momentul în care discriminarea dobândită prin includerea oricărei alte variabile suplimentare este
neglijabilă
16.Overfitting
În statistici, depășirea este "producerea unei analize care corespunde prea strâns sau exact unui
anumit set de date și, prin urmare, poate să nu reușească să se potrivească cu date suplimentare sau
să prezică în mod credibil observațiile viitoare." [1] Un model depășit este un model statistic care
conține mai mulți parametri decât poate fi justificat de date. [2] Esența suprapunerii este de a
extrage în necunoștință de cauză o variație reziduală (adică zgomotul) ca și când variația ar
reprezenta structura modelului de bază. [3]: 45 Încadrarea în incintă are loc atunci când un model
statistic nu poate capta în mod adecvat structura de bază a datelor. Un model necorespunzător este
un model în care lipsesc anumiți parametri sau termeni care ar apărea într-un model corect
specificat. [2] Încadrarea în echipă ar avea loc, de exemplu, atunci când se potrivește un model liniar
cu date neliniare. Un astfel de model va avea tendința de a avea performanțe predictive slabe.
Depășirea și echiparea cu echipamente pot apărea mai ales în procesul de învățare a mașinilor. În
procesul de învățare în mașină, fenomenele sunt numite uneori "suprasolicitare" și "subtraining".
17.Subiect 17
18.Estimarea de
19.Perceptronul liniar – cibertronul si toti robotii din Transformers
20.Perceptronul simple si generalizat
21.Retele neuronale – prez generala
22. Clusteri ierarhici si neierarhici

Teorie TDM v2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Teorie TDM v2

Încărcat de

Drepturi de autor:

Formate disponibile

1.

Procesul de descoperire a cunoștințelor (KDP), numit și descoperirea cunoștințelor în bazele

2.Categorii de date utilizate in DM

Se pune problema calitatii datelor (eliminarea valorilor extreme/aberante), a valorilor lipsa, a

4. Strategii de tratare a datelor lipsa

5.Regresie liniara simpla – prez generala

6.Rezolvare modelului de regresie simpla

7.Utilizarea modelului de regresie simpla pt predictie

8.Modelul de regresie liniara

9.Validarea mdelului de regresie

11.Analiza discriminanta liniara

Proprietatea de separabilitate liniară sugerează că grupurile pot fi separate printr-o combinaţie

 distanta între punctele unui spatiu multidimensional;

- n atribute numerice independente {Xi, i=1,n};

- m atribute booleene sau categorice independente {Aj, j=1,m};

- un atribut-obiectiv Y, reprezentând variabila dependenta a carui valoare va trebui estimata

15.Utilizarea entropiei pt selectarea atributelor de dezvoltare

19.Perceptronul liniar – cibertronul si toti robotii din Transformers

20.Perceptronul simple si generalizat

21.Retele neuronale – prez generala

22. Clusteri ierarhici si neierarhici

S-ar putea să vă placă și