Teorie TDM v2

1.
Modele KPD
Procesul de descoperire a cunoștințelor (KDP), numit și descoperirea cunoștințelor în bazele

de date, caută noi cunoștințe în domeniul aplicațiilor. Este definit ca procesul netrivial al
identificarea modelelor valide, noi, potențial utile și, în cele din urmă, ușor de înțeles în
date.procesul generalizează sursele de date nondatabase, deși accentuează bazele de date ca
asursă primară de date. Se compune din mai mulți pași (unul dintre ei este DM), fiecare
încercând să completează o sarcină specială de descoperire și fiecare realizează prin aplicarea
unei descoperiri metodă. Descoperirea cunoștințelor se referă la întregul proces de extragere
a cunoștințelor, inclusiv la modul în care datele sunt stocate și accesate, cum se utilizează
algoritmi eficienți și scalabili pentru a analiza masiv seturi de date, cum să interpretați și să
vizualizați rezultatele și cum să modelați și să sprijiniți interacțiunea între om și mașină. Se
referă, de asemenea, la susținerea procesului de învățare și analiză a aplicației domeniu.
2.Categorii de date utilizate in DM
Date categoriale – acele date care impart obiectele in diferite categorii(nominale – grupa sanguina,
culoarea ochilor/ ordinale – fumator amator/inrait, durere mica/medie/mare)
Date numerice – se impart in date disscrete – numere intreg(nr copii familie) si date numerice
continue – se obtin in urma unor amsuratori – inaltime, greutate
3.Pregatirea datelor
Se pune problema calitatii datelor (eliminarea valorilor extreme/aberante), a valorilor lipsa, a

datelot duplicat, a datelor introduce incorrect, a datelor expirate, etc. In functie de problemele
detectate privind calitatea datelor se procedeaza la rezolvarea acestora prin diferite metode. Pt
vaorile externe aberrante de aplica proceduri de filtrare, se pot elimina valorile ce se abat mult de la
medie. De oibcei exista valori lipsa, unde se aplica estimarea valorilor lipsa sau eliminarea valorilor
ce au atribute lipsa. Pt datele duplicat se sterg duplciatele.
4. Strategii de tratare a datelor lipsa
5.Regresie liniara simpla – prez generala
Problema regresiei liniare simple

:Se consideră un set bidimensional de date
ni y x
ii
,1,,
=
, reprezentândv a l o r i o b s e r v a t e a l e c e l o r d o u ă v a r i a b i l e ,
X
şi
Y
.Î n v e d e r e a prognozării valorilor lui
Y
corespunzătoare unor valori noi ale lui
X
( a l t e l e d e c â t c e l e n o b s e r v a t e ) , se pune problema determinării parametrilor de regresie a şi
b, în aşa fel, încât dintre toate dreptele posibile, dreapta de ecuaţie
6.Rezolvare modelului de regresie simpla
7.Utilizarea modelului de regresie simpla pt predictie
8.Modelul de regresie liniara
9.Validarea mdelului de regresie
10.Regresia logística
- tehnică de clasificare supervizată; - modelează relaţia dintre o mulţime de variabile independente Xi

(care pot fi de oricare tip – categoricale sau continue) şi o variabilă dependentă Y, prin calculul
probabilităţii de apartenenţă a unei observaţii la o anumită clasă; o observaţie va fi inclusă în clasa căreia
îi corespunde cea mai mare probabilitate calculată;
- în cazul în care variabila Y este dihotomică (binară), modelul se numeşte regresie logistică binară - este
cel mai utilizat model de regresie logistică, pentru clasificarea unei observaţii în una din două clase:
absenţă/prezenţă, nu/da, 0/1 etc;
- modelul clasifică o observaţie astfel: pe baza estimatorilor obţinuţi pentru coeficienţii de regresie, se
calculează probabilitatea de apartenţă la o clasă: pentru regresia binară, la obţinerea unei probabilităţi
mai mici decât 0.5, observaţia este introdusă în prima clasă (cea care are drept valoare a variabilei target
0), iar la o probabilitate mai mare de 0.5, observaţia este inclusă în a doua clasă (variabila target cu
valoarea 1).
- exemple de utilizare: în domeniul financiar (se acordă/nu se acordă credit bancar), în domeniul medical
(determinarea dacă o tumoare este mai probabil să fie benignă decât malignă) etc. Funcţia care stă la baza
modelului este funcţia logistică (sigmoidă) f : R  (0,1) , care are următoarea formă: z e f z    1 1 ( ) (1)
Această funcţie (cu graficul din Figura 1) poate primi ca argument orice valoare între   şi   şi indiferent
de argumentul primit, are drept rezultat o valoare între 0 şi 1 (adică o valoare validă pentru o
probabilitate).
11.Analiza discriminanta liniara
Scopul analizei discriminanţilor este de a clasifica obiecte (oameni, clienţi, produse, etc) în două
sau mai multe grupuri pe baza unei mulţimi de trăsături ce descriu obiectele (ex. sex, vârstă, venit,
greutate, etc). În general, vom ataşa un obiect la unul din grupurile predeterminate pe baza
observaţiilor pe care le facem cu privire la acest obiect. Dacă presupunem că grupurile sunt
separabile liniar, putem folosi modelul discriminantului liniar (LDA).
Proprietatea de separabilitate liniară sugerează că grupurile pot fi separate printr-o combinaţie de

trăsături care descriu obiectele. Dacă avem numai două trăsături, separatorii vor deveni drepte.
Dacă avem trei trăsături, separatorul devine un plan, iar dacă numărul trăsăturilor este mai mare,
separatorul devine un hiperplan.
Obiectivul LDA este de a obţine o reducere a dimensiunilor păstrând cât mai mult din informaţia
discriminantă. Avem o mulţime de exemple D-dimensionale {x (1 , x (2 , …, x (N}, N1 aparţinând
clasei ω1, şi N2 clasei ω2, şi urmărim să obţinem un scalar y prin proiecţia exemplelor x pe o
dreaptă: y = wT x
12.Casificatorul Naive Baise
Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe (clusters) definite
algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de informatie, fiecare grupa
reprezentând mai multe puncte având caracteristici similare. Clusterele distincte sunt disjuncte.
Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai multe euristici bazate în principal
pe experienta noastra „vizuala” în gruparea punctelor în regiuni de puncte.
În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele informatii:
 distanta între punctele unui spatiu multidimensional;

 strategia de alegere a punctului reprezentativ (adica a „centrului”) pentru orice grupare de
puncte;
 distanta între doua grupe de puncte.
13.Clasificatorul KNN
k-NN. Tehnica (prescurtare a expresiei engleze k-Nearest Neighbor) este predictiva de explorare
a datelor utilizata cu precadere în probleme de clasificare. Principiul care sta la baza tehnicii este
relativ simplu: o instanta noua este clasificata prin analiza “proximitatii” sale (sau gradului de
similitudine) cu alte instante dintr-un set de date cunoscut. k-NN este o tehnica folosita în special
pentru clasificarea datelor în categorii multiple, însa poate fi aplicata inclusiv pentru previzionarea
unui atribut-obiectiv de natura numerica (continua sau discreta), ca rezultat al unor dependente
neliniare. Fie un set de date compus din instante care au urmatoarea structura:
- n atribute numerice independente {Xi, i=1,n};
- m atribute booleene sau categorice independente {Aj, j=1,m};
- un atribut-obiectiv Y, reprezentând variabila dependenta a carui valoare va trebui estimata pentru

noile instante. Pentru a previziona valoarea atributuluiobiectiv al unei instante noi, algoritmul
cauta în setul de date k înregistrari “apropiate” de acea instanta, pentru care se cunosc valorile lui
Y. Predictia este data de media valorilor lui Y aferente “vecinilor” identificati în setul de date.
Aplicarea conceptului în practica ridica urmatoarele probleme:
i) Prin ce metoda se stabileste relatia de vecinatate dintre doua instante? Care este metrica utilizata
la calculul distantelor dintre doua instante? I
i) Care este valoarea optima pentru k? De câte instante similare este nevoie pentru ca media
atributelor-obiectiv sa se constituie de date, care se presupune ca odata supus analizei, este deja în
forma sa cea mai recenta. Chiar daca de multe ori pot aparea dificultati în stabilirea unei metrici
eficiente, algoritmul este unul dintre putinele care accepta ca input date de natura diferita (continua,
categorica, booleana etc.)
14.Arbori de decizie – algoritmul TDIDT
15.Utilizarea entropiei pt selectarea atributelor de dezvoltare
Exista posibilitatea de a alege ordinea de selectie a atributelor astefel incat rezultatele unui
algoritm de rezolvare eficiente neafectatde fenomenul de overfitting . O astfel de metoda este o
metoda bazata pe utilizarea entropiei.
Formula entropiei ( un set de date (masurat in biti )
E= ∑𝐾
𝐼=1 𝑝𝑖 𝑙𝑜𝑔2(𝑝𝑖) k – nr de clase din tabela , (pi – este probabilitati de apartinere a clasei i )
Fiecare pas al algoritmului reduce entropía astefel incat parcurgerea completa aceasta va fi 0 .
In principiu la fiecare nod-tata se face urmatoare analiza :
1. se calculeaza entropía nodului tata

2. se realizeaza divizarea pt fiecare atribut pt fiecare tabel in subtabele .
16.Overfitting
În statistici, depășirea este "producerea unei analize care corespunde prea strâns sau exact unui
anumit set de date și, prin urmare, poate să nu reușească să se potrivească cu date suplimentare sau
să prezică în mod credibil observațiile viitoare." [1] Un model depășit este un model statistic care
conține mai mulți parametri decât poate fi justificat de date. [2] Esența suprapunerii este de a
extrage în necunoștință de cauză o variație reziduală (adică zgomotul) ca și când variația ar
reprezenta structura modelului de bază. [3]: 45 Încadrarea în incintă are loc atunci când un model
statistic nu poate capta în mod adecvat structura de bază a datelor. Un model necorespunzător este
un model în care lipsesc anumiți parametri sau termeni care ar apărea într-un model corect
specificat. [2] Încadrarea în echipă ar avea loc, de exemplu, atunci când se potrivește un model liniar
cu date neliniare. Un astfel de model va avea tendința de a avea performanțe predictive slabe.
Depășirea și echiparea cu echipamente pot apărea mai ales în procesul de învățare a mașinilor. În
procesul de învățare în mașină, fenomenele sunt numite uneori "suprasolicitare" și "subtraining".
17.Subiect 17
18.Estimarea de
19.Perceptronul liniar – cibertronul si toti robotii din Transformers
20.Perceptronul simple si generalizat
21.Retele neuronale – prez generala
In general alegerea intrarilor este o problema dificila. Iesirile retelei sunt mai clar impuse
de problema concreta analizata, pe cand intrarile nu. O regula empirica de alegere a intrarilor
este urmatoarea: 'cu cat mai multe date, cu atat mai bine!' Aceasta regula se aplica atat la
numarul intrarilor unei retele, ca si la numarul sabloanelor de antrenare.
Intrarile suplimentare nu afecteaza acuratetea rezultatelor furnizate de retea in

problema concreta rezolvata, chiar daca anumite intrari se dovedesc a fi neimportante in
determinarea iesirii corecte. Totusi, toate simulatoarele au o limita superioara de neuroni pe
care-i suporta, si deci si de intrari.
Trebuie ca atunci cand se strang date si se definesc intrarile retelei, sa nu se furnizeze

retelei 2 vectori similari de intrari, care sa dea la iesire rezultate conflictuale. Spre exemplu,
o retea ce recunoaste diverse fructe, ar putea sa identifice 'mar' sau 'pruna' (deci conflictual),
bazat pe intrarile 'rotund' si 'rosu'. Pentru a rezolva conflictul, trebuie introduse intrari
aditionale ( marime, gust, etc.).
La fel de importanta ca si strangerea unui numar suficient de date de intrare este si

modalitatea de prezentare a acestora, retelei. Marea majoritate a simulatoarelor existente
accepta intrari ce variaza intre 0 si 1, sau intre -1 si +1. De aceea, datele reale trebuie sa fie
preprocesate pentru a fi aduse in aceasta gama. Cele mai multe simulatoare realizeaza chiar
ele aceasta preprocesare. Modul cum se aleg intrarile semnificative pentru retea si modul de
setare al parametrilor in simulator, au drept rezultat obtinerea unei retele neuronale
performante sau nu.
Se pot utiliza 2 tipuri de baza pentru intrari in retele neuronale:

-intrari booleene (de tipul TRUE/FALSE)
Astfel, pentru o imagine alb-negru ce trebuie recunoscuta de retea, intrarile ( “0” -

pixel alb, “1” - pixel negru ) sunt de tip boolean. Aceste intrari se mai cheama si intrari binare.
-intrari analogice sunt cele care iau valori continue intre o valoare minima si una maxima. De
exemplu, intre 0 si 1. Pentru datele de pe intrari de tip analogic, se recomanda ca gama lor
de variatie sa nu fie prea mare (diferenta intre valoarea maxima asteptata si valoarea minima
asteptata). In acest scop, daca o intrare analogica are o plaja mare de valori, poate fi eventual
inlocuita cu o alta intrare ce foloseste diferenta intre valoarea analogica curenta si cea
anterioara. In acest fel, aplicand diferenta, gama scade.
Cele mai multe retele ce rezolva probleme reale au atat intrari binare cat si intrari
analogice. Tipul de intrare folosit (binara sau analogica) poate afecta performantele retelei.
Numarul de intrari corespunde numarului de neuroni din stratul de intrare.
22. Clusteri ierarhici si neierarhici

Teorie TDM v2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Teorie TDM v2

Încărcat de

Drepturi de autor:

Formate disponibile

1.

Procesul de descoperire a cunoștințelor (KDP), numit și descoperirea cunoștințelor în bazele

2.Categorii de date utilizate in DM

Se pune problema calitatii datelor (eliminarea valorilor extreme/aberante), a valorilor lipsa, a

4. Strategii de tratare a datelor lipsa

5.Regresie liniara simpla – prez generala

Problema regresiei liniare simple

6.Rezolvare modelului de regresie simpla

7.Utilizarea modelului de regresie simpla pt predictie

8.Modelul de regresie liniara

9.Validarea mdelului de regresie

- tehnică de clasificare supervizată; - modelează relaţia dintre o mulţime de variabile independente Xi

Proprietatea de separabilitate liniară sugerează că grupurile pot fi separate printr-o combinaţie de

12.Casificatorul Naive Baise

 distanta între punctele unui spatiu multidimensional;

- n atribute numerice independente {Xi, i=1,n};

- m atribute booleene sau categorice independente {Aj, j=1,m};

- un atribut-obiectiv Y, reprezentând variabila dependenta a carui valoare va trebui estimata pentru

14.Arbori de decizie – algoritmul TDIDT

15.Utilizarea entropiei pt selectarea atributelor de dezvoltare

Formula entropiei ( un set de date (masurat in biti )

In principiu la fiecare nod-tata se face urmatoare analiza :

1. se calculeaza entropía nodului tata

19.Perceptronul liniar – cibertronul si toti robotii din Transformers

20.Perceptronul simple si generalizat

21.Retele neuronale – prez generala

Intrarile suplimentare nu afecteaza acuratetea rezultatelor furnizate de retea in

Trebuie ca atunci cand se strang date si se definesc intrarile retelei, sa nu se furnizeze

La fel de importanta ca si strangerea unui numar suficient de date de intrare este si

Se pot utiliza 2 tipuri de baza pentru intrari in retele neuronale:

Astfel, pentru o imagine alb-negru ce trebuie recunoscuta de retea, intrarile ( “0” -

Numarul de intrari corespunde numarului de neuroni din stratul de intrare.

22. Clusteri ierarhici si neierarhici

S-ar putea să vă placă și