1. SOM
P3: daca p(Ci) sunt egale ( p(c1)=.=p(Cn) ) din (1) reducem la : max P(X/Ci) .
P4: pentru seturi mari de date reducem calculele prin ipoteza naiva de independenta de clase
P(X/ci)= p( Xj / Ci )
P5: pentru a predictiona clasa lui X evaluam p(X/ci)*p(ci) si alegem Ci pentrur care (1) este maximizat.
Subiectul 2
1. Tipuri de invatare
a) Invatare supervizata :
Variabilele se impart in : - variab. Explicative si una sau mai multe variab. Dependente.
Analiza datelor are scopul de a preciza relatia dintre variab explicative si cele dependente.
Valorile variab dependente trebuie sa fie cunoscute pentru cea mai mare parte din date.
Setul de antrenare contine datele de intrare si raspunsurile corecte corespunzatoare.
Invatarea supervizata este echivalenta cu optimizarea unei functii eroare care masoara diferenta dintre
raspunsurile pe care le produce algoritmul si cele pe care ar trebui sa le includa .
b) Invatare nesupervizata :
Toate variab sunt tratate in acelasi mod, nu se face diferenta intre variab dependente si cele
explicative.
Scopul analizei datelor este gruparea in clustere si reducerea dimensionalitatii datelor.
Datele pot fi : de antrenare, de validare si de testare..
Setul de date contine numai date de intrare.
Invatarea nesupervizata se bazeaza pe proprietatile statistice ale datelor si pe calitatea
modelului extras din date care trebuie maximizat.
RNA sunt reprezentate de neuroni artificali interconectati care sunt organizati in straturi. Exista
cel putin 2 straturi de neuroni cu rol de comunicare cu mediul extern :
- un strat de intrare
- un strat de iesire
Daca mai exista si alte straturi neuronale, ele se gasesc intre stratul de intrare si cel de iesire si
se numesc straturi ascunse.
Stratul de intrare are rol de a relua datele de intrare fara a afecta vreo procesare a lor. Ceilalti
neuroni pot avea orice functie de activitate.
Subiectul 1
1. Neuronul Artifical
2. Arbori decizionali
Sunt utiizati pentru a previziona apartenenta obiectelor la o clasa. Sunt usor de inteles si de
interpretat si pot fi aplicati pentru date numerice si calitative. Algoritmii bazati pe arbori decizionali sunt
eficienti in cazul seturilor mari de date.
Procesul de construire al unui arbore se numeste inductia arborelui.
Arborii decizionali sunt utilizati in medicina, informatica, biologie etc.
Sunt de 3 tipuri de clasificare
- de regresie
- combinatia dintre cei 2
Plecand de la un set de date putem construi mai multi arbori in functie de atributul selectat.
Un arbore conduce la un mod de clasificare ce imparte setul de antrenament pana se ajunge la
nodurile terminale.
ALTE SUBIECTE :
2. Data Mining
In modelele decizionale apar 3 tipuri de date :
- date propriu-zise: referitoare la evenimentele dintr-un sistem(datele pot fi: numerice, calitative,
sunete,imagini).
- informatiille : date organizate a.i. sa aiba un intelespt destinatar..
- cunostintele : date si inf organizate si prelucrate, capabile sa transmita intelesuri pe baza unor procese
de auto invatare.
DM reprezinta un asamblu de aloritmi si metode de exploatare si analiza a unor baze de date mari,
pentru a identifica reguli si asocieri ce caracterizeaza informatia utila.
3. Analiza cluster
Este un procedeu de grupare a datelor a.i. datele din acelasi grup sunt similare in raport cu obiectele din
alt cluster. Poate fi de tipul : hard clustering sau soft clustering.
Algoritmul K-MEANS
A fost introdus in1961 de Macqueen. Reprezinta gruparea in k clustere folosind media aritmetica. Este
un algoritm de clusterizare non-ierarhic care imparteun set de date in clustere folosind diverse cirterii
pentru gruparea instantei.
Porneste de la un se de observatii(x1xn) unde fiecare xi este un vetor real de dimensiune d. Cele n
observatii vor fi grupate in K multimi(clustere) adica S :{s1.sk}, a I sa se minimizeze suma patratelor
distantelor de la xj la mi unde mi = media patratelor din clusterul Si.
Algoritmul are 2 pasi alternanti : - pasul de asignare si pasul de actualizare.
Alg se opreste cand asignarile nu se mai modifica. Exista un numar finit de partitii deci alg va tinde catre
un optim local.
Algoritmul K-Medoids
Este similar cu alg k-means, cu deosebirea ca in timp ce un cluster este reprezentat prin centroidul sau in
algoritmul K-means, in alg celor k medoizi el este reprezentat prin cel mai apropiat obiect din cluster
Un medoit este un obiect reprezentativ al unui cluster cel mai apropiat de centrul sau. Medoizii sunt
similari ca notiune cu media, dar intotdeauna sunt elemente ale setului de date.
Metoda celor K-medoizi este mai robusta decat metoda celor k-medii, deoarece un individ este mai
putin influentat de observatiile atipice sau de alte valori extreme decat mediul.