Sunteți pe pagina 1din 7

Subiectu 3

1. SOM

Reprezinta un tip de retele neuronale introduse de finlandezul Feno.


Printr-un tip de invatare nesupervizata aceste SOM produc o reprezentare numita harta de
dimensiuni mai reduse al spatiului multidimensional al intrarilor.
SOM ofera o organizare fotografica. Diferente dintre SOM si alte tipuri de retele neuronale consta in
existenta unei functii vecinatate, cu scopul de a pastra proprietatile spatiului de intrare.
O harta SOM este formata din neuroni/noduri, sub forma unei grile bidimensionale, de regula
matrice. Pozitia unui neuron va fi reprezentata de o pereche (i,j).
Fiecare pereche de neuroni (i,j) ii se asocieaza un vector de ponderi(conexiuni): W
ij=(W1(i,j).Wn(i,j)), avand aceleasi dimensiuni ca datele de intrare.
Se mmodifica si se actualizeaza toate nodurile (i,j) pana cand nu mai exista modificari marcante
in numarul neuronilor sau cand s-a atins un numar de iteratii prestabilit. Numarul de clustere este
specificat in prealabil sau este stabilit de algoritm.

2. Rationamentul lui Bayes

Este un algoritm de clasificare bazat pe probabilitatea conditionata si pe formula lui Bayes:


P(A/B)= P(B/A)*P(A)/P(B)
Consideram o populatie C cu atributele A1,A2.An iar X1,. Xn valorile acestor atribute. C este
impartita in K clase c1.ck cu proprietatile :
Ci cj = si U ci= C
Pasi :
P1: fie T o multime de angrenare, fiecare observatie din T este etichetata cu clasa careia ii apartine
c1ck.
P2: pentru o observatie X, clasificatorul bayesian va detecta carei clase ii apartine X.
Notam : p(x) -> prob. sa fie ales obiectul x
P(Ci)-> prob sa fie aleasa clasa Ci
P(X/Ci)-> prob de a fi ales X cu conditia sa fie in clasa Ci
P(Ci/X)-> prob ca punctul ales fiind X sa apartina clasei Ci

=> max[P(X/ci)*P(Ci)] ----- (1)

P3: daca p(Ci) sunt egale ( p(c1)=.=p(Cn) ) din (1) reducem la : max P(X/Ci) .
P4: pentru seturi mari de date reducem calculele prin ipoteza naiva de independenta de clase
P(X/ci)= p( Xj / Ci )
P5: pentru a predictiona clasa lui X evaluam p(X/ci)*p(ci) si alegem Ci pentrur care (1) este maximizat.
Subiectul 2

1. Tipuri de invatare

a) Invatare supervizata :
Variabilele se impart in : - variab. Explicative si una sau mai multe variab. Dependente.
Analiza datelor are scopul de a preciza relatia dintre variab explicative si cele dependente.
Valorile variab dependente trebuie sa fie cunoscute pentru cea mai mare parte din date.
Setul de antrenare contine datele de intrare si raspunsurile corecte corespunzatoare.
Invatarea supervizata este echivalenta cu optimizarea unei functii eroare care masoara diferenta dintre
raspunsurile pe care le produce algoritmul si cele pe care ar trebui sa le includa .

b) Invatare nesupervizata :
Toate variab sunt tratate in acelasi mod, nu se face diferenta intre variab dependente si cele
explicative.
Scopul analizei datelor este gruparea in clustere si reducerea dimensionalitatii datelor.
Datele pot fi : de antrenare, de validare si de testare..
Setul de date contine numai date de intrare.
Invatarea nesupervizata se bazeaza pe proprietatile statistice ale datelor si pe calitatea
modelului extras din date care trebuie maximizat.

2. Retelele neuronale artificale

RNA sunt reprezentate de neuroni artificali interconectati care sunt organizati in straturi. Exista
cel putin 2 straturi de neuroni cu rol de comunicare cu mediul extern :
- un strat de intrare
- un strat de iesire
Daca mai exista si alte straturi neuronale, ele se gasesc intre stratul de intrare si cel de iesire si
se numesc straturi ascunse.
Stratul de intrare are rol de a relua datele de intrare fara a afecta vreo procesare a lor. Ceilalti
neuroni pot avea orice functie de activitate.
Subiectul 1

1. Neuronul Artifical

Neuronul artificial este mult mai simplu decat cel biologic.

Avem n intrari : x1. Xn cu ponderile Wj1, Wj2. Wjn


X1,x2xn-> valorile numerelor reale, echivalentul semnalelor electire din neuronul biologic.
Xi-> informatia primita de la neuronul i

Neuronul Artificial efectueaza operatiile de :


-integrare( sumare) : Ij = SUMA ( Xi*Wji )
-transfer(activare) : Yj= f(Ij)= f( SUMA(Xi*Wji) )

2. Arbori decizionali

Sunt utiizati pentru a previziona apartenenta obiectelor la o clasa. Sunt usor de inteles si de
interpretat si pot fi aplicati pentru date numerice si calitative. Algoritmii bazati pe arbori decizionali sunt
eficienti in cazul seturilor mari de date.
Procesul de construire al unui arbore se numeste inductia arborelui.
Arborii decizionali sunt utilizati in medicina, informatica, biologie etc.
Sunt de 3 tipuri de clasificare
- de regresie
- combinatia dintre cei 2
Plecand de la un set de date putem construi mai multi arbori in functie de atributul selectat.
Un arbore conduce la un mod de clasificare ce imparte setul de antrenament pana se ajunge la
nodurile terminale.
ALTE SUBIECTE :

1. Decizii fuzzy multicriteriale :


O probllema de criterii fuzzy multicriteriale are 3 componennte : o multime de alternative, o multime de
criterii si un vector de ponderi asociate criteriilor.
Rezolvarea unei pb de decizii multicriteriale consta in ierarhizarea alternativelor. Pentru a modela o pb
de decizii, trebuie sa raspundem la intrebarile : ce intelegem prin citerii si ce inseamna ierarhizarea
alternativelor.
Prin ctieriu intelegem cand o alternativa x este preferata unei alternative y.
Prin ierarhizare alternativa intelegem gasirea unei relatii de preordine totatal corespunzatoare pe x.
O problema de decizii multicriteriale consta in multimea x a alternativelor si ponderile wi1. Win. In
modelarea unei probleme de decizii fuzzy consideram 2 etape :
- agregarea citeriilor
-ordonarea alternativelor folosind o functie scor.

2. Data Mining
In modelele decizionale apar 3 tipuri de date :
- date propriu-zise: referitoare la evenimentele dintr-un sistem(datele pot fi: numerice, calitative,
sunete,imagini).
- informatiille : date organizate a.i. sa aiba un intelespt destinatar..
- cunostintele : date si inf organizate si prelucrate, capabile sa transmita intelesuri pe baza unor procese
de auto invatare.
DM reprezinta un asamblu de aloritmi si metode de exploatare si analiza a unor baze de date mari,
pentru a identifica reguli si asocieri ce caracterizeaza informatia utila.

Necesita folosirea DM:


- explozia datelor
- necesitatea cresterii productivitatii
- imbunatatirea performantei calculatoarelor

Tipuri de analiza folosita in DM :


a)regresia- previzonarea unor valori noi pe baza unorvalori din trecut
b)clasificarea gruparea datelor, are 4 componente principale : clasa, predictorii, setul de date de
antrenare si setul de date de testare
c) gruparea- pozitionarea datelor in submultimi( clustere)

Aplicatii ale DM:


-domeniul bancar :modelare, predictia fraudelor, analiza profitabilitatii, evaluarea riscurilor.
-domeniul financiar: predictia pretului actiunilor, managementl portofoliului
-politici de vanzare : campanii de promovare a produselor, segmentarea consumatorilor
-sanatate : tehnici de vizualizare, preditia costurilor medicale
-telecomunicatii : identificarea profitului consumatorului, predictia bandei in telefonia mobila, ident risc.
Etapele procesului de explorare a datelor :
-Definirea problemei : determinata de sesizarea unei nevoi sau oportunitati de afaceri, se vor delimita
obiectivele si rezultatele
-Identificarea surselor de date.
-Colectarea si selectia datelor
-Pregatirea datelor
-Construirea modelului
-testarea modelului
-evaluarea modelului
-integrarea modelului

3. Analiza cluster
Este un procedeu de grupare a datelor a.i. datele din acelasi grup sunt similare in raport cu obiectele din
alt cluster. Poate fi de tipul : hard clustering sau soft clustering.

Algoritmul K-MEANS
A fost introdus in1961 de Macqueen. Reprezinta gruparea in k clustere folosind media aritmetica. Este
un algoritm de clusterizare non-ierarhic care imparteun set de date in clustere folosind diverse cirterii
pentru gruparea instantei.
Porneste de la un se de observatii(x1xn) unde fiecare xi este un vetor real de dimensiune d. Cele n
observatii vor fi grupate in K multimi(clustere) adica S :{s1.sk}, a I sa se minimizeze suma patratelor
distantelor de la xj la mi unde mi = media patratelor din clusterul Si.
Algoritmul are 2 pasi alternanti : - pasul de asignare si pasul de actualizare.
Alg se opreste cand asignarile nu se mai modifica. Exista un numar finit de partitii deci alg va tinde catre
un optim local.

Algoritmul K-Medoids
Este similar cu alg k-means, cu deosebirea ca in timp ce un cluster este reprezentat prin centroidul sau in
algoritmul K-means, in alg celor k medoizi el este reprezentat prin cel mai apropiat obiect din cluster
Un medoit este un obiect reprezentativ al unui cluster cel mai apropiat de centrul sau. Medoizii sunt
similari ca notiune cu media, dar intotdeauna sunt elemente ale setului de date.
Metoda celor K-medoizi este mai robusta decat metoda celor k-medii, deoarece un individ este mai
putin influentat de observatiile atipice sau de alte valori extreme decat mediul.

Metoda celor mai apropiati K-Vecini


Pas1: se stabileste numarul celor mai apropiati vecini
Pas2: se calculeaza distanta euclidiana dintre datele setului de antremanet si noua observatie
Pas3: se ordoneaza crescator patratul distantei si se determina cei mai apropiati 3 vecini
Pas4: se determina clasa celor mai apropiati 3 vecini
Pas5: se foloseste majoratea simpla a clasei celor mai apropiati vecini pentru a clasifica noua oservatie
4. Perceptorul simplu
Este o retea neuronala care este formata din stratui de intrare si cel de iesire, nu are straturi ascunse.
N intrari, m iesiri.
(DESENU ala simplu)
Procesul de invatare este procesul prin care ponderile Wji sunt adaptate permanent prin intermediul
unor stimuli externi. Invatarea consta din:
-RNA primeste stimuli de la mediu
-RNA se modifica ca raspuns la stimului
-RNA raspunde intr-un mod nou la stimuli
La fiecare pas se modifica ponderile.

5. Calculul evolutiv- cromozomi


Cromozomii sunt purtatorii info-genetice. Un cromozon este o structura ordonata de elemente numite
gene, ale caror valori determina caracterizarea unor indivizi si care transmit info genetica.
Lungimea cromozonului depinde de natura problemei. Cea mai folosita tehnica de codificare a lor este
cea binara. Caracteristicile sunt considerate gene.

Calculul evolutiv se ocupa de roblema optimizarii si clasificarii cu ajutorul calculatoarelor si se bazeaza


pe principii provenite din genetica, selectia naturala sau sisteme adaptive complexe.
Calculul evolutiv se imparte in :
-alg genetici
-programare evolutiva
-strategii evolutive
-programare genetica
-optimizarea roiurilor de particule
Aplicatii ale calculului evolutiv:
-control optimal
-planificare
-modelare econometrica
-comprimarea imaginilor
-traducere automata
-prelucrarea imaginilor
-predisctia sistemlor financiare

6. Operatia de selectie proportionala


Selectia urmareste sa asigure mai multe sanse de reproducere a celor mai performanti indivizi. Cu cat
individul este mai adaptat cu atat sansele sale de supravituire in viitor sunt mai mari.
Fie X- spatiu de cautare, f:X->R+ fct de adecvare , p(t)={x1.xn}-populatia la momentu t.
Notam cu F= SUMA f(xi)-> performanta totala a pop p(t) si pi=f(xi)/F ->probabilitatea de selectie a
cromozonului.
Ni= nr mediu al descendetilor lui xi
Ni=n*pi
=> f barat = suma f(xj)/n => ni= f(xi)/(f barat)
Nr mediu al descendent lui xi este egal cu raportul dintre val fct de aptitudine f(xi) si aptitudinea medie f
barat.

7. Operatorul Monte Carlo


Se considera o pop formata din n cromozoni si o ruleta impartita in n sectoare. Fiecare sector I ii
corespunde o probabilitate pi deslectie a cromozomului xi. Ruleta este invartita de n ori pentru fiecare
cromozom. La fiecare rotire, ruleta se roteste in dreptul unui sector si este selectat un cromozom.
Cromozomii marcati vor forma o populatie intermediara.
Alg ruletei :
P1: qi=suma pi
P2: pentru fiecare i= i,n este generat un nr g apartine intervalului [0,1]
Regula de slectie : a) 0<=q<=qi=pi ->>> este selectat x1
b) q(i-1)<q<qi ->>> este selectat xi, unde qi=p1+..+pi

8. Operatorii de incrucisare si mutatie


Dupa ce s-au selectat cei mai performanti cromozomi prin operatorul de selectie, se aplica operatorii de
incrucisare si mutatie pentru a introduce noi indivizi in productie.
Incrucisarea : sepleaca de la 2 cromozomi existenti in care anumite parti sunt permutate, dar altele sunt
considerate neschimbate. Se aplica op de incrucisare de tipul (2,2) -> din 2 parinti -> 2 urmasi si avem
mai multe tipuri de incrucisari :- cu un singur punct de taietura
- cu mai multe puncte de taietura
Daca probabil de incrucisare este de 30% atunci 30% dintre indivizi vor suferi incrucisarea. Cromozoii
rezultati, numiti copii mostenesc o parte din caracteristicile parintilor. Mutatia intervine ca o eroare in
transmiterea materialului genetic si consta in schimbarea unei gene din 0 in 1 si invers. Are o frecventa
redusa si la fiecare generatie, se produce o singura mutatie..
In general mutatia este destructiva, indivizii aparuti prin efectul ei intr-o generatie sau doua succesive
vor fi eliminati.

S-ar putea să vă placă și