Documente Academic
Documente Profesional
Documente Cultură
Invatarea supervizata
nvarea supervizat este un tip de nvare inductiv ce pleac de la un set de exemple de
instane ale problemei i formeaz o funcie de evaluare (ablon) care s permit clasificarea
(rezolvarea) unor instane noi.
nvarea este supervizat n sensul c setul de exemple este dat mpreun cu clasificarea lor
corect. Aceste instane rezolvate se numesc instane de antrenament. Formal, setul de
instane de antrenament este o mulime de perechi atribut-valoare (x,f(x)), unde x este instana
iar f(x) clasa creia i aparine instana respectiv.
Scopul nvrii este construirea unei funcii-ablon care s clasifice corect instanele
exemplu, iar pentru un x pentru care nu se cunoate f(x) s propun o aproximare ct mai
corect a valorii f(x).
Abordari si algoritmi:
-retele neuronale artificiale
-statistica Bayesiana
-arbori de decizie
-support vector machines
-expectation maximization
Aplicatii:
-bioinformatica
-recunoasterea scrisului de mana
-recunoasterea obiectului in computer vision
-detectarea spamurilor
-recunoasterea tiparelor ( Pattern Recognition)
-recunoasterea vorbirii
fiecare din aceste seturi de date este sistematic incorect n prezicerea iesirii corespunzatoare
pentru
dac
prezice diferite valori de iesire cnd este antrenat pe diferite seturi de date. Eroarea de
predictie a unui clasificator este legat de suma dintre prejudiciul si variatia algoritmului de
nvtare. n general exist un compromis ntre prejudiciu si variatie. Un algoritm de nvtare
cu un prejudiciu sczut trebuie trebuie s fie flexibil pentru a putea potrivi datele bine, dar
dac va fi prea flexibil va potrivi fiecare set de date diferit si de aici va avea o variatie mare.
Unul dintre aspectele cheie ale multor tehnici de nvtare supervizat este faptul c sunt
capabile s ajusteze acest compromis fie automat, fie prin intermediul unui parametru pe care
utilizatorul l poate modifica.
O alt problem este reprezentat de cantitatea de date de antrenament disponibil
raportat la complexitatea functiei ce trebuie determinat. Dac functia ce trebuie nvtat este
simpl, atunci un algoritm de nvtare inflexibil cu prejudiciu mare si variatie sczut va fi
capabil s nvete dintr-o cantitate mic de date, dar dac functia este complex (de exemplu
pentru c implic interactiuni complexe ntre multe caracteristici diferite de intrare sau se
comport diferit n prti distincte ale spatiului datelor de intrare), atunci functia va putea fi
folosit doar cu ajutorul unei cantitti mari de date si cu un algoritm flexibil. Prin urmare,
algoritmii de nvtare cu rezultate satisfctoare regleaz valoarea compromisului n functie
de cantitatea de date existent si complexitatea functiei ce urmeaz a fi nvtat.
A treia problem este dat de dimensiunea spatiului intrrilor. Dac vectorul de
caracteristici are o dimensiune foarte mare, problema de nvtare poate fi dificil chiar dac
functia depinde doar de un numr mic de caracteristici. Acest comportament al algoritmului
are loc datorit faptului c dimensiunile extra i pot crea confuzii si pot cauza astfel o
variatie ridicat. Prin urmare, un spatiu de intrare cu multe dimensiuni oblig algoritmul s
aib un prejudiciu ridicat si o variatie sczut. n practic, dac programatorul reuseste s
elimine caracteristicile irelevante din setul de date de intrare, functia nvtat va avea o
acuratete mai mare. n plus, exist multi algoritmi pentru selectia caracteristicilor meniti s le
identifice pe cele semnificative si s le ignore pe cele care nu sunt de folos n procesul de
nvtare. Acesta este un exemplu al unei strategii generale de reducere a dimensiunii spatiului
de intrare, care are scopul de a fixa datele de intrare ntr-un spatiu de dimensiune mai redus
nainte de a executa algoritmul de nvtare supervizat.
O alt problem o reprezint gradul de zgomot din valorile de iesire dorite. Dac
valorile de iesire sunt adesea incorecte (datorit erorilor umane sau altor erori), atunci
algoritmul de nvtare nu ar trebui s ncerce s gseasc o functie care potriveste exact
exemplele de antrenament. ncercarea de a potrivi datele cu prea mult atentie conduce la
nvtarea pe de rost (overfitting). Acest fenomen face ca algoritmul s aib o performant
foarte bun pe datele de antrenament, dar foarte slab pe datele de test. nvtarea pe de rost
poate s apar chiar si atunci cnd nu exist erori n efectuarea msurtorilor dac functia pe
care algoritmul ncearc s o nvete este prea complex pentru modelul de nvtare. ntr-o
asemenea situatie acea parte din functie care nu poate fi modelat, altereaz setul de date de
antrenament. n practic se folosesc diferite abordri n vederea atenurii fenomenului de
zgomot din valorile de iesire. Exemple de astfel de abordri le constituie oprirea timpurie a
algoritmului pentru a preveni nvtarea pe de rost sau detectarea acelor exemple de
antrenament care sunt suspecte de producere de zgomot si eliminarea acestora naintea
antrenrii algoritmului de nvtare supervizat.
cea logistic vor avea o performant sczut datorit numeroaselor instabilitti numerice.
Aceste inconveniente pot fi rezolvate impunnd diferite forme de regularizare a datelor.
Un alt factor care trebuie avut n vedere este prezenta interactiunilor si a
neliniarittilor. Dac fiecare din caracteristici au o contributie independent la rezultat atunci
algorimii bazati pe functii liniare (regresia liniar, regresia logistic, masinile cu suport
vectorial, sistemele Bayes) si cei bazati pe functii de distant (cel mai apropiat vecin, masini
cu suport vectorial cu nucleu Gaussian) au n cele mai multe cazuri o performant ridicat. Pe
de alt parte, dac exist interactiuni complexe ntre trsturi, atunci rezultate mai bune sunt
obtinute de arborii de decizie sau retelele neuronale artificiale, ntruct acesti algorimi sunt n
special conceputi pentru a descoperi aceste interactiuni. Metodele liniare pot fi la rndul lor
aplicate n aceast situatie, dar programatorul trebuie s specifice manual interactiunile n
momentul n care le foloseste.
Alegerea algoritmului de nvtare supervizat cel mai potrivit pentru o problem
specific este un proces experimental care solicit deseori un timp ndelungat. Avnd anumite
resurse fixate, de multe ori este mai recomandat s se petreac mai mult timp cu colectarea
mai multor date si a mai multor caracteristici, dect s se foloseasc si mai mult timp pentru
ajustarea algoritmului de nvtare corespunztor. Cei mai rspnditi algoritmi de nvtare
supervizat sunt: masinile cu suport vectorial, regresia liniar, regresia logistic, clasificatorul
bayesian, arborii de decizie, algoritmul al k-lea cel mai apropiat vecin si retelele neuronale
artificiale.
Arbori de decizie
Arborii de decizie constituie o tehnic aplicabil att pentru clasificare ct i pentru
predicie. Aa cum indic i numele, rezultatul ia forma unei arborescene care prezint o
ierarhie de reguli logice stabilite automat prin explorarea unei baze de exemple. Exemplele au
forma unor nregistrri compuse din mai multe atribute. Regulile se obin ca efect al
subdivizrii din ce n ce mai detaliate a ansamblului exemplelor, n funcie de coninutul
atributelor.
Construcia arborelui ncepe de la rdcin. Aceasta reprezint totalitatea exemplelor
disponibile. Ansamblul iniial este divizat n submulimi, ce devin noduri intermediare.
Fiecare nod este evaluat n continuare i poate fi decupat, la rndul su, n mai multe
submulimi. Procesul continu n aceast manier pn cnd se ajunge la noduri terminale
nedecompozabile. Exist cte un drum unic de la rdcin la fiecare nod terminal. Fiecare
nregistrare care intr n arbore este dirijat, n funcie de coninutul su, spre o ramur sau
alta, pn cnd se ajunge la un nod terminal. Cu alte cuvinte, nregistrarea este inclus n clasa
pe care o reprezint nodul terminal n care a ajuns; drumul pe care l-a parcurs pn la acesta
este expresia unei reguli de clasificare.
n tratarea efectiv a datelor, atributele sunt grupate n dou categorii: dependente i
independente. Mai precis, exist un singur atribut dependent, numit i atribut int, pentru
care se caut influenele exercitate de celelalte atribute, independente. Dintre toate, se
selecteaz cel care are impactul cel mai puternic asupra cmpului int, care permite, prin
urmare, divizarea ansamblului de nregistrri n submulimile cele mai relevante. Pentru
fiecare submulime, analiza se reia, avnd, evident, acelai cmp int dar lund n considerare
doar atributele rmase, cutnd noi i noi subdivizri.
Dup construcia arborelui, datele noi pot fi ncadrate, cu un anumit grad de certitudine,
n unul dintre nodurile terminale n funcie de valorile luate de atributele lor, clasndu-le sau
putnd face astfel predicii asupra lor.
Un arbore de decizie este una din cele mai utilizate structuri de reprezentare utilizate n
nvarea automat. Pentru o instan specificat de un set de proprieti, arborele verific
anumite proprieti pentru a naviga prin arbore i ajunge la o frunz care va fi eticheta
acelei instane. Fiecare nod intern al arborelui reprezint un test fcut asupra uneia sau mai
multor proprieti ale instanei, iar ramurile descendente din acel nod sunt identificate de
posibilele rezultate ale acelui test.
Un arbore de decizie construiete pentru o instan o conjuncie logic ce se verific pentru
proprietile instanei i formeaz un fel de demonstraie a clasificrii fcute pe baza acelor
proprieti.
Ca exemplu, fie arborele binar de decizie din Figura 1.
Acest arbore identific tipurile de patrulatere innd cont de anumite proprieti de baz. O
instan de intrare pentru acest arbore este o figur geometric definit de proprietile sale.
Arborele face anumite teste i ajunge la un nod terminal care identific tipul figurii
geometrice, dac este un patrulater, sau rspunde Altceva dac nu este un patrulater.
Drumul luat pentru a ajunge la rspuns poate fi reconstituit i formeaz o demonstraie a
rspunsului.
De exemplu, pentru instana:
Un algoritm de dat mai recent este C4.5, propus de profesorul australian J.R. Quinlan.
Spre deosebire de CART, care genereaz numai arbori binari, un nod poate avea aici un
numr variabil de ramuri. O alt diferen vine din modul de tratare a variabilelor nominale,
care vor avea acum cte o ramur pentru fiecare valoare posibil. n felul acesta se poate
ajunge rapid la un numr important de ramuri.
Precursorul acestui algoritm, numit ID3, dezvoltat de acelai autor, s-a bucurat de o larg
popularitate i a fost utilizat n diverse produse informatice. Acesta folosete drept criteriu de
evaluare a divizrilor ctigul informaional adus de acestea, respectiv gradul de incertitudine
nlturat, concept derivat din teorema informaiei a lui Shannon. Cum prin utilizarea sa sunt
favorizate arborescenele numeroase, crora le vor corespunde un numr redus de nregistrri
din setul de exemple, C4.5 folosete n aceast calitate raportul dintre ctigul informaional
total obinut prin diviziunea respectiv i ctigul informaional datorat exclusiv numrului
de subansambluri create prin aceasta. Elagajul arborelui se face de asemenea ntr-o manier
diferit de cea practicat n CART; mai mult dect att, analiza se bazeaz tot pe datele de
nvare, fr a mai recurge la date distincte de test sau de evaluare.
n varianta informatic, C4.5 are de asemenea capacitatea de a genera automat reguli, de
genul celei exemplificate anterior. Pornind de la setul complet, generat direct pe baza
arborelui, programul nlnuie un demers de generalizare, destinat reducerii numrului de
reguli. n acest scop, se elimin, pentru fiecare regul, anumite condiii i se verific msura
n care acest lucru crete rata de eroare. O serie de alte transformri mai pot fi operate n acest
scop, astfel nct, n final, numrul de reguli poate deveni mai mic (sau mult mai mic) dect
numrul de noduri terminale.
Cel mai vechi algoritm folosit pentru construirea de arbori de decizie este CHAID (Chisquared Automatic Interaction Detection), publicat pentru prima oar n 1975. Scopul su
principal este acela de a detecta relaiile statistice existente ntre variabile i, n aceast
calitate, face parte din produsele program de statistic, aa cum sunt SPSS sau SAS. CHAID
nu accept dect variabile nominative; celelalte trebuie supuse unui proces prealabil de
divizare n intervale cu care s fie nlocuite n timpul prelucrrii.
Printre perfecionrile propuse n domeniul generrii arborilor de decizie, ncorporate
deja n unele produse program comerciale, se poate meniona ideea utilizrii de combinaii de
atribute n stabilirea punctelor de ramificaie. n felul acesta, atributele nu mai sunt tratate
izolat unul de altul ci n anumite corelaii, ceea ce are ca efect simplificarea arborelui i
obinerea unor reguli de clasificare mult mai eficiente.
nvarea unui arbore de decizie plecnd de la un set S de exemple
etichetate i mulimea P de proprieti se face dup algoritmul:
begin
1. if (toate elementele din S au aceeai etichet) then
ntoarce un nod terminal cu eticheta respectiv
else {
2. caut proprietatea p din P cu cel mai mare ctig de
informaie
3. creeaz un arbore de decizie cu rdcina coninnd testul
acelei proprieti
4. for (fiecare rezultat posibil al testului acelei
proprieti) {
5. repet de la pasul 1 pentru setul de exemple cu
valoarea corespunztoare a proprietii testate
Rationamentul Bayesian
Modelul de nvare Bayesian este relevant din dou motive.
Primul dintre ele este acela c algoritmii bayesieni care calculeaz direct probabiliti pentru
anumite ipoteze, cum ar fi algoritmul de clasificare naiv al lui Bayes, sunt printre cele mai
practice abordri pentru anumite tipuri de probleme de nvare. Studiile arat nu doar faptul
10
c aceti algoritmi sunt competitivi cu alii, dar i faptul c pentru unele clase de probleme iau surclasat.
Al doilea motiv pentru care metodele Bayesiene sunt importante este c ele ofer o
perspectiv util pentru nelegerea mai uoar a multor algoritmi de nvare care nu
manipuleaz n mod explicit probabiliti. Perspectivele bayesiene pot fi folosite pentru
analizarea reelelor neuronale sau a arborilor de decizie.
Caracteristicile metodelor de nvare bayesiene sunt:
- Fiecare exemplu de antrenare poate scdea sau crete progresiv probabilitatea c o ipotez
este corect. Aceast abordare a procesului de nvare este mai flexibil comparativ cu
algoritmii care elimin complet o ipotez dac se dovedete c ea e n contradicie cu cel puin
un singur exemplu.
- Cunotinele anterioare pot fi combinate cu datele de antrenare observate pentru a
determina probabilitatea final a ipotezei. Cunotinele anterioare sunt obinute prin asocierea
unei probabiliti anterioare pentru fiecare ipotez candidat i o distribuie de probabilitate
pentru altele observate pentru fiecare ipotez n parte.
- Pot gzdui ipoteze care fac predicii probabilistice.
- Cazurile noi pot fi clasificate prin combinarea prediciilor mai multor ipoteze, ponderate n
funcie de probabilitatea lor.
- Chiar i atunci cnd calculele sunt greu de fcut, pot oferi un standard de luare a deciziilor
optime.
La fel ca i la orice sistem informatic, i aici ne lovim de dificulti n aplicarea lui. Ele se
refer la necesitatea unor cunotine anterioare despre domeniul probabilistic i la costul de
calcul semnificativ pentru a determina ipoteza Bayes optim.
Teorema lui Bayes
Teorema lui Bayes este una dintre teoremele fundamentale ale teoriei probabilitiilor, care
determin probabilitatea apartenenei evenimentelor i a obiectelor la o anumit grup.
Probabilitatea bayesian este numele dat mai multor interpretri ale noiunii de probabilitate,
care au n comun ideea de probabilitate ca credin parial, n loc de cea de frecven de
apariie a unui eveniment. Aceasta permite aplicarea probabilitii mai multor propoziii i nu
doar cele care au o clas de referin. Termenul de bayesian a nceput s fie folosit n acest
sens cam din 1950. Nu se tie dac Bayes nsui a mbriat larga interpretare denumit
astzi bayesian.
Bayes definete probabilitatea ca Probabilitatea oricrui eveniment este raportul ntre
valoarea la care ar trebui calculat o ateptare n funcie de ntmplarea unui eveniment, i
valoarea lucrului ateptat dup ce s-a ntmplat.
In contextul IC, suntem interesai de determinarea celei mai bune ipoteze pentru un spaiu H,
avnd n vedere datele de antrenare D. n acest context, atunci cnd vorbim despre cea mai
bun ipotez ne referim la cea mai probabil ipotez avnd datele D i alte cunotine iniiale
despre probabilitile diverselor ipoteze din H. Teorema lui Bayes confer o metod direct de
a calcula aceste probabiliti. Mai precis, ea furnizeaz o manier de a calcula probabilitatea
unei ipoteze bazat pe probabilitatea anterioar a acesteia, denotat din diverse date observate
avnd n vedere ipotezele .
Vom considera o ipotez h din spaiul ipotezelor H. Prin P(h) vom nota probabilitatea
realizarii ipotezei h. La probabilitatea anterioar observrii datelor de antrenare D ne vom
referi prin P(D), iar la probabilitatea de a observa datele D n raport cu ipoteza h, prin P(D|h).
Probabilitatea notat prin P(h|D) este probabilitatea ulterioar a lui h, aceea ca ipoteza h s se
petreac avnd n vedere datele de antrenare D. Aceasta reflect influena datelor de
antrenare asupra deciziilor care pot fi luate, n contrast cu P(h), probabilitate independenta de
D.
11
P(h), hH sunt anterioare datelor din D. Ele se numesc probabilitati anterioare sau apriori.
Rationamentul Bayesian consta in alegerea acelei ipoteze hm ax pentru care probabilitatea
posterioara P(hm ax | D) este maxima.
Cu alte cuvinte, rationamentul Bayesian consta in rezolvarea unei probleme de optim:
(1) max P(h | D)
hH
Teorema lui Bayes este piatra de temelie a nvarii bayesiene deoarece ea furnizeaz metoda
de a calcula probabilitatea ulterioar, P(h|D), din P(h), P(D) i P(D|h), astfel:
P ( D | h) P ( h)
P(h | D)
P( D)
Pe baza teoremei lui Bayes, avem:
P ( D | h) P ( h)
1
max P(h | D) max
max [ P( D | h) P(h)]
hH
hH
P( D)
P( D) hH
Atunci problema de maxim (1) este echivalenta cu urmatoarea problema de maxim:
(2) max P( D | h) P(h)
hH
Reelele de tip Bayes urmresc s exprime legturile dintre variabile prin analiza
probabilitilor de apariie i a determinrilor reciproce dintre acestea. n raport cu celelalte
tehnici de data mining, posed calitatea de a comporta foarte bine fa de datele lips sau
deformate de factori aleatori. Una dintre utilizrile menionate n literatura de specialitate
pentru aceast tehnic vizeaz predicia riscurilor de neplat. Consumul important de resurse
de calcul constituie o explicaie a utilizrii lor mai restrnse. Cu toate acestea, ultimii ani
marcheaz o cretere o ofertei de produse program care le implementeaz.
n sfrit, literatura de specialitate menioneaz de asemenea aplicaii ale unor metode
provenite din teoria grafurilor, pentru a obine o descriere preliminar a legturilor dintre
elemente, nainte de a trece la aprofundarea studierii lor prin tehnici de genul celor prezentate
anterior.
12
Pentru a ilustra conceptul de CNB, se considera exemplul din figura de mai sus. Obiectele pot
fi clasificate fie VERDE sau ROSU. Scopul este de a clasifica noi cazuri, adica de a decide
carei clasa apartin, pe baza obiectelor existente.
Deoarece sunt de doua ori mai multe obiecte verzi decat rosii, credem ca o noua instanta (care
nu a fost inca observata) are o probabilitate de a fi verde de doua ori mai mare decat a fi rosie.
In analiza Bayesiana, aceasta probabilitate este cunoscuta drept probabilitate apriori.
Probabilitatile apriori sunt bazate pe experienta anterioara, in acest caz procentajul obiectelor
verzi si rosii, si de obicei sunt folosite pentru a previziona rezultatele inainte ca ele sa fie
obtinute.
Deci, putem scrie:
Probabilitatea apriori pentru VERDE=P(Verde)=Nr. de obiecte verzi/ Nr. total de obiecte
Probabilitatea apriori pentru ROSU=P(Rosu)=Nr. de obiecte rosii/ Nr. total de obiecte
Prespunem ca sunt 60 obiecte in total, din care 40 verzi si 20 rosii. Probabilitatile apriori de
apartenenta la o clasa sunt:
Probabilitatea apriori pentru VERDE=P(Verde)=40/60
Probabilitatea apriori pentru ROSU=P(Rosu)=0/60
Suntem pe punctul de a clasifica un nou obiect X (cercul alb din figura). Este rezonabil sa
presupunem ca cu cat sunt mai multe obiecte verzi (sau rosii) in vecinatatea noului obiect, cu
atat este mai probabil ca noul obiect sa apartina acelei culori. Pentru a masura aceasta
probabilitate, trasam un cerc in jurul noului obiect, care cuprinde un numar (stabilit anterior)
de puncte indiferent de eticheta (=culoare). Apoi calculam numarul punctelor din cerc
apartinand fiecarei clase. De aici calculam probabilitatea:
P(X |Verde)=1/40
P(X|Rosu)=3/20
13
40 1 20 3
1 3
x , x ) max( , )
60 40 60 20
60 60
1
20
P ( X | C i ) P(C i )
P( X )
3. Deoarece P(X) este aceeasi pentru toate clasele, trebuie maximizat numai produsul
P( X | Ci ) P(Ci ) . Daca probabilitatile a priori P (C i ) nu sunt cunoscute, se presupune ca ele
sunt egale: P(C1 ) ... P(C k ) si deci vom maximiza P( X | Ci ) .
4. Pentru seturi de date cu multe atribute, este complicat computational sa calculam
P( X | Ci ) . Pentru a reduce calculele in evaluarea expresiei P( X | Ci ) P(Ci ) , facem
presupunerea naiva de independenta de clasa. Aceasta presupune ca valorile atributelor sunt
independente conditionat; matematic, aceasta inseamna:
n
P( X | Ci ) P( xk | Ci )
k 1
14
a)Daca Ak este categoriala, atunci P ( x k | C i ) este egala cu numarul de observatii din clasa C i
in T avand valoarea x k pentru atributul Ak impartit la freq( C i ,T), numarul de observatii din
clasa C i in T.
b)Daca Ak este o variabila continua, presupunem in general ca valorile au o distributie
Gaussiana de medie si abatere standard definita ca:
g(x, , )=
exp
(x )2
2 2
astfel incat
P ( x k | C i ) g ( x k , Ci , Ci ) .
15