Documente Academic
Documente Profesional
Documente Cultură
INTELIGENȚĂ
ARTIFICIALĂ
Matematică Inteligență artificială
Inteligență artificială Matematică
2) Activitatea de învățare
LM caută în mulțimea ℋ o funcție ℎ care să aproximeze cât se poate de bine
răspunsul dorit de supervizor. Distanța dintre funcția ℎ luată ca ipoteză și
răspunsul dorit de supervizor în baza unei funcții 𝑓 se definește a fi pierderea
medie în cadrul situațiilor posibile în mulțimea 𝒵 = 𝒳 × 𝒰; astfel, pentru fiecare
intrare 𝑥𝑖 și răspuns al supervizorului 𝑢𝑖 , se poate stabili pierderea sau costul
𝒍(𝒖𝒊 , 𝒉(𝒙𝒊 )) care evaluează pierderea apărută în urma luării deciziei 𝑦𝑖 = ℎ(𝑥𝑖 ) în
condițiile în care răspunsul dorit era 𝑢𝑖 = 𝑓(𝑥𝑖 ) (se va considera pierderea
pozitivă sau nulă). Astfel, costul mediu sau riscul real este:
ℛ𝑟𝑒𝑎𝑙 (ℎ) = ∫𝒵 𝑙(𝑢𝑖 , ℎ(𝑥𝑖 ))𝑑𝐹(𝑥, 𝑢)
Acesta este un parametru statistic, o funcție a unei dependențe funcționale 𝐹(𝑥, 𝑢)
dintre intrările 𝑥 și răspunsurile dorite 𝑢. Această dependență poate fi exprimată
ca o densitate de probabilitate definită pe 𝒳 × 𝒰, care însă este necunoscută. Cu
alte cuvinte, se pune problema în a găsi o ipoteză ℎ în apropierea funcției 𝑓, în
sensul pierderii funcției, iar aceasta se petrece în cele mai frecvent vizitate arii ale
spațiului 𝒳. Cum aceste arii nu sunt cunoscute a priori, este necesară prelevarea
unui eșantion pentru a putea fi estimate, iar problema inducției este aceea de a
căuta minimalizarea riscului real necunoscut pornind de la observațiile efectuate
asupra eșantionului 𝒮.
3) Principiul inductiv
Principiul inductiv este cel care descrie ce anume ar trebui să verifice funcția
ipoteză ℎ în baza conceptului de proximitate (ℎ, 𝑓) și a observațiilor derivate din
eșantionul considerat 𝒮 = {(𝑥1 , 𝑢1 ), … , (𝑥𝑚 , 𝑢𝑚 )}, cu scopul de a minimaliza riscul
real. Principiul inductiv dictează ce anume trebuie să verifice ipoteza considerată
cea mai bună în baza eșantionului, pierderii funcției precum și alte criterii
posibile. El acționează în baza unui obiectiv ideal. Trebuie în același timp
diferențiat de metoda de învățare (algoritmul) care descrie realizarea efectivă a
principiului inductiv. Pentru un principiu inductiv dat există mai multe metode de
învățare, care rezultă din diferite abordări de rezolvare a problemelor matematice
Matematică Inteligență artificială
Problema care se pune legat de aceste metode este aceea de a ști dacă ele,
stabilite în mod intuitiv, permit o învățare efectivă. Mai precis, ar trebui obținute
răspunsuri la câteva întrebări de bază:
• Aplicarea unui principiu inductiv selectat duce cu adevărat la minimalizarea
riscului real?
• Care sunt condițiile care ar trebui verificate? În plus, aceste condiții ar trebui
verificate pe un eșantion, pe funcțiile țintă, de către supervizor, ori pe un spațiu
de ipoteze?
• Cum depinde performanța de generalizare de informația conținută de un
eșantion, de dimensiunea acestuia etc.?
• Care este performanța maximă care se poate obține pentru o anumită problemă
de învățare dată?
• Care este cea mai bună LM pentru o problemă de învățare dată?
Pentru a răspunde la aceste întrebări sunt necesare decizii care depind parțial de tipul
de principiu inductiv utilizat.
Dorim să analizăm în ce condiții este posibilă rezolvarea unei asemenea probleme. Dorim
de asemenea să avem instrumente care să permită să judecăm performanța unui principiu
inductiv sau a unui algoritm de învățare. Aceste analize necesită asumpții suplimentare, care
corespund opțiunilor și așteptărilor din partea LM.
Astfel, o problemă de învățare depinde de mediul care generează datele 𝑥𝑖 în baza unei
anumite distribuții necunoscute 𝒟𝒳 , de un supervizor care alege o anumită funcție țintă 𝑓,
precum și de pierderea selectată de funcție 𝑙.
Principiul ERM a fost folosit inițial în analiza celei mai nefavorabile situații, menționată
anterior. Utilizarea ei în analiza cazurilor cele mai obișnuite, prin folosirea unor idei din statistica
Inteligență artificială Matematică
fizică, a constituit de asemenea obiectul multor lucrări interesante. Din punct de vedere tehnic
este evident mult mai dificilă.
Problema este că riscul real aferent unei ipoteze ℎ nu este cunoscut. Ideea evidentă este
aceea de a selecta o ipoteză ℎ în spațiul ℋ care se comportă bine în cadrul datelor eșantionului 𝒮,
iar acesta este principiul inductiv al ERM. Vom nota cu ℎ̂𝑠 această ipoteză optimă pentru riscul
empiric măsurat pe eșantionul de date 𝒮:
Acest principiu inductiv este relevant doar dacă riscul empiric este corelat cu riscul real.
Astfel, analiza trebuie să studieze gradul de corelație dintre cele două riscuri și, în mod particular,
corelația dintre corelația dintre riscul real indus de ipoteza selectată în baza principiului ERM
(ℛ𝑟𝑒𝑎𝑙 (ℎ̂𝑠 )) și riscul real optim (ℛ𝑟𝑒𝑎𝑙 (ℎ∗ )).
1) Diferența (inevitabil pozitivă sau nulă) între riscul real al ipotezei selectate ℎ̂𝒮
utilizând eșantionul 𝒮 și riscul real al ipotezei optime ℎ∗:
ℛ𝑟𝑒𝑎𝑙 (ℎ̂𝑠 ) − ℛ𝑟𝑒𝑎𝑙 (ℎ∗ )
2) Probabilitatea ca această diferență să fie mai mare decât un prag dat 𝜀. Dat fiind
faptul că riscul empiric depinde de eșantionul considerat, corelația dintre riscul
empiric măsurat și riscul real depinde de reprezentativitatea acestui eșantion.
Acesta este motivul pentru care atunci când se studiază diferența:
ℛ𝑟𝑒𝑎𝑙 (ℎ∗ ) − ℛ𝑟𝑒𝑎𝑙 (ℎ̂𝑠 )
este necesar să se ia în considerare că eșantionul de probă a primit o anumită țintă
de învățare. Cineva poate să nu fie un bun cursant pentru toate situațiile de
învățare ci doar pentru unele anume care sunt cele mai probabile (eșantionul
reprezentativ de antrenare).
Principiul ERM este un principiu inductiv valid dacă el poate să garanteze că riscul real
calculat în baza ipotezei ℎ̂𝒮 , care minimalizează riscul empiric, este aproape de riscul real optim
obținut în baza ipotezei optime ℎ∗ . Această apropiere trebuie să aibă loc în marea majoritate a
cazurilor care apar, adică în majoritatea eșantioanelor de antrenare alese în mod randomizat în
baza distribuției 𝒟𝒳 .
Într-o exprimare mai formală, se caută să se vadă în ce condiții este posibil să se asigure
următoarea relație:
Este evident faptul că acea corelație dintre riscul empiric și riscul real depinde de
eșantionul selectat 𝒮 și, dat fiind că acesta este selectat în mod randomizat, depinde de
dimensiunea 𝑚 a acestui eșantion. Acest lucru conduce la aplicarea în mod natural a legii
Matematică Inteligență artificială
numerelor mari care spune că, în condiții generale, prin creșterea dimensiunilor eșantionului (𝑚)
valoarea medie a unei variabile aleatorii, în cazul nostru 𝑅𝑒𝑚𝑝 (ℎ), tinde către valoarea medie a
populației din care este selecționat, în cazul nostru 𝑅𝑟𝑒𝑎𝑙 (ℎ).
Legea numerelor mari susține astfel asigurarea inegalității prezentate anterior prin
creșterea dimensiunilor eșantionului 𝒮 către ∞ . Ea ridică totodată problema valorii 𝑚 a
eșantionului ales în mod randomizat, în baza unei distribuții 𝒟𝒳 nespecificate, de la care această
inegalitate este garantată:
Din păcate legea numerelor mari nu este suficientă pentru ceea ce studiem în acest capitol.
Într-adevăr, legea numerelor mari spune că riscul empiric al unei ipoteze date ℎ converge către
riscul ei real pe măsură ce mărimea eșantionului crește și tinde către ∞. Ceea ce căutăm noi însă
este diferit și anume, vrem să fim siguri că ipoteza ℎ̂𝒮𝑚 luată în spațiul de ipoteze ℋ și care
minimalizează riscul empiric pentru eșantionul 𝒮 determină un risc real care converge către
riscul real optim determinat de ipoteza optimă ℎ∗ independent de eșantionul 𝒮 . Este absolut
necesar să se observe că în această situație eșantionul de antrenare considerat nu joacă doar rolul
unui set de testare, dar de asemenea și rolul de a fi utilizat pentru alegerea ipotezei. Însă nu se
poate lua în considerare, fără a fi precauți, performanța măsurată pe eșantionul considerat ca
fiind reprezentativă pentru performanța reală.
Într-adevăr, se poate construi spațiul de ipoteze ℋ într-un asemenea mod încât să fie
întotdeauna posibil să fie identificată o ipoteză cu risc empiric nul fără ca aceasta să indice o
performanță generală bună. De aceea este necesar să fie generalizată legea numerelor mari.
Fără a neglija ideea de generalizare, vom considera că poate exista o etichetare eronată, o
deplasare măsurabilă între eticheta propusă de LM și cea adevărată în conformitate cu funcția 𝑓.
LM caută să găsească o ipoteză (funcție) ℎ în spațiul de funcții ℋ cât mai aproape de funcția țintă
𝑓. Conceptul de proximitate, care va fi dezvoltat ulterior, analizează distanța dintre funcțiile ℎ și
𝑓.
Eroarea totală rezultă din conjuncția diferitelor erori care apar între 𝑓 și ℎ, pe care le vom
detalia în continuare:
de perturbații nule, un spațiu de ipoteze ℋ restrâns pentru a reduce împrăștierea (varianța), dar
în același timp foarte bine documentat, conținând doar ipoteze (funcții) ℎ apropiate de funcțiile
țintă 𝑓 din spațiul ℱ. Tot acest caz ideal nu înseamnă altceva decât să avem a priori cunoștințe cu
privire la Natură.
Figura 4. Diferitele tipuri de erori care pot să apară în estimarea funcției țintă 𝑓 pornind de la un
eșantion de date. Având un spațiu de ipoteze foarte restrâns se poate reduce împrăștierea (varianța) dar
aceasta se petrece în general cu o mai mare eroare de aproximare.
Metode de regularizare
Avându-se în vedere faptul că se poate măsura doar riscul empiric, se încearcă evaluarea
riscului real prin corecții aduse riscului empiric, utilizând un coeficient de corecție
(penalizare) ce corespunde parametrilor care măsoară capacitatea spațiului de ipoteze
ℋ. Aceasta este în fond esența tuturor abordărilor inductive care revizuiesc principiul
ERM, adică adaptarea la datele existente prin utilizarea unor factori de regularizare ce
depind de clasa de ipoteze considerată. Această idee fundamentală formează nucleul
tuturor metodelor de regularizare, cum sunt Teoria regularizării, Minimum Description
Length Principle (MDLP), The Akaike information criterion (AIC), precum și alte metode
bazate pe măsurători complexe.
Problema definită este cunoscută, cel puțin empiric, de mult timp și au fost dezvoltate mai
multe tehnici pentru a o rezolva. Aceste tehnici pot fi clasificate în trei categorii principale
și anume: metoda selecției modelelor, metoda tehnicilor de regularizare și metode medii.
Metodele medii
Metodele medii nu selectează o singură ipoteză în spațiul de ipoteze ℋ, ci realizează o
combinare ponderată a mai multor ipoteze pentru a ajunge la o funcție ipoteză finală. O
astfel de combinare ponderată poate avea un efect de ameliorare a unei ipoteze
neregulate, așa cum se întâmplă în metodele de medie bayesiană sau cele de tip bagging
methods, ori de creștere a gradului de reprezentare a clasei de ipoteze, dacă aceasta nu
este convexă, așa cum se petrece în metodele de tip boosting methods.
Inteligență artificială Matematică
ℋ1 ⊆ ℋ2 ⊆ ⋯ ⊆ ℋ𝑑 ⊆ ⋯
secvență ierarhică în care ℋ𝑑 are capacitatea (volumul) din ce în ce mai mare. Funcția
țintă 𝑓 poate sau nu să fie inclusă într-una dintre aceste clase. Să considerăm ℎ𝑑∗ ipoteza optimă
în cadrul clasei (spațiului) de ipoteze ℋ𝑑 și 𝑅(𝑑) = 𝑅𝑟𝑒𝑎𝑙 (ℎ𝑑∗ ) riscul real asociat ipotezei optime
ℎ𝑑∗ . Se poate constata faptul că secvența {𝑅(𝑑)}1≤𝑑≤∞ descrește datorită faptului că spațiile
(clasele) ℋ𝑑 sunt ierarhizate, iar capacitatea de aproximare a funcției țintă 𝑓 crește.
Principiul de bază este acela că riscul real asociat ipotezei selectate ℎ𝑑 pentru fiecare
spațiu (clasă) de ipoteze ℋ𝑑 , 0 < 𝑑 ≤ 𝑚, prezintă o valoare globală minimă, ceea ce face ca ℎ𝑑 să
corespundă ipotezei optime ℎ𝑑∗ , iar spațiul ℋ𝑑 să corespundă spațiului ideal de ipoteze ℋ𝑑∗ .
Figura 5. Limitele riscului real rezultă prin însumarea riscului empiric și a intervalului de
încredere, care depinde de dimensiunea (capacitatea) spațiului de ipoteze considerat. Considerând o
ierarhie de spații de ipoteze, de dimensiuni din ce în ce mai mari în funcție de valoarea 𝑑, riscul empiric
scade odată cu creșterea valorii 𝑑 , ce corespunde deplasării, în timp ce intervalul de încredere, care
corespunde împrăștierii (varianței), crește. Limitele minime pentru riscul real sunt atinse pentru cel mai
bun spațiu de ipoteze considerat ℋ𝑑 .
Matematică Inteligență artificială
Astfel se ridică problema găsirii spațiului ideal de ipoteze ℋ𝑑∗ , iar în cadrul acestui spațiu
să fie identificată ipoteza ideală ℎ𝑑 . Această problemă este rezolvată prin utilizarea principiului
ERM care identifică acea ipoteză care minimalizează riscul empiric.
Pentru a se stabili spațiul (clasa) ideală de ipoteze ℋ𝑑∗ se va estima riscul real optim în
fiecare spațiu (clasă) ℋ𝑑 prin calcularea în fiecare clasă, folosind principiul ERM, a riscului
empiric, risc empiric corectat pentru fiecare spațiu ℋ𝑑 cu un factor de corecție corelat cu
dimensiunea spațiului considerat.
Trebuie avut în vedere că alegerea celui mai bun spațiu de ipoteze depinde de
dimensiunea 𝑚 a eșantionului considerat. Cu cât eșantionul este mai mare, cu atât este posibil să
alegem un spațiu de ipoteze mai larg, cu o împrăștiere (varianță) și un interval de încredere mai
mici, ceea ce permite să ne apropiem pe cât de mult posibil de ipoteza țintă 𝑓.
Cea mai simplă metodă pentru a estima în mod obiectiv calitatea unei ipoteze de învățare
ℎ este aceea de a împărți setul de exemple (eșantionul de antrenare) în două grupe:
Erorile pe care ipoteza de lucru ℎ le determină în setul 𝑇 reprezintă estimarea riscului real
asociat ipotezei ℎ, notat 𝑅̂𝑟𝑒𝑎𝑙 (ℎ).
Să examinăm inițial cazul particular a învățării a două funcții separate în situația regulii
de clasificare.
0 dacă 𝑎 = 𝑦
𝐿(𝑦, 𝑎) = 𝐼(𝑦 ≠ 𝑎) = {
1 dacă 𝑎 ≠ 𝑦
′+′ ′−′
Adevărat Fals
′+′
pozitiv (TP) pozitiv (FP)
Fals Adevărat
′−′
negativ (FN) negativ (TN)
Exemplu
În cazul în care un sistem de clasificare a fost setat pentru a distinge între câini și pisici,
matricea erorilor va sumariza rezultatele algoritmului utilizat. Dacă vom considera eșantionul
selectat a fi format din 13 animale, dintre care 8 pisici și 5 câini, matricea erorilor ar putea să arate
după cum urmează:
Clase
actuale
Pisici Câini
Pisici
5 2
anticipate
Clase
Câini
3 3
În această matrice a erorilor, dintre cele opt pisici sistemul prezice că trei animale sunt de
fapt câini, iar dintre cei cinci câini sistemul prezice că două animale sunt de fapt pisici. Predictorii
corectați sunt localizați pe diagonalele tabelului.
În situația în care toate erorile prezintă aceeași însemnătate (gravitate), suma termenilor
care nu se găsesc pe aceeași diagonală a matricei 𝑀 împărțită la dimensiunea 𝑡 a setului test 𝑇
reprezintă o estimare a riscului real 𝑅̂𝑟𝑒𝑎𝑙 (ℎ) pe setul test 𝑇 a ipotezei ℎ:
1
𝑅̂𝑟𝑒𝑎𝑙 (ℎ) = ∑ 𝑀(𝑖, 𝑗)
𝑡
𝑖≠𝑗
Dacă notăm cu 𝑡𝑒𝑟𝑟 numărul elementelor (obiectelor) ale setului test 𝑇 clasificate incorect
atunci avem relația:
𝑡𝑒𝑟𝑟
𝑅̂𝑟𝑒𝑎𝑙 (ℎ) =
𝑡
Matricea empirică a erorilor reprezintă matricea erorilor definită pe setul de antrenare.
Pentru această matrice suma termenilor care nu se găsesc pe diagonală reprezintă este
proporțională cu riscul empiric dar nu reprezintă o estimare a riscului real.
Valoare de adevăr
1 0 Σ
1 TP FP ̂+ = 𝑇𝑃 + 𝐹𝑃
𝑁
Estimat
0 FN TN ̂− = 𝐹𝑁 + 𝑇𝑁
𝑁
Σ 𝑁+ = 𝑇𝑃 + 𝐹𝑁 𝑁− = 𝐹𝑃 + 𝑇𝑁 𝑁 = 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
̂+
Tabel 1. Parametrii care pot fi calculați din matricea erorilor: 𝑁+ reprezintă numărul real al datelor pozitive, 𝑁
̂
reprezintă numărul datelor considerate pozitive, 𝑁− reprezintă numărul real al datelor negative, iar 𝑁− reprezintă
numărul datelor considerate negative.
Matematică Inteligență artificială
𝑦=1 𝑦=0
𝑇𝑃 𝐹𝑃
𝑦̂ = 1 = 𝑇𝑃𝑅 = 𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑟𝑒𝑐𝑎𝑙𝑙 = 𝐹𝑃𝑅 = 𝑡𝑦𝑝𝑒 𝐼
𝑁+ 𝑁−
𝐹𝑁 𝑇𝑁
𝑦̂ = 0 = 𝐹𝑁𝑅 = 𝑚𝑖𝑠𝑠 𝑟𝑎𝑡𝑒 = 𝑡𝑦𝑝𝑒 𝐼𝐼 = 𝑇𝑁𝑅 = 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦
𝑁+ 𝑁−
Tabel 2. Estimarea 𝑝(𝑦̂|𝑦) din matricea erorilor; 𝑇𝑃𝑅-true positive rate, 𝑇𝑁𝑅-true negative rate, 𝐹𝑃𝑅-false positive
rate și 𝐹𝑁𝑅-false negative rate.
Este important să poată fi stabilit intervalul de încredere pentru 𝑅̂𝑟𝑒𝑎𝑙 (ℎ). Astfel, în baza
metodelor statistice clasice, dacă eșantioanele de antrenare și de testare sunt independente
atunci precizia estimării depinde doar de numărul de elemente 𝑡 ale eșantionului de testare și de
valoarea 𝑅̂𝑟𝑒𝑎𝑙 (ℎ).
Dacă valoarea 𝑡 este suficient de mare (de ordinul sutelor) atunci intervalul de încredere
pentru 𝑅̂𝑟𝑒𝑎𝑙 (ℎ) este dat de relația:
𝑡𝑒𝑟𝑟 𝑡
𝑡𝑒𝑟𝑟 √ 𝑡 (1 − 𝑒𝑟𝑟
𝑡 )]
[ ± 𝜉(𝑥)
𝑡 𝑡
Se poate demonstra că prin această metodă se obține o estimare nedeplasată a ratei erorii
reale. În mod obișnuit valoarea lui 𝑛 variază de la 5 la 10. În felul acesta se poate folosi o mare
parte dintre exemple (observații) pentru eșantionul de antrenare cu obținerea unei evaluări
precise a ratei erorii reale. Pe de altă parte este necesar ca această metodă să fie repetate de 𝑛 ori.
Problema care se ridică este aceea legată de ipoteza care trebuie utilizată. Este foarte
probabil ca fiecare ipoteză de învățare să depindă de eșantionul de antrenare 𝑖 utilizat, astfel că
se obțin 𝑛 ipoteze diferite.
Se poate observa că în condițiile în care ipotezele de învățare sunt foarte diferite între ele,
aceasta poate fi un indicator că spațiul de ipoteze ℋ este inadecvat. Acest lucru arată o mare
varianță (împrăștiere), în general asociată cu o dimensiune Vapnik-Chervonenkis mare, astfel că
riscul de antrenare prezintă o importantă mică. Cea mai bună abordare este aceea de a repeta
antrenarea pe setul total 𝒮. Precizia va fi una bună iar rata erorii estimate este cunoscută prin
intermediul celorlalte 𝑛 antrenări.
• se alege aleator un exemplu care este plasat într-un set numit bootstrap, proces
care este repetat de 𝑛 ori, procesul de antrenare fiind realizat pe setul bootstrap;
• se efectuează testarea pe exemplele care nu sunt conținute în setul bootstrap,
calculându-se 𝑃1 ca primă valoare în clasificatorul erorilor;
• se efectuează un nou test pe setul întreg de exemple și se calculează 𝑃2 ;
• procedeul se repetă de 𝑘 ori.
Ecuația de gradul întâi dintre valoarea medie 𝑃̅1 și valoarea medie 𝑃̅2 dau valoarea
riscului real 𝑅̂𝑟𝑒𝑎𝑙 (ℎ). În teorie este propusă următoarea formulă:
în baza faptului că proporția medie a elementelor care nu se repetă în setul test este egală
cu 0,368.
Există și o altă metodă apropiată de cea bootstrap dar mai complexă, denumită jackknife,
metodă care încearcă să reducă deplasarea ratei de eroare prin realizarea de conexiuni atunci
când datele sunt utilizate atât pentru antrenare cât și pentru testare.
Stabilirea celei mai bune metode pentru rezolvarea unei probleme de învățare implică:
Neuronii biologici
Neuronii sunt componentele fundamentale ale sistemului nervos, a cărui complexitate
este extraordinară. Creierul uman are în medie 86 de miliarde de neuroni. În Figura 1 se poate
vedea fotografia unui neuron real.
Neuronii mai sunt numiți uneori și celule nervoase, deși mulţi neuroni nu formează nervi
iar nervii includ și alte celule decât neuroni. Diametrul unui neuron este de 4-100 microni iar
greutatea sa nu depășește 10−6 g.
Simplificând puţin lucrurile, un neuron este alcătuit din corpul celular, dendrite,
terminații cu aspect arborescent care primesc impulsuri de la alţi neuroni și un axon, care trimite
impulsuri electrice către alţi neuroni, după cum se poate vedea în Figura 2.
Matematică Inteligență artificială
Neuronul respectă principiul totul sau nimic. Dacă depolarizarea nu este suficient de
puternică pentru a depăși pragul, canalele de ioni nu se deschid. Dacă depolarizarea depășește
pragul, canalele se deschid și se generează un impuls electric. Acesta este întotdeauna la fel de
mare, de exemplu 40 mV, fără valori intermediare. Intensitatea unui stimul este dată de frecvenţa
impulsurilor. Unui stimul mai puternic îi corespunde o frecvenţă mai mare. De exemplu, un stimul
de durere puternică poate avea o frecvenţă de până la 800 Hz.
Acest principiu poate fi descris prin analogie cu aprinderea unui fitil, care necesită o
anumită temperatură. Sub aceasta, fitilul nu se aprinde. Însă un chibrit cu o temperatură mai mare
decât pragul nu face fitilul să ardă mai repede, odată ce s-a aprins. În Figura 3 se prezintă un
impuls tipic, unde se pot vedea și valorile curenților propriu-ziși și ale pragului.
Perceptronul
Neuronul McCulloch-Pitts
Primul model matematic al unui neuron a fost propus de McCulloch și Pitts. Modelul este
prezentat în Figura 4.
Ieșirea este binară: neuronul este activat (1) sau nu (0), ceea ce îl face echivalent cu o
propoziţie logică, care poate fi adevărată sau falsă. Intrările sunt excitatoare (𝑎𝑖 ) sau inhibitoare
(𝑏𝑗 ). Aceste intrări sunt sumate direct și neuronul se activează dacă suma depășește un prag fix.
De asemenea, neuronul se activează doar dacă nu există intrări inhibitoare.
Funcţia de activare este următoarea:
𝑛
Orice problemă care poate fi reprezentată sub forma unei funcţii logice poate fi modelată
de o reţea de neuroni McCulloch-Pitts deoarece orice funcţie booleană poate fi implementată
folosind doar operaţiile SAU (⋁), ŞI (⋀) și NEGAŢIE (¬). În Figura 5 sunt prezentate aceste funcţii
logice elementare.
Problema cea mai importantă pe care a încercat să o rezolve Rosenblatt este posibilitatea
de a învăța, o calitate esenţială a rețelelor neuronale biologice. Sistemul propus de el modela
sistemul vizual uman, de aceea s-a numit perceptron (Figura 6). Dintr-o imagine raster, valorile
pixelilor treceau prin niște conexiuni cu valori aleatorii, rezultând niște trăsături sintetice ale
imaginii. Aceste trăsături erau conectate la ieșire, prin modelul standard pe care îl vom discuta în
secţiunea următoare. Antrenând perceptronul cu o mulţime de imagini și ieșirile corespunzătoare,
sistemul putea învăța să clasifice imaginile.
Problema principală a acestui model este că nu s-a reușit găsirea unei modalități de
determinare a parametrilor conexiunilor dintre imagine (echivalentul în model al retinei) și
stratul intermediar corespunzător trăsăturilor, ci doar dintre acesta și ieșire. Este ceea ce vom
prezenta în continuare.
Perceptronul standard
Perceptronul este un neuron cu mai multe intrări 𝑥𝑖 , fiecare conexiune de intrare având o
valoare numită pondere 𝑤𝑖 (engl. “weight”), care este o măsură a importanței acelei intrări, un
prag 𝜃 și o funcţie de activare semn sau treaptă. Structura sa generală este prezentată în Figura 7.
Se poate vedea analogia cu modul de funcţionare al unui neuron biologic, în care
semnalele de intrare sunt sumate iar neuronul generează un semnal doar dacă suma depășește
pragul.
Ieșirea perceptronului este dată de următoarea ecuaţie:
𝑛
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 − 𝜃)
𝑖=1
unde 𝐹 este funcția semn:
−1 dacă 𝑎 < 0
𝐹(𝑎) {
1, dacă 𝑎 ≥ 0
Matematică Inteligență artificială
Exemplu
Să considerăm următoarea situație:
1
𝑓(𝑥) = 𝑥 − 1
2
reprezentată în Figura 8(a). Pentru 𝑥 < 2, răspunsul va fi clasa −1/0, iar pentru 𝑥 ≥ 2
răspunsul perceptronului va fi clasa 1.
Mai întâi să vedem ce se întâmplă când pragul rămâne constant și se modifică ponderea. Fie
următoarea situaţie, în care ponderea s-a schimbat de la 0,5 la 2:
𝑓(𝑥) = 2𝑥 − 1
Comparând Figurile 8(a) și 8(b), se vede că panta diferă. Prin urmare, ponderea exprimă
panta dreptei. În figura 8(b), se vede cum punctul de intersecţie cu ordonata a rămas −1,
valoare dată de prag, însă datorită schimbării ponderii, punctul de separare s-a schimbat
din 2 în 0,5.
Acum să considerăm din nou prima situaţie, menținând ponderea la valoarea 0,5 dar
modificând pragul de la 1 la −1:
1
𝑓(𝑥) = 𝑥 + 1
2
Comparând Figurile 8(a) și 8(c) se vede că pragul a translat dreapta în sus, panta rămânând
aceeași. Punctul de separare s-a mutat în −2.
Inteligență artificială Matematică
a)
b)
c)
Figura 8. Reprezentări geometrice ale unor decizii unidimensionale
Pentru cazul bidimensional considerat, se observă că panta dreptei de separare este dată
de valoarea ponderilor. Dreapta de separare este întotdeauna perpendiculară pe dreapta definită
de origine și de punctul (𝑤1 , 𝑤2 ).
Pragul marchează deplasarea dreptei de separare faţă de origine. În general, distanţa de
la un punct la o dreaptă este:
|𝑎𝑥0 + 𝑏𝑦0 + 𝑐|
𝑑(𝑎𝑥 + 𝑏𝑦 + 𝑐 = 0, (𝑥0 , 𝑦0 )) =
√𝑎2 + 𝑏 2
iar în cazul nostru distanța de la origine la dreapta de separare este:
𝜃 𝜃
𝑑= =
2
√𝑤 + 𝑤 2 ‖𝑤‖
1 2
O observaţie importantă pe baza Figurilor 8 și 9 este că perceptronul poate învăța să
separe doar clase ale căror instanţe nu sunt intercalate, numite separabile liniar. În cazul
bidimensional, avem o dreaptă care împarte planul în două. De o parte a dreptei se află o clasă iar
de cealaltă parte se află cealaltă clasă. Dacă am fi avut 3 intrări, ar fi existat o suprafață de separare
care ar fi împărțit spaţiul în 2 regiuni. În cazul general 𝑛-dimensional, perceptronul definește un
hiperplan de separare.
În ecuaţia:
𝑛
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 − 𝜃)
𝑖=1
care este ecuația de ieșire a perceptronului apar atât ponderile cât și pragul.
De fapt, acești parametri pot fi trataţi unitar, deoarece intrarea totală a neuronului
reprezintă până la urmă o sumă. De aceea, pentru a simplifica modelul de calcul, se consideră că
pragul definește încă o intrare a neuronului:
𝑛
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 − 𝜃) = 𝐹(𝑤1 𝑥1 + 𝑤2 𝑥2 + ⋯ + 𝑤𝑛 𝑥𝑛 + 𝜃 ∙ (−1))
𝑖=1
Considerând această intrare suplimentară ca fiind 1 în loc de −1, pragul va fi valoarea
negată a ponderii conexiunii respective. În acest mod, algoritmul de învăţare are ca scop doar
determinarea unor ponderi. Arhitectura perceptronului după aceste transformări este prezentată
în Figura 10.
Inteligență artificială Matematică
Figura 10. Perceptronul: pragul poate fi considerat ponderea unei conexiuni suplimentare
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 )
𝑖=1
Pentru a descrie regula de învăţare a perceptronului, vom utiliza următoarele notaţii. Fie
𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) un vector de intrare. Mulţimea de antrenare conține 𝑁 astfel de vectori. Pentru
vectorul 𝑥, 𝑦 este ieșirea calculată de perceptron iar 𝑦𝑑 este ieșirea dorită (corectă, cunoscută).
Fie 𝑤 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 , 𝑤𝑛+1 ) vectorul de ponderi. Conform celor discutate anterior, 𝑤𝑛+1 = −𝜃.
Învăţarea are loc prin modificarea valorilor ponderilor pentru a reduce diferenţa dintre
ieșirile reale și ieșirile dorite, pentru toate datele de antrenare. Instanţele de antrenare se
prezintă la intrarea reţelei succesiv, calculându-se ieșirea reţelei și eroarea. Pe baza erorii se
ajustează ponderile. Prezentarea instanțelor se face iterativ, până se termină toată mulţimea de
antrenare. Prezentarea tuturor instanțelor reprezintă o epocă de antrenare. Apoi, dacă mai există
erori, procesul poate reîncepe cu o nouă epocă și continuă până când ieșirea perceptronului este
egală cu ieșirea dorită pentru toate instanţele de antrenare.
Dacă după prezentarea instanţei 𝑖 ieșirea reală este 𝑦𝑖 iar ieșirea dorită este 𝑦𝑑𝑖 , atunci
eroarea este:
𝑒𝑖 = 𝑦𝑑𝑖 − 𝑦𝑖
Dacă eroarea este pozitivă, trebuie să creștem ieșirea perceptronului 𝑦𝑖 . Dacă eroarea
este negativă, trebuie să micșorăm ieșirea 𝑦𝑖 .
Exemplu
Să considerăm problema de clasificare bidimensională definită de mulţimea de antrenare
din Tabelul 1, care ne va ajuta să înţelegem algoritmul de antrenare.
Vom folosi pentru perceptron funcţia treaptă, însă dacă problema era definită cu valori ale
clasei de −1 în loc de 0, se putea folosi funcţia semn fără alte modificări.
De asemenea, pentru a simplifica si mai mult lucrurile, vom ignora pragul. În această
situaţie, găsirea perechii de ponderi se rezumă la a găsi orientarea potrivită a unei drepte
care se poate roti în jurul originii.
Matematică Inteligență artificială
Dacă vectorul de ponderi este 𝑤 = (−0,2, 0,1), ieșirile perceptronului pentru cei doi vectori
vor fi:
𝑦1 = 𝐹(−0,2 ∙ 1 + 0,1 ∙ 1) = 𝐹(−0,1) = 0
𝑦2 = 𝐹(−0,2 ∙ 1 + 0,1 ∙ (−1)) = 𝐹(−0,3) = 0
Primul vector nu este clasificat corect: 𝑦1 = 0 însă 𝑦𝑑1 = 1. Eroarea este 𝑒1 = 𝑦𝑑1 − 𝑦1 = 1.
Situaţia este reprezentată în Figura 11.
Se vede că ambele puncte sunt sub dreapta de separare. Ecuaţia dreptei este:
𝑤1
𝑤1 𝑥1 + 𝑤2 𝑥2 = 0 ⇔ 𝑥2 = − 𝑥1
𝑤2
deci panta dreptei este:
𝑤1
−
𝑤2
Am dori să scădem panta dreptei, astfel încât să treacă printre cele două puncte. Întrucât
eroarea apare la primul vector, cel de sus, trebuie modificat 𝑤1 . Prin urmare, trebuie mărit
𝑤1 , de exemplu la valoarea 𝑤1 = −0,05, rezultând situaţia din Figura 12.
Acum ieșirile perceptronului vor fi:
𝑦1 = 𝐹(−0,05 ∙ 1 + 0,1 ∙ 1) = 𝐹(0,05) = 1
𝑦2 = 𝐹(−0,05 ∙ 1 + 0,1 ∙ (−1)) = 𝐹(−0,15) = 0
Inteligență artificială Matematică
Analog, dacă vectorul de ponderi este 𝑤 = (0,2 , 0,1), ieșirile perceptronului pentru cei doi
vectori vor fi:
𝑦1 = 𝐹(0,2 ∙ 1 + 0,1 ∙ 1) = 𝐹(0,3) = 1
𝑦2 = 𝐹(0,2 ∙ 1 + 0,1 ∙ (−1)) = 𝐹(0,1) = 1
adică dreapta trece pe dedesubtul vectorului al doilea. Eroarea acestuia este 𝑒2 = 𝑦𝑑2 −
𝑤
𝑦2 = 0 − 1 = −1. În acest caz, panta − 𝑤1 trebuie crescută și în consecinţă trebuie mărit 𝑤2 ,
2
să spunem până la 𝑤2 = 0,4.
Ieșirile perceptronului vor fi astfel:
𝑦1 = 𝐹(0,2 ∙ 1 + 0,4 ∙ 1) = 𝐹(0,6) = 1
𝑦2 = 𝐹(0,2 ∙ 1 + 0,4 ∙ (−1)) = 𝐹(−0,2) = 0
și răspund răspunsurilor corecte.
Să sintetizăm rezultatele:
➢ În primul caz, 𝑒1 > 0, 𝑥1 > 0 și diferenţa cu care am actualizat ponderea este Δ𝑤1 > 0.
➢ În al doilea caz, 𝑒2 < 0, 𝑥2 < 0 și diferența cu care am actualizat ponderea este Δ𝑤2 <
0.
Acum să considerăm exemplul rotit cu 180° în jurul originii, definind problema următoare
din Tabelul 2:
Intrări Ieșire dorită
−1, 1 0
−1, −1 1
Tabelul 2. Mulțime de antrenare
Matematică Inteligență artificială
Cantitatea cu care trebuie să modificăm vectorul 𝑤 poate fi mai mare sau mai mică. În
general, neștiind care este valoarea exactă diferenței, folosim succesiv o serie de pași mici, până
este îndeplinită condiţia de eroare. În acest sens, se utilizează un număr 𝜂 ∈ (0, 1] numit rată de
antrenare, care indică mărimea pașilor făcuți pentru găsirea soluției.
Pentru modificarea ponderilor se utilizează ecuaţia:
Δ𝑤 = 𝜂 ∙ 𝑥 ∙ 𝑒
Aceasta este relaţia fundamentală care caracterizează regula de învăţare a perceptronului.
Teorema de convergență a regulii de învăţare a perceptronului arată că dacă o problemă
poate fi rezolvată (dacă este separabilă liniar), atunci algoritmul converge spre o soluţie într-un
număr finit de pași.
Perceptronul este cea mai simplă formă de reţea neuronală cu propagare înainte (engl.
“feed forward”), în care semnalele se propagă doar de la intrări spre ieșiri, fără bucle de reacţie.
El poate învăța tot ce poate reprezenta, dar nu poate reprezenta foarte mult. Întrucât majoritatea
problemelor interesante din viaţa reală nu sunt separabile liniar, aceasta este o deficiență majoră
a modelului , care a condus la scăderea interesului cercetării în domeniul rețelelor neuronale în
anii 70, până când a fost propusă o nouă arhitectură, perceptronul multistrat, cu un algoritm de
învăţare eficient, bazat pe retropropagarea erorii (engl. “backpropagation”).
De exemplu, este ușor ca perceptronul să învețe operaţii logice precum ŞI (Figura 14) sau
SAU (Figura 15), întrucât acestea sunt separabile liniar.
Este de asemenea important de spus faptul că soluţia nu este unică, de exemplu pentru
problema ŞI o soluţie alternativă este cea din Figura 16.
Însă nu există nicio dreaptă care poate separa clasele operaţiei SAU-EXCLUSIV (engl.
XOR); această problemă nu este separabilă liniar (Figura 17).
Când clasele nu sunt separabile liniar, ponderile se modifică permanent pe parcursul
antrenării, într-o manieră aparent aleatorie. În general, este dificilă determinarea apriori a
separabilității liniare a unei probleme, pentru a ști dacă perceptronul va putea învăța funcţia
corespunzătoare.