Ia

Inteligență artificială Matematică
INTELIGENȚĂ
ARTIFICIALĂ
Matematică Inteligență artificială
Modelul supervizat de învățare din date

Problema învățării este definită prin următoarele aspecte:
1) Cei trei actori

a) Mediul: acesta este considerat a fi staționar, generând date 𝑥𝑖 ,
independente și distribuite în mod identic (eșantion independent și identic
distribuit i.d.d.) în baza unei distribuții 𝒟𝒳 a tuturor datelor 𝒳.
b) Oracolul, supervizorul, profesorul sau Natura, care pentru fiecare dată
de tip 𝑥𝑖 furnizează un anumit răspuns sau etichetă 𝑢𝑖 în conformitate cu
o distribuție cu probabilitate condiționată dar necunoscută 𝐹(𝑢|𝑥).
c) Elevul (cursantul) sau mașina de învățare (learning machine LM) 𝒜,
capabilă să îndeplinească o funcție din cadrul unei mulțimi (spațiu) de
funcții ℋ astfel încât răspunsul produs de LM să verifice ecuația:
𝑦𝑖 = ℎ(𝑥𝑖 ), ℎ ∈ ℋ
2) Activitatea de învățare
LM caută în mulțimea ℋ o funcție ℎ care să aproximeze cât se poate de bine
răspunsul dorit de supervizor. Distanța dintre funcția ℎ luată ca ipoteză și
răspunsul dorit de supervizor în baza unei funcții 𝑓 se definește a fi pierderea
medie în cadrul situațiilor posibile în mulțimea 𝒵 = 𝒳 × 𝒰; astfel, pentru fiecare
intrare 𝑥𝑖 și răspuns al supervizorului 𝑢𝑖 , se poate stabili pierderea sau costul
𝒍(𝒖𝒊 , 𝒉(𝒙𝒊 )) care evaluează pierderea apărută în urma luării deciziei 𝑦𝑖 = ℎ(𝑥𝑖 ) în
condițiile în care răspunsul dorit era 𝑢𝑖 = 𝑓(𝑥𝑖 ) (se va considera pierderea
pozitivă sau nulă). Astfel, costul mediu sau riscul real este:
ℛ𝑟𝑒𝑎𝑙 (ℎ) = ∫𝒵 𝑙(𝑢𝑖 , ℎ(𝑥𝑖 ))𝑑𝐹(𝑥, 𝑢)
Acesta este un parametru statistic, o funcție a unei dependențe funcționale 𝐹(𝑥, 𝑢)
dintre intrările 𝑥 și răspunsurile dorite 𝑢. Această dependență poate fi exprimată
ca o densitate de probabilitate definită pe 𝒳 × 𝒰, care însă este necunoscută. Cu
alte cuvinte, se pune problema în a găsi o ipoteză ℎ în apropierea funcției 𝑓, în
sensul pierderii funcției, iar aceasta se petrece în cele mai frecvent vizitate arii ale
spațiului 𝒳. Cum aceste arii nu sunt cunoscute a priori, este necesară prelevarea
unui eșantion pentru a putea fi estimate, iar problema inducției este aceea de a
căuta minimalizarea riscului real necunoscut pornind de la observațiile efectuate
asupra eșantionului 𝒮.
3) Principiul inductiv
Principiul inductiv este cel care descrie ce anume ar trebui să verifice funcția
ipoteză ℎ în baza conceptului de proximitate (ℎ, 𝑓) și a observațiilor derivate din
eșantionul considerat 𝒮 = {(𝑥1 , 𝑢1 ), … , (𝑥𝑚 , 𝑢𝑚 )}, cu scopul de a minimaliza riscul
real. Principiul inductiv dictează ce anume trebuie să verifice ipoteza considerată
cea mai bună în baza eșantionului, pierderii funcției precum și alte criterii
posibile. El acționează în baza unui obiectiv ideal. Trebuie în același timp
diferențiat de metoda de învățare (algoritmul) care descrie realizarea efectivă a
principiului inductiv. Pentru un principiu inductiv dat există mai multe metode de
învățare, care rezultă din diferite abordări de rezolvare a problemelor matematice
apărute și care sunt dincolo de scopul principiului inductiv. De exemplu, principiul

inductiv poate să ceară alegerea celei mai simple ipoteze compatibilă cu
eșantionul considerat. Metoda de învățare însă, trebuie să specifice modul în care
această ipoteză este aleasă, ori alegerea unei alte ipoteze suboptimale dacă este
necesar pentru a satisface anumite constrângeri de fiabilitate, cum ar fi resursele
computaționale. Astfel, metoda de învățare va căuta în mod gradat, suboptimal
dar ușor de controlat, acel optim cerut de principiul inductiv.
Teoria inferenței inductive (nedeductive)

Principiul inductiv stabilește care ipoteză trebuie luată în considerare pentru a
minimaliza riscul real, în baza observațiilor efectuate asupra eșantionului considerat. Cu toate
acestea, nu există un principiu inductiv unic sau ideal. Se pune problema, pornind de la datele
avute, cum se poate stabili o regularitate care să fie relevantă pentru viitor? Au fost propuse o
serie de răspunsuri considerate rezonabile, pe care le prezentăm în continuare.
➢ Alegerea unei ipoteze care să minimalizeze riscul empiric (Empirical Risk

Minimization, principiul ERM).
Riscul empiric este pierderea medie măsurată pe eșantionul considerat 𝒮.
𝑚
1
ℛ𝑒𝑚𝑝 (ℎ) = ∑ 𝑙 (𝑢𝑖 , ℎ(𝑥𝑖 ))
𝑚
𝑖=1
Conceptul care stă la baza acestui principiu este aceea că ipoteza cea mai potrivită
datelor colectate, considerând că aceste date sunt reprezentative, este ipoteza care
descrie în general corect mediul. Într-adevăr, ce poate fi mai natural decât să consideri
că o regularitate observată pe un eșantion de date cunoscute nu va fi valabilă pentru
fenomenele care determină aceste date? Astfel, este căutată o ipoteză coerentă care să
determine un risc empiric nul. Este posibilă creșterea performanței acestui principiu
prin alegerea dintre diferite ipoteze optime, fie una foarte specifică, fie una foarte
generală. Principiul ERM a fost utilizat în inteligența artificială încă de la începuturile
acesteia, atât în rețele neurale cât și în cadrul sistemului de învățare prin simboluri.
Acesta este principiul de bază pentru algoritmul perceptronului, ca acela al sistemului
ARCH.
➢ Alegerea celei mai probabile ipoteze în baza eșantionului considerat (principiul

deciziei bayesiene)
Conceptul care stă la baza acestui principiu este aceea a existenței unei posibilități de a
stabili o probabilitate de distribuție a spațiului de ipoteze. Astfel, cunoștințele
preliminare procesului de învățare reprezintă o bază de informații ce modifică a priori
probabilitatea de distribuție a spațiului de ipoteze ℋ.
Figura 1. Spațiul de ipoteze ℋ este modificat a priori în sensul densității de probabilitate.

Învățarea constă în modificarea densității de probabilitate în baza exemplelor.
Astfel, se poate alege fie principiul probabilității maxime – Maximul A posteriori

(MAP) care ia în considerare cea mai probabilă ipoteză a posteriori, fie adevărata
abordare bayesiană care ia în considerare o ipoteză compozită formată în baza
ponderii de probabilitate a posteriori a ipotezelor considerate.
➢ Alegerea unei ipoteze care să concentreze pe cât posibil în mod cuprinzător

informația conținută în eșantion (The information compression principle)
Conceptul care stă la baza acestui principiu este acela de a elimina informația
redundantă prezentă în date, pentru a putea stabili regularitățile subiacente care să
permită o descriere economică a mediului. Aceasta implică faptul că regularitățile
descoperite în datele extrase sunt valide dincolo de aceste eșantioane și se aplică
întregului mediu.
Problema care se pune legat de aceste metode este aceea de a ști dacă ele,
stabilite în mod intuitiv, permit o învățare efectivă. Mai precis, ar trebui obținute
răspunsuri la câteva întrebări de bază:
• Aplicarea unui principiu inductiv selectat duce cu adevărat la minimalizarea
riscului real?
• Care sunt condițiile care ar trebui verificate? În plus, aceste condiții ar trebui
verificate pe un eșantion, pe funcțiile țintă, de către supervizor, ori pe un spațiu
de ipoteze?
• Cum depinde performanța de generalizare de informația conținută de un
eșantion, de dimensiunea acestuia etc.?
• Care este performanța maximă care se poate obține pentru o anumită problemă
de învățare dată?
• Care este cea mai bună LM pentru o problemă de învățare dată?
Pentru a răspunde la aceste întrebări sunt necesare decizii care depind parțial de tipul
de principiu inductiv utilizat.
Modul de analiză a procesului de învățare

Vom descrie procesul de învățare, cel puțin pe cel de învățare inductivă, sub forma unei
probleme de optimizare și anume, găsirea celei mai bune ipoteze pentru minimalizarea
riscului mediu pe un eșantion.
Dorim să analizăm în ce condiții este posibilă rezolvarea unei asemenea probleme. Dorim
de asemenea să avem instrumente care să permită să judecăm performanța unui principiu
inductiv sau a unui algoritm de învățare. Aceste analize necesită asumpții suplimentare, care
corespund opțiunilor și așteptărilor din partea LM.
Astfel, o problemă de învățare depinde de mediul care generează datele 𝑥𝑖 în baza unei
anumite distribuții necunoscute 𝒟𝒳 , de un supervizor care alege o anumită funcție țintă 𝑓,
precum și de pierderea selectată de funcție 𝑙.
Performanța unei LM, care depinde de principiul inductiv selectat și de algoritmul de

învățare consecutiv, va fi evaluată în funcție de opțiunile pentru fiecare dintre acești parametrii.
Atunci când vom căuta să determinăm performanța așteptată din partea unei LM va trebui să
luăm în discuție sursa acestor parametrii.
Există astfel trei posibilități:
1) Analiza cazurilor cele mai nefavorabile

Pleacă de la ipoteza că nu se cunoaște nimic a priori cu privire la mediu și astfel
nimic cu privire la distribuția datelor sau efectelor țintă. Cu toate acestea, cel care
învață dorește să se protejeze împotriva celor mai nefavorabile situații, ca și cum
mediul sau supervizorul ar fi adversari. Astfel performanța procesului de învățare
este caracterizată pentru situațiile cele mai nefavorabile, fiind exprimată în
general prin intervalele de risc.
Se vorbeşte de asemenea și despre modelul de analiză Min-Max, cu referire la
teoria jocului. Avantajul acestui punct de vedere este acela că garantarea
performanțelor posibile este independentă de mediu (riscul real fiind calculat
indiferent de distribuția evenimentelor), de supervizor sau de Natură (indiferent
de funcția țintă). Pe de altă parte, condițiile necesare pentru a obține aceste
garanții vor fi atât de stricte încât se vor afla adesea la mare distanță de situațiile
reale de învățare.
2) Analiza cazurilor cele mai obișnuite

Pleacă, din contră, de la dorința de a măsura o performanță medie. În acest caz,
trebuie presupusă existența unei distribuții 𝒟𝒳 a datelor ce trebuie învățate, dar
totodată și a unei distribuții 𝒟ℱ a posibilelor funcții țintă.
Se vorbește de asemenea despre modelul de analiză bayesian. Acest model de
analiză permite, în teorie, o caracterizare mai precisă a performanței cu
necesitatea totuși de a face anumite presupuneri a priori asupra spațiilor 𝒳 și ℱ.
Din păcate, adesea este foarte dificil de obținut, în mod analitic, condiții care să
garanteze succesul învățării și, în general, este necesar să fie utilizate metode de
aproximare, care reduce parțial interesul pentru o astfel de abordare.
3) Analiza cazurilor binevoitoare

Pleacă de la dorința de a caracteriza cele mai favorabile cazuri, atunci când mediul
și supervizorul sunt binevoitori și doresc să ajute LM. Este însă dificil de
determinat granița dintre bunăvoință și înțelegerea secretă în care supervizorul
acționează ca un complice care codifică funcția țintă într-un cod cunoscut de cel
care învață, ceea ce nu mai înseamnă învățare ci transmitere ilicită de date. Din
acest motiv, acest tip de analiză, deși interesantă, nu are încă un mod de lucru clar
stabilit.
Validitatea condiţiilor aferente principiului de minimalizare a riscului

empiric (Empirical Risk Minimization – ERM)
În această secțiune vom aborda analiza principiului inductiv de minimalizare a riscului
empiric (Empirical Risk Minimization – ERM) care menționează alegerea acelei ipoteze ce
conduce la minimalizarea riscului empiric măsurat pe un eșantion. Această abordare este cea mai
utilizată, iar analiza ei conduce la principii conceptuale foarte generale.
Principiul ERM a fost folosit inițial în analiza celei mai nefavorabile situații, menționată
anterior. Utilizarea ei în analiza cazurilor cele mai obișnuite, prin folosirea unor idei din statistica
fizică, a constituit de asemenea obiectul multor lucrări interesante. Din punct de vedere tehnic
este evident mult mai dificilă.
Să ne reamintim că un proces de învățare constă în a găsi o ipoteză ℎ astfel încât să se

minimalizeze pierderea medie de învățare. Formal, este o chestiune de a găsi o ipoteză optimă ℎ∗
care să minimalizeze riscul real:
ℎ∗ = ArgMin ℛ𝑟𝑒𝑎𝑙 (ℎ)

ℎ∈ℋ
Problema este că riscul real aferent unei ipoteze ℎ nu este cunoscut. Ideea evidentă este
aceea de a selecta o ipoteză ℎ în spațiul ℋ care se comportă bine în cadrul datelor eșantionului 𝒮,
iar acesta este principiul inductiv al ERM. Vom nota cu ℎ̂𝑠 această ipoteză optimă pentru riscul
empiric măsurat pe eșantionul de date 𝒮:
ℎ̂𝑠 = ArgMin ℛ𝑒𝑚𝑝 (ℎ)

ℎ∈ℋ
Acest principiu inductiv este relevant doar dacă riscul empiric este corelat cu riscul real.
Astfel, analiza trebuie să studieze gradul de corelație dintre cele două riscuri și, în mod particular,
corelația dintre corelația dintre riscul real indus de ipoteza selectată în baza principiului ERM
(ℛ𝑟𝑒𝑎𝑙 (ℎ̂𝑠 )) și riscul real optim (ℛ𝑟𝑒𝑎𝑙 (ℎ∗ )).
Această corelație va lua în considerare două aspecte:
1) Diferența (inevitabil pozitivă sau nulă) între riscul real al ipotezei selectate ℎ̂𝒮
utilizând eșantionul 𝒮 și riscul real al ipotezei optime ℎ∗:
ℛ𝑟𝑒𝑎𝑙 (ℎ̂𝑠 ) − ℛ𝑟𝑒𝑎𝑙 (ℎ∗ )
2) Probabilitatea ca această diferență să fie mai mare decât un prag dat 𝜀. Dat fiind
faptul că riscul empiric depinde de eșantionul considerat, corelația dintre riscul
empiric măsurat și riscul real depinde de reprezentativitatea acestui eșantion.
Acesta este motivul pentru care atunci când se studiază diferența:
ℛ𝑟𝑒𝑎𝑙 (ℎ∗ ) − ℛ𝑟𝑒𝑎𝑙 (ℎ̂𝑠 )
este necesar să se ia în considerare că eșantionul de probă a primit o anumită țintă
de învățare. Cineva poate să nu fie un bun cursant pentru toate situațiile de
învățare ci doar pentru unele anume care sunt cele mai probabile (eșantionul
reprezentativ de antrenare).
Principiul ERM este un principiu inductiv valid dacă el poate să garanteze că riscul real
calculat în baza ipotezei ℎ̂𝒮 , care minimalizează riscul empiric, este aproape de riscul real optim
obținut în baza ipotezei optime ℎ∗ . Această apropiere trebuie să aibă loc în marea majoritate a
cazurilor care apar, adică în majoritatea eșantioanelor de antrenare alese în mod randomizat în
baza distribuției 𝒟𝒳 .
Într-o exprimare mai formală, se caută să se vadă în ce condiții este posibil să se asigure
următoarea relație:
(∀𝜀, 𝛿) 𝜀 ≥ 0, 𝛿 ≤ 1, 𝑃(|𝑅𝑟𝑒𝑎𝑙 (ℎ̂𝒮 ) − 𝑅𝑟𝑒𝑎𝑙 (ℎ∗ )| ≥ 𝜀) < 𝛿
Este evident faptul că acea corelație dintre riscul empiric și riscul real depinde de
eșantionul selectat 𝒮 și, dat fiind că acesta este selectat în mod randomizat, depinde de
dimensiunea 𝑚 a acestui eșantion. Acest lucru conduce la aplicarea în mod natural a legii
numerelor mari care spune că, în condiții generale, prin creșterea dimensiunilor eșantionului (𝑚)
valoarea medie a unei variabile aleatorii, în cazul nostru 𝑅𝑒𝑚𝑝 (ℎ), tinde către valoarea medie a
populației din care este selecționat, în cazul nostru 𝑅𝑟𝑒𝑎𝑙 (ℎ).
Legea numerelor mari susține astfel asigurarea inegalității prezentate anterior prin
creșterea dimensiunilor eșantionului 𝒮 către ∞ . Ea ridică totodată problema valorii 𝑚 a
eșantionului ales în mod randomizat, în baza unei distribuții 𝒟𝒳 nespecificate, de la care această
inegalitate este garantată:
(∀𝜀, 𝛿) 𝜀 ≥ 0, 𝛿 ≤ 1, (∃𝑚) astfel încât 𝑃(|𝑅𝑟𝑒𝑎𝑙 (ℎ∗ ) − 𝑅𝑟𝑒𝑎𝑙 (ℎ̂𝒮𝑚 )| ≥ 𝜀) < 𝛿
Figura 2. Dezideratul de convergență dintre riscul real și cel empiric

Definiție. Consistența principiului ERM. Se spune că principiul ERM este consistent

dacă riscul real necunoscut 𝑅𝑟𝑒𝑎𝑙 (ℎ̂𝒮 ) și riscul empiric 𝑅𝑒𝑚𝑝 (ℎ̂𝒮 ) converg către aceeași limită
𝑅𝑟𝑒𝑎𝑙 (ℎ∗ ) atunci când dimensiunea 𝑚 a eșantionului tinde către ∞.
Figura 3. Consistența principiului ERM
Din păcate legea numerelor mari nu este suficientă pentru ceea ce studiem în acest capitol.
Într-adevăr, legea numerelor mari spune că riscul empiric al unei ipoteze date ℎ converge către
riscul ei real pe măsură ce mărimea eșantionului crește și tinde către ∞. Ceea ce căutăm noi însă
este diferit și anume, vrem să fim siguri că ipoteza ℎ̂𝒮𝑚 luată în spațiul de ipoteze ℋ și care
minimalizează riscul empiric pentru eșantionul 𝒮 determină un risc real care converge către
riscul real optim determinat de ipoteza optimă ℎ∗ independent de eșantionul 𝒮 . Este absolut
necesar să se observe că în această situație eșantionul de antrenare considerat nu joacă doar rolul
unui set de testare, dar de asemenea și rolul de a fi utilizat pentru alegerea ipotezei. Însă nu se
poate lua în considerare, fără a fi precauți, performanța măsurată pe eșantionul considerat ca
fiind reprezentativă pentru performanța reală.
Într-adevăr, se poate construi spațiul de ipoteze ℋ într-un asemenea mod încât să fie
întotdeauna posibil să fie identificată o ipoteză cu risc empiric nul fără ca aceasta să indice o
performanță generală bună. De aceea este necesar să fie generalizată legea numerelor mari.
Compromisul deplasare-împrăștiere (The bias-variance trade-off)
Compromisul deplasare-împrăștiere exprimă efectul unor factori diferiți asupra erorii

finale, între ipoteza selectată de către LM și funcția țintă ideală pe care ar fi trebuit să o selecteze.
Conform modelului general de învățare prin exemple, LM primește din mediu un set de date
{𝑥1 , 𝑥2 , … , 𝑥𝑚 } unde 𝑥𝑖 ∈ 𝒳 . În absența unor informații suplimentare privind originea acestor
date și din rațiuni de simplificare a modelelor matematice de analiză, se va considera că aceste
date au fost selectate aleator și independent unele de altele, în conformitate cu probabilitatea de
distribuție 𝒟𝒳 , cu asumpția distribuției identice și independente a datelor. Împreună cu fiecare
dintre aceste date 𝑥𝑖 , LM primește în mod suplimentar informația supervizată (eticheta) 𝑢𝑖
generată în baza dependenței funcționale dintre 𝑥 și 𝑢.
Vom nota 𝒮 = {𝑧1 = (𝑥1 , 𝑢1 ), 𝑧2 = (𝑥2 , 𝑢2 ), … , 𝑧𝑚 = (𝑥𝑚 , 𝑢𝑚 )} eșantionul de antrenare

realizat prin exemplele supervizate. Pentru a simplifica vom considera că dependența funcțională
dintre valoarea de intrare 𝑥 și eticheta consecutivă 𝑢 ia forma unei funcții 𝑓 care aparține unei
familii de funcții ℱ.
Fără a neglija ideea de generalizare, vom considera că poate exista o etichetare eronată, o
deplasare măsurabilă între eticheta propusă de LM și cea adevărată în conformitate cu funcția 𝑓.
LM caută să găsească o ipoteză (funcție) ℎ în spațiul de funcții ℋ cât mai aproape de funcția țintă
𝑓. Conceptul de proximitate, care va fi dezvoltat ulterior, analizează distanța dintre funcțiile ℎ și
𝑓.
Eroarea totală rezultă din conjuncția diferitelor erori care apar între 𝑓 și ℎ, pe care le vom
detalia în continuare:
• Prima sursă de eroare o constituie faptul că nimic nu poate garanta postularea a

priori a egalității dintre spațiul de funcții țintă ℱ al Naturii și spațiul de ipoteze
(funcții) ℋ realizat de către LM. Astfel, chiar dacă LM selectează o ipoteză optimă
ℎ∗ (în sensul conceptului de proximitate menționat anterior), ℎ∗ este selectat în
spațiul de ipoteze ℋ și astfel poate fi diferită de funcția țintă 𝑓. Această eroare de
aproximare este denumită bias inductiv (bias) din cauza diferenței dintre ℱ și ℋ.
• O a doua sursă de eroare provine din faptul că în general LM nu poate să selecteze

în spațiul de ipoteze ℋ ipoteza optimă ℎ∗, ci doar ipoteza ℎ̂ în baza eșantionului
de antrenare selectat 𝒮. În funcție de acest eșantion, ipoteza de învățare ℎ̂ poate
să varieze în cadrul unui set de ipoteze (funcții) pe care-l notăm {ℎ̂}𝒮 pentru a
sublinia dependența fiecăreia dintre aceste ipoteze de eșantionul de selecție
aleator 𝒮. Distanța dintre ipoteza optimă ℎ∗ și ipoteza estimată ℎ̂, care depinde de
particularitățile eșantionului selectat 𝒮, se numește eroarea de estimare. Se poate
demonstra formal că împrăștierea (varianța) depinde de sensibilitatea calculelor
privind ipoteza ℎ̂ ca funcție a eșantionului 𝒮. Cu cât spațiul de ipoteze ℋ este mai
mare cu atât împrăștierea (varianța) este mai importantă.
• O a treia sursă de eroare se referă la așa numitele perturbații (noise) de etichetare,

care apar din cauza erorilor de transmitere. Astfel, eticheta 𝑢 asociată cu 𝑥 poate
să nu fie conformă cu funcția 𝑓. LM generează un set de etichete determinate de
funcția perturbată 𝑓𝑏 = 𝑓 + 𝑛𝑜𝑖𝑠𝑒 . Aceasta este o eroare intrinsecă care, în
general, complică cercetarea privind ipoteza optimă ℎ∗ .
Fiind date aceste circumstanțe, compromisul deplasare-împrăștiere poate fi definit în

felul următor: pentru a reduce deplasarea apărută din cauza unei slabe adecvări a spațiului de
ipoteze ℋ la spațiul de funcții țintă ℱ (Natura) este necesară creșterea și îmbogățirea spațiului de
ipoteze ℋ. Din păcate, această dezvoltare a spațiului de ipoteze ℋ se face cu creșterea consecutivă
a împrăștierii (varianței). Astfel, eroarea totală reprezentată de suma dintre eroarea de
aproximare și eroarea de estimare nu poate fi scăzută în mod semnificativ.
Astfel compromisul deplasare-împrăștiere poate fi denumit și compromisul eroare de
aproximare-eroare de estimare. Se ridică cu adevărat întrebarea dacă un astfel de compromis
este corect a fi făcut, atât timp cât el face referire la suma unor termeni ce variază simultan în
sensuri diferite. În plus, eroarea intrinsecă dată de perturbațiile în etichetare (zgomote) poate să
agraveze nivelul de eroare totală pe măsură ce devine mai intensă. Cazul ideal este reprezentat
de perturbații nule, un spațiu de ipoteze ℋ restrâns pentru a reduce împrăștierea (varianța), dar
în același timp foarte bine documentat, conținând doar ipoteze (funcții) ℎ apropiate de funcțiile
țintă 𝑓 din spațiul ℱ. Tot acest caz ideal nu înseamnă altceva decât să avem a priori cunoștințe cu
privire la Natură.
Figura 4. Diferitele tipuri de erori care pot să apară în estimarea funcției țintă 𝑓 pornind de la un
eșantion de date. Având un spațiu de ipoteze foarte restrâns se poate reduce împrăștierea (varianța) dar
aceasta se petrece în general cu o mai mare eroare de aproximare.
Metode de regularizare
Evaluarea compromisului deplasare-împrăștiere și analiza principiului ERM au demonstrat

clar că riscul real depinde în același timp de riscul empiric măsurat pe un eșantion și de
dimensiunea spațiului de ipoteze ℋ. Cu cât spațiul de ipoteze este mai mare, cu atât este mai mare
șansa să se identifice o funcție ipoteză în apropierea funcției țintă, cu o eroare de aproximare mică.
Cu toate acestea, ipoteza care minimalizează riscul empiric depinde de eșantionul selectat, ceea
ce poate duce la o eroare de estimare mare. Astfel, evaluarea performanței învățării estimând
riscul real în baza riscului empiric devine oarecum nepotrivită.
Cu alte cuvinte, inducția supervizată întotdeauna prezintă riscul suprapotrivirii (over-

fitting). Dacă spațiul de ipoteze ℋ este prea dezvoltat, atunci există o șansă mare ca ipoteza
selectată, al cărei risc empiric este mic, să prezinte în realitate un risc real mare. Diferite ipoteze
selectate care fiecare în parte prezintă un risc empiric mic, pot determina nivele foarte diferite
ale riscului real. Aceasta face imposibilă determinarea ipotezei potrivite în detrimentul celei
nepotrivite în baza doar a riscului empiric măsurat. Este astfel necesară restrângerea pe cât de
mult posibil a spațiului de ipoteze ℋ și căutarea păstrării unei capacități de aproximare suficient
de bune.
Reglarea clasei de ipoteze (tuning the hypothesis class)
Avându-se în vedere faptul că se poate măsura doar riscul empiric, se încearcă evaluarea
riscului real prin corecții aduse riscului empiric, utilizând un coeficient de corecție
(penalizare) ce corespunde parametrilor care măsoară capacitatea spațiului de ipoteze
ℋ. Aceasta este în fond esența tuturor abordărilor inductive care revizuiesc principiul
ERM, adică adaptarea la datele existente prin utilizarea unor factori de regularizare ce
depind de clasa de ipoteze considerată. Această idee fundamentală formează nucleul
tuturor metodelor de regularizare, cum sunt Teoria regularizării, Minimum Description
Length Principle (MDLP), The Akaike information criterion (AIC), precum și alte metode
bazate pe măsurători complexe.
Problema definită este cunoscută, cel puțin empiric, de mult timp și au fost dezvoltate mai
multe tehnici pentru a o rezolva. Aceste tehnici pot fi clasificate în trei categorii principale
și anume: metoda selecției modelelor, metoda tehnicilor de regularizare și metode medii.
 Metodele de selecție a modelelor

În cadrul metodelor de selecție a modelelor, abordarea constă în a considera un spațiu de
ipoteze ℋ care ulterior să fie descompus în subspații ℋ1 ⊆ ℋ2 ⊆ ⋯ ⊆ ℋ𝑑 ⊆ ⋯, astfel ca,
în prezența unui eșantion de antrenare, să poată fi identificat acel subspațiu de ipoteze
optim pentru datele existente, în interiorul căruia să se stabilească ipoteza finală. În
cadrul acestui model au fost propuse mai multe metode de lucru, care pot fi împărțite în
două tipuri:
o Metode de corecție (penalizare, sancționare) a complexității, în cadrul
cărora se disting principiul minimalizării riscului structural (Vapnik),
principiul Minimum Description Length (Rissanen), precum și alte variate
metode bazate pe criterii statistice de selecție.
o Metode de validare prin învățări multiple, printre care se numără validarea
încrucișată (cross validation) și bootstrapping.
 Metodele de regularizare (regularization methods)

Metodele de regularizare, cu toate că au la bază aceleași concepte ca și metodele de selecție
a modelelor, nu necesită fragmentarea spațiului de ipoteze ℋ în clase de subspații. Un
coeficient de corecție (penalizare, sancționare) este asociat fiecărei ipoteze, acesta fiind fie
o măsură a complexității structurale parametrice a ipotezei respective, fie a proprietăților
generale de regularitate ale acesteia relativ la derivabilitatea funcției ipoteză respective
sau dinamica acesteia. De exemplu, funcțiile ipoteză care își schimbă rapid, cu frecvență
mare, valorile vor avea coeficienți de corecție mai mari comparativ cu funcțiile ipoteză
care variază cu frecvență mai mică.
 Metodele medii
Metodele medii nu selectează o singură ipoteză în spațiul de ipoteze ℋ, ci realizează o
combinare ponderată a mai multor ipoteze pentru a ajunge la o funcție ipoteză finală. O
astfel de combinare ponderată poate avea un efect de ameliorare a unei ipoteze
neregulate, așa cum se întâmplă în metodele de medie bayesiană sau cele de tip bagging
methods, ori de creștere a gradului de reprezentare a clasei de ipoteze, dacă aceasta nu
este convexă, așa cum se petrece în metodele de tip boosting methods.
Toate aceste metode prezentate conduc în general la îmbunătățiri notabile ale

performanței de învățare comparativ cu metodele naive, rudimentare. Cu toate acestea, ele
trebuie utilizate cu precauție, determinând pe de o parte o creștere a spațiului de ipoteze ℋ și a
riscului de suprapotrivire, iar pe de altă parte necesitând adesea o anumită expertiză în a fi
aplicate, în special din cauza parametrilor adiționali care trebuie să fie regulați. Din aceste motive,
lucrări recente încearcă să stabilească algoritmi care să determine în mod automat complexitatea
potrivită a ipotezelor candidat pentru a fi aplicate datelor de antrenare.
Metoda de selecție a modelelor
Să considerăm secvența ierarhică a spațiilor (claselor) de ipoteze considerate ca modele:
ℋ1 ⊆ ℋ2 ⊆ ⋯ ⊆ ℋ𝑑 ⊆ ⋯
secvență ierarhică în care ℋ𝑑 are capacitatea (volumul) din ce în ce mai mare. Funcția
țintă 𝑓 poate sau nu să fie inclusă într-una dintre aceste clase. Să considerăm ℎ𝑑∗ ipoteza optimă
în cadrul clasei (spațiului) de ipoteze ℋ𝑑 și 𝑅(𝑑) = 𝑅𝑟𝑒𝑎𝑙 (ℎ𝑑∗ ) riscul real asociat ipotezei optime
ℎ𝑑∗ . Se poate constata faptul că secvența {𝑅(𝑑)}1≤𝑑≤∞ descrește datorită faptului că spațiile
(clasele) ℋ𝑑 sunt ierarhizate, iar capacitatea de aproximare a funcției țintă 𝑓 crește.
Definiție. Metoda selecției modelelor constă în a alege, pe baza unui eșantion de

antrenare 𝒮 de dimensiune 𝑚, o clasă (spațiu) de ipoteze ideal ℋ𝑑∗ și o ipoteză ℎ𝑑 ∈ ℋ𝑑∗ astfel
încât riscul real asociat acestei ipoteze 𝑅𝑟𝑒𝑎𝑙 (ℎ𝑑 ) să fie minim.
Principiul de bază este acela că riscul real asociat ipotezei selectate ℎ𝑑 pentru fiecare
spațiu (clasă) de ipoteze ℋ𝑑 , 0 < 𝑑 ≤ 𝑚, prezintă o valoare globală minimă, ceea ce face ca ℎ𝑑 să
corespundă ipotezei optime ℎ𝑑∗ , iar spațiul ℋ𝑑 să corespundă spațiului ideal de ipoteze ℋ𝑑∗ .
Figura 5. Limitele riscului real rezultă prin însumarea riscului empiric și a intervalului de
încredere, care depinde de dimensiunea (capacitatea) spațiului de ipoteze considerat. Considerând o
ierarhie de spații de ipoteze, de dimensiuni din ce în ce mai mari în funcție de valoarea 𝑑, riscul empiric
scade odată cu creșterea valorii 𝑑 , ce corespunde deplasării, în timp ce intervalul de încredere, care
corespunde împrăștierii (varianței), crește. Limitele minime pentru riscul real sunt atinse pentru cel mai
bun spațiu de ipoteze considerat ℋ𝑑 .
Astfel se ridică problema găsirii spațiului ideal de ipoteze ℋ𝑑∗ , iar în cadrul acestui spațiu
să fie identificată ipoteza ideală ℎ𝑑 . Această problemă este rezolvată prin utilizarea principiului
ERM care identifică acea ipoteză care minimalizează riscul empiric.
Pentru a se stabili spațiul (clasa) ideală de ipoteze ℋ𝑑∗ se va estima riscul real optim în
fiecare spațiu (clasă) ℋ𝑑 prin calcularea în fiecare clasă, folosind principiul ERM, a riscului
empiric, risc empiric corectat pentru fiecare spațiu ℋ𝑑 cu un factor de corecție corelat cu
dimensiunea spațiului considerat.
Astfel, metoda selecției modelelor se reduce la rezolvarea următoarei ecuații:

𝑒𝑠𝑡𝑖𝑚𝑎𝑡 (ℎ )}
𝑑∗ = 𝐴𝑟𝑔𝑀𝑖𝑛{ℎ𝑑 ∈ ℋ𝑑 : 𝑅𝑟𝑒𝑎𝑙 𝑑 = 𝐴𝑟𝑔𝑀𝑖𝑛 {ℎ𝑑 ∈ ℋ𝑑 : 𝑅𝑒𝑚𝑝𝑖𝑟𝑖𝑐 (ℎ𝑑 )} + 𝑐𝑜𝑒𝑓. 𝑐𝑜𝑟.
𝑑 𝑑
Trebuie avut în vedere că alegerea celui mai bun spațiu de ipoteze depinde de
dimensiunea 𝑚 a eșantionului considerat. Cu cât eșantionul este mai mare, cu atât este posibil să
alegem un spațiu de ipoteze mai larg, cu o împrăștiere (varianță) și un interval de încredere mai
mici, ceea ce permite să ne apropiem pe cât de mult posibil de ipoteza țintă 𝑓.
Estimarea riscului real
Cea mai simplă metodă pentru a estima în mod obiectiv calitatea unei ipoteze de învățare
ℎ este aceea de a împărți setul de exemple (eșantionul de antrenare) în două grupe:
• primul grup notat cu 𝐴 este folosit pentru a proba ipoteza ℎ;

• al doilea grup notat cu 𝑇 (eșantionul test) este folosit pentru a stabili calitatea ipotezei
considerate.
Avem următoarele relații:

𝒮 = 𝐴 ∪ 𝑇, 𝐴 ∩ 𝑇 = ∅
Erorile pe care ipoteza de lucru ℎ le determină în setul 𝑇 reprezintă estimarea riscului real
asociat ipotezei ℎ, notat 𝑅̂𝑟𝑒𝑎𝑙 (ℎ).
Să examinăm inițial cazul particular a învățării a două funcții separate în situația regulii
de clasificare.
Funcția 0-1 loss este definită după cum urmează:
0 dacă 𝑎 = 𝑦
𝐿(𝑦, 𝑎) = 𝐼(𝑦 ≠ 𝑎) = {
1 dacă 𝑎 ≠ 𝑦
În aria LM, specific în cea a problemelor clasificării statistice, o matrice a erorilor

(confusion matrix, error matrix) reprezintă o matrice specifică care permite vizualizarea
performanței unui algoritm, tipic al unui algoritm de învățare supervizată. Fiecare rând al
matricei respective reprezintă exemple dintr-o clasă anticipată, în timp ce fiecare coloană
reprezintă exemple dintr-o clasă existentă.
Definiție. Matricea erorilor 𝑀(𝑖, 𝑗) a unei reguli de clasificare ℎ este o matrice de tip
𝐶 × 𝐶 al cărui element generic dă numărul exemplelor din setul test 𝑇 în clasa 𝑖 , care a fost
clasificat în clasa 𝑗.
În cazul clasificării binare, matricea erorilor este de forma:
′+′ ′−′
Adevărat Fals
′+′
pozitiv (TP) pozitiv (FP)
Fals Adevărat
′−′
negativ (FN) negativ (TN)
Exemplu
În cazul în care un sistem de clasificare a fost setat pentru a distinge între câini și pisici,
matricea erorilor va sumariza rezultatele algoritmului utilizat. Dacă vom considera eșantionul
selectat a fi format din 13 animale, dintre care 8 pisici și 5 câini, matricea erorilor ar putea să arate
după cum urmează:
Clase
actuale
Pisici Câini
Pisici
5 2
anticipate
Clase
Câini
3 3
În această matrice a erorilor, dintre cele opt pisici sistemul prezice că trei animale sunt de
fapt câini, iar dintre cei cinci câini sistemul prezice că două animale sunt de fapt pisici. Predictorii
corectați sunt localizați pe diagonalele tabelului.
În situația în care toate erorile prezintă aceeași însemnătate (gravitate), suma termenilor
care nu se găsesc pe aceeași diagonală a matricei 𝑀 împărțită la dimensiunea 𝑡 a setului test 𝑇
reprezintă o estimare a riscului real 𝑅̂𝑟𝑒𝑎𝑙 (ℎ) pe setul test 𝑇 a ipotezei ℎ:
1
𝑅̂𝑟𝑒𝑎𝑙 (ℎ) = ∑ 𝑀(𝑖, 𝑗)
𝑡
𝑖≠𝑗
Dacă notăm cu 𝑡𝑒𝑟𝑟 numărul elementelor (obiectelor) ale setului test 𝑇 clasificate incorect
atunci avem relația:
𝑡𝑒𝑟𝑟
𝑅̂𝑟𝑒𝑎𝑙 (ℎ) =
𝑡
Matricea empirică a erorilor reprezintă matricea erorilor definită pe setul de antrenare.
Pentru această matrice suma termenilor care nu se găsesc pe diagonală reprezintă este
proporțională cu riscul empiric dar nu reprezintă o estimare a riscului real.
Valoare de adevăr
1 0 Σ
1 TP FP ̂+ = 𝑇𝑃 + 𝐹𝑃
𝑁
Estimat
0 FN TN ̂− = 𝐹𝑁 + 𝑇𝑁
𝑁
Σ 𝑁+ = 𝑇𝑃 + 𝐹𝑁 𝑁− = 𝐹𝑃 + 𝑇𝑁 𝑁 = 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
̂+
Tabel 1. Parametrii care pot fi calculați din matricea erorilor: 𝑁+ reprezintă numărul real al datelor pozitive, 𝑁
̂
reprezintă numărul datelor considerate pozitive, 𝑁− reprezintă numărul real al datelor negative, iar 𝑁− reprezintă
numărul datelor considerate negative.
𝑦=1 𝑦=0
𝑇𝑃 𝐹𝑃
𝑦̂ = 1 = 𝑇𝑃𝑅 = 𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑟𝑒𝑐𝑎𝑙𝑙 = 𝐹𝑃𝑅 = 𝑡𝑦𝑝𝑒 𝐼
𝑁+ 𝑁−
𝐹𝑁 𝑇𝑁
𝑦̂ = 0 = 𝐹𝑁𝑅 = 𝑚𝑖𝑠𝑠 𝑟𝑎𝑡𝑒 = 𝑡𝑦𝑝𝑒 𝐼𝐼 = 𝑇𝑁𝑅 = 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦
𝑁+ 𝑁−
Tabel 2. Estimarea 𝑝(𝑦̂|𝑦) din matricea erorilor; 𝑇𝑃𝑅-true positive rate, 𝑇𝑁𝑅-true negative rate, 𝐹𝑃𝑅-false positive
rate și 𝐹𝑁𝑅-false negative rate.
Estimarea prin intervalul de încredere
Este important să poată fi stabilit intervalul de încredere pentru 𝑅̂𝑟𝑒𝑎𝑙 (ℎ). Astfel, în baza
metodelor statistice clasice, dacă eșantioanele de antrenare și de testare sunt independente
atunci precizia estimării depinde doar de numărul de elemente 𝑡 ale eșantionului de testare și de
valoarea 𝑅̂𝑟𝑒𝑎𝑙 (ℎ).
Dacă valoarea 𝑡 este suficient de mare (de ordinul sutelor) atunci intervalul de încredere
pentru 𝑅̂𝑟𝑒𝑎𝑙 (ℎ) este dat de relația:
𝑡𝑒𝑟𝑟 𝑡
𝑡𝑒𝑟𝑟 √ 𝑡 (1 − 𝑒𝑟𝑟
𝑡 )]
[ ± 𝜉(𝑥)
𝑡 𝑡
Funcția 𝜉(𝑥) are în particular următoarele valori:

𝑥 50% 68% 80% 90% 95% 98% 99%
𝜉(𝑥) 0,67 1,00 1,28 1,64 1,96 2,33 2,58
Estimarea ratei reale de eroare pe un eșantion de testare 𝑇, independent de eșantionul de

antrenare 𝐴, furnizează o estimare nedeplasată a riscului real 𝑅𝑟𝑒𝑎𝑙 (ℎ) cu un interval de încredere
controlabil ce depinde doar de dimensiunea 𝑡 a eșantionului de testare 𝑇. Cu cât este mai mare
eșantionul de testare 𝑇, cu atât va fi mai mic va fi intervalul de încredere și, consecutiv, rata erorii
empirice va da o indicație mai bună asupra ratei erorii reale. Din păcate, în majoritatea cazurilor,
numărul de exemple (observații) care pot fi etichetate de către un expert este limitat. La modul
general, fiecare nou exemplu este obținut cu costuri mari, astfel că eșantionul de antrenare și cel
de testare nu pot fi crescute arbitrar. Aici apare un conflict între interesul de a avea cel mai mare
eșantion de antrenare 𝐴 posibil, precum și cel mai mare eșantion de testare posibil 𝑇 pe care să
fie testate rezultatele obținute pe eșantionul de antrenare 𝐴. Deoarece cele două eșantioane
trebuie să fie independente, ceea ce intră într-un eșantion este retras din celălalt.
Estimarea prin validare încrucișată
Conceptul validării încrucișate (𝑁-fold cross validation) constă în:
1) împărțirea eșantionului de date 𝒮 în 𝑛 subeșantioane de dimensiuni egale;

2) păstrarea unui subeșantion, notat prin indicele 𝑖 , pentru testare, în timp ce
celelalte 𝑛 − 1 subeșantioane vor fi folosite ca eșantioane de antrenare;
3) măsurarea ratei empirice de eroare 𝑅̂𝑟𝑒𝑎𝑙 (ℎ) în eșantionul de testare 𝑖;
4) repetarea de 𝑛 ori a procedeului, variind eșantionul de testare 𝑖 de la 1 la 𝑛.
Valoarea finală a erorii este dată de valoarea medie a erorilor măsurate:

𝑛
1
𝑅̂𝑟𝑒𝑎𝑙 (ℎ) = ∑ 𝑅̂𝑟𝑒𝑎𝑙,𝑖 (ℎ)
𝑛
𝑖=1
Se poate demonstra că prin această metodă se obține o estimare nedeplasată a ratei erorii
reale. În mod obișnuit valoarea lui 𝑛 variază de la 5 la 10. În felul acesta se poate folosi o mare
parte dintre exemple (observații) pentru eșantionul de antrenare cu obținerea unei evaluări
precise a ratei erorii reale. Pe de altă parte este necesar ca această metodă să fie repetate de 𝑛 ori.
Problema care se ridică este aceea legată de ipoteza care trebuie utilizată. Este foarte
probabil ca fiecare ipoteză de învățare să depindă de eșantionul de antrenare 𝑖 utilizat, astfel că
se obțin 𝑛 ipoteze diferite.
Se poate observa că în condițiile în care ipotezele de învățare sunt foarte diferite între ele,
aceasta poate fi un indicator că spațiul de ipoteze ℋ este inadecvat. Acest lucru arată o mare
varianță (împrăștiere), în general asociată cu o dimensiune Vapnik-Chervonenkis mare, astfel că
riscul de antrenare prezintă o importantă mică. Cea mai bună abordare este aceea de a repeta
antrenarea pe setul total 𝒮. Precizia va fi una bună iar rata erorii estimate este cunoscută prin
intermediul celorlalte 𝑛 antrenări.
Estimarea prin variante ale metodei de validare încrucișată: bootstrap, jackknife
Aceste tehnici diferă de precedentele în modul de utilizare a eșantionării prin înlocuire,

pe exemplele stabilite. Procesul decurge în modul următor:
• se alege aleator un exemplu care este plasat într-un set numit bootstrap, proces
care este repetat de 𝑛 ori, procesul de antrenare fiind realizat pe setul bootstrap;
• se efectuează testarea pe exemplele care nu sunt conținute în setul bootstrap,
calculându-se 𝑃1 ca primă valoare în clasificatorul erorilor;
• se efectuează un nou test pe setul întreg de exemple și se calculează 𝑃2 ;
• procedeul se repetă de 𝑘 ori.
Ecuația de gradul întâi dintre valoarea medie 𝑃̅1 și valoarea medie 𝑃̅2 dau valoarea
riscului real 𝑅̂𝑟𝑒𝑎𝑙 (ℎ). În teorie este propusă următoarea formulă:
𝑅̂𝑟𝑒𝑎𝑙 (ℎ) = 0,636𝑃̅1 + 0,368𝑃̅2
în baza faptului că proporția medie a elementelor care nu se repetă în setul test este egală
cu 0,368.
Pentru seturi mici de exemple, metoda bootstrap determină o estimare remarcabil de

precisă a riscului real 𝑅𝑟𝑒𝑎𝑙 (ℎ). Pe de altă parte este necesar ca valoarea 𝑘, numărul de repetări
ale procesului, să fie foarte mare, de ordinul a sute de ori, ceea ce înseamnă un mare număr de
angajări ale regulii de clasificare.
Există și o altă metodă apropiată de cea bootstrap dar mai complexă, denumită jackknife,
metodă care încearcă să reducă deplasarea ratei de eroare prin realizarea de conexiuni atunci
când datele sunt utilizate atât pentru antrenare cât și pentru testare.
Adaptarea algoritmilor prin intermediul unui set de validare
Stabilirea celei mai bune metode pentru rezolvarea unei probleme de învățare implică:
• alegerea principiului inductiv;

• selectarea unei metode de măsurare a performanței;
• alegerea unui algoritm de antrenare;
• alegerea unui spațiu de ipoteze, care depinde în parte de algoritmul selectat;

• stabilirea parametrilor care controlează algoritmul în desfășurare.
În general operatorul testează câteva metode pe problema de învățare existentă pentru a

vedea care dintre ele este mai potrivită clasei de probleme existente. Este necesară precauție
pentru această abordare care pare naturală. Se poate considera într-adevăr că este suficient să se
măsoare empiric, pentru fiecare metodă în parte, performanța utilizând una dintre tehnicile
menționate anterior. Procedând în acest fel se poate minimaliza riscul măsurat pe eșantionul test
și astfel să fie adaptată metoda în baza eșantionului considerat. Aceasta este o abordare riscantă
deoarece se poate întâmpla, cum se întâmplă în cazul suprapotrivirii, să ne depărtăm de o
reducere a riscului real. Acesta este motivul pentru care în anumite situații, pe lângă eșantionul
de antrenare și cel de testare, se selectează un al treilea eșantion independent de primele două:
eșantionul de validare pe care se evaluează performanța reală a metodei utilizate. Astfel, se împart
datele supervizate 𝒮 în trei părți și anume: eșantionul de antrenare 𝐴, eșantionul de testare 𝑇 și
eșantionul de validare 𝑉 . Separarea datelor (exemplelor) în trei seturi este utilă și pentru a
determina momentul la care anumiți algoritmi de antrenare converg.
Compararea metodelor de învățare

Rețele neuronale cu un singur strat
Neuronii biologici
Neuronii sunt componentele fundamentale ale sistemului nervos, a cărui complexitate
este extraordinară. Creierul uman are în medie 86 de miliarde de neuroni. În Figura 1 se poate
vedea fotografia unui neuron real.
Figura 1: Neuron biologic real
Neuronii mai sunt numiți uneori și celule nervoase, deși mulţi neuroni nu formează nervi
iar nervii includ și alte celule decât neuroni. Diametrul unui neuron este de 4-100 microni iar
greutatea sa nu depășește 10−6 g.
Simplificând puţin lucrurile, un neuron este alcătuit din corpul celular, dendrite,
terminații cu aspect arborescent care primesc impulsuri de la alţi neuroni și un axon, care trimite
impulsuri electrice către alţi neuroni, după cum se poate vedea în Figura 2.
Figura 2. Structura neuronilor și sinapsă chimică

Neuronii sunt conectaţi prin sinapse. În scoarța cerebrală există 150 de trilioane de
sinapse. Un neuron se conectează cu alţi 1000-10000 de neuroni, în medie 7000.
Atât în interiorul cât și în exteriorul celulelor neuronale se găsesc ioni pozitivi și negativi.
Schimbările de concentrație ale acestora determină apariţia unor curenți electrici sau impulsuri
nervoase. Transmiterea de la un neuron la altul a acestor impulsuri se face prin intermediul
sinapselor, unidirecțional de la axoni la dendrite (deși există și alte combinații posibile).De fapt,
neuronii nu se ating direct, există o regiune foarte îngustă, de aproximativ 20 nm între
membranele pre- si postsinaptice, numită fantă sinaptică. Transferul impulsurilor se realizează
prin intermediul unor substanţe chimice și nu prin curenți electrici. Acesta este cel mai des
întâlnit tip de sinapsă, numită sinapsă chimică.
Atunci când impulsul electric ajunge într-un buton terminal al axonului presinaptic,
acesta atrage ioni pozitivi de calciu care determină „vărsarea” în fanta sinaptică a unor
neurotransmiţători. Aceștia activează unii receptori în partea postsinaptică și determină
depolarizarea neuronului postsinaptic, adică potenţialul membranei devine pozitiv deoarece în
celulă intră ioni pozitivi de sodiu. Dacă depolarizarea atinge un anumit nivel, în celulă se propagă
un impuls nervos. Unii neurotransmiţători, dimpotrivă, fac ca neuronul postsinaptic să se
hiperpolarizeze, adică potenţialul membranei să devină negativ. Ionii negativi de clor intră în
celulă iar ionii pozitivi de potasiu ies din celulă. Acest fapt împiedică generarea unui impuls
electric. În primul caz, potenţialul sinaptic este excitator; în al doilea caz, este inhibitor. În scurt
timp după eliberarea în fanta sinaptică, neurotransmițătorii sunt dizolvați de enzime sau
reabsorbiți în butonii presinaptici, iar concentraţia de ioni revine la valoarea iniţială. Imediat
după generarea unui impuls urmează o așa-numită perioadă refractară, în care neuronul „se
încarcă” și nu se mai poate activa din nou. Abia apoi neuronul revine în starea de repaus și poate
genera un nou impuls.
Neuronii au un prag de depolarizare. Dacă potenţialul creat este mai mic decât acest prag,
neuronul postsinaptic nu se activează. Potenţialul creat de o sinapsă excitatoare este mult mai
mic decât pragul de depolarizare, prin urmare un impuls poate fi generat doar prin efectul
combinat al mai multor sinapse. Dintre miile de terminații sinaptice care sunt conectate la un
neuron, câteva sute sunt active simultan sau la intervale de timp suficient de apropiate ca efectele
lor să se poată însuma. Potenţialul membranar al neuronului postsinaptic este în fiecare moment
rezultanta activităţii tuturor sinapselor active în acel moment.
În Figura 2 se poate observa formațiunea denumită con de emergență al axonului. Acesta
este ultimul loc din corpul celular unde potenţialele din intrările sinaptice se sumează înainte de
a fi transmise axonului.
Neuronul respectă principiul totul sau nimic. Dacă depolarizarea nu este suficient de
puternică pentru a depăși pragul, canalele de ioni nu se deschid. Dacă depolarizarea depășește
pragul, canalele se deschid și se generează un impuls electric. Acesta este întotdeauna la fel de
mare, de exemplu 40 mV, fără valori intermediare. Intensitatea unui stimul este dată de frecvenţa
impulsurilor. Unui stimul mai puternic îi corespunde o frecvenţă mai mare. De exemplu, un stimul
de durere puternică poate avea o frecvenţă de până la 800 Hz.
Acest principiu poate fi descris prin analogie cu aprinderea unui fitil, care necesită o
anumită temperatură. Sub aceasta, fitilul nu se aprinde. Însă un chibrit cu o temperatură mai mare
decât pragul nu face fitilul să ardă mai repede, odată ce s-a aprins. În Figura 3 se prezintă un
impuls tipic, unde se pot vedea și valorile curenților propriu-ziși și ale pragului.
Figura 3. Impuls neuronal tipic
Un alt principiu biologic pe care se bazează o modalitate adaptivă de învăţare numită

învăţare hebbiană este acela că dacă un neuron activează în mod repetat alt neuron, apar
modificări fizice care cresc eficienţa acestei interacţiuni. Pe scurt, „neuronii care se activează
împreună se cablează împreună” (engl. “neurons that fire together wire together”). Cu alte cuvinte,
conexiunea dintre neuronii respectivi se întărește iar impulsurile se transmit mai ușor. De aceea,
dacă repetăm de suficient de multe ori o acţiune, ajungem să o realizăm în mod automat.
Perceptronul
Neuronul McCulloch-Pitts
Primul model matematic al unui neuron a fost propus de McCulloch și Pitts. Modelul este
prezentat în Figura 4.
Figura 4: Neuronul McCulloch-Pitts
Ieșirea este binară: neuronul este activat (1) sau nu (0), ceea ce îl face echivalent cu o
propoziţie logică, care poate fi adevărată sau falsă. Intrările sunt excitatoare (𝑎𝑖 ) sau inhibitoare
(𝑏𝑗 ). Aceste intrări sunt sumate direct și neuronul se activează dacă suma depășește un prag fix.
De asemenea, neuronul se activează doar dacă nu există intrări inhibitoare.
Funcţia de activare este următoarea:
𝑛
1, dacă ∑ 𝑎𝑖 ≥ 𝜃 și 𝑏𝑗 = 0, (∀𝑗) 𝑗 = 1,2, … , 𝑚

𝑐={
𝑖=1
0, altfel
Orice problemă care poate fi reprezentată sub forma unei funcţii logice poate fi modelată
de o reţea de neuroni McCulloch-Pitts deoarece orice funcţie booleană poate fi implementată
folosind doar operaţiile SAU (⋁), ŞI (⋀) și NEGAŢIE (¬). În Figura 5 sunt prezentate aceste funcţii
logice elementare.
Figura 5: Funcţii logice elementare implementate ca neuroni McCulloch-Pitts
Dificultatea principală a modelului constă în faptul că îi lipsește capacitatea de învăţare; pragurile

sunt determinate analitic. Pentru funcţii complexe, dimensiunea reţelei corespunzătoare este mare.
Perceptronul originar al lui Rosenblatt
Problema cea mai importantă pe care a încercat să o rezolve Rosenblatt este posibilitatea
de a învăța, o calitate esenţială a rețelelor neuronale biologice. Sistemul propus de el modela
sistemul vizual uman, de aceea s-a numit perceptron (Figura 6). Dintr-o imagine raster, valorile
pixelilor treceau prin niște conexiuni cu valori aleatorii, rezultând niște trăsături sintetice ale
imaginii. Aceste trăsături erau conectate la ieșire, prin modelul standard pe care îl vom discuta în
secţiunea următoare. Antrenând perceptronul cu o mulţime de imagini și ieșirile corespunzătoare,
sistemul putea învăța să clasifice imaginile.
Figura 6. Perceptronul originar al lui Rosenblatt
Problema principală a acestui model este că nu s-a reușit găsirea unei modalități de
determinare a parametrilor conexiunilor dintre imagine (echivalentul în model al retinei) și
stratul intermediar corespunzător trăsăturilor, ci doar dintre acesta și ieșire. Este ceea ce vom
prezenta în continuare.
Perceptronul standard
Perceptronul este un neuron cu mai multe intrări 𝑥𝑖 , fiecare conexiune de intrare având o
valoare numită pondere 𝑤𝑖 (engl. “weight”), care este o măsură a importanței acelei intrări, un
prag 𝜃 și o funcţie de activare semn sau treaptă. Structura sa generală este prezentată în Figura 7.
Se poate vedea analogia cu modul de funcţionare al unui neuron biologic, în care
semnalele de intrare sunt sumate iar neuronul generează un semnal doar dacă suma depășește
pragul.
Ieșirea perceptronului este dată de următoarea ecuaţie:
𝑛
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 − 𝜃)
𝑖=1
unde 𝐹 este funcția semn:
−1 dacă 𝑎 < 0
𝐹(𝑎) {
1, dacă 𝑎 ≥ 0
sau funcția treaptă:

0, dacă 𝑎 < 0
𝐹(𝑎) = {
1, dacă 𝑎 ≥ 0
Figura 7. Structura generală a perceptronului
Scopul perceptronului este rezolvarea problemelor de clasificare binară. Se dă o mulţime

de vectori de antrenare, care conţin valori pentru cele 𝑛 intrări și valoarea ieșirii dorite. Se
dorește determinarea ponderilor și pragului astfel încât modelul să clasifice corect toţi vectorii
de antrenare într-una din cele 2 clase, adică ieșirea perceptronului pentru un vector de intrare să
fie egală cu ieșirea dorită.
Pentru a înţelege semnificaţia parametrilor, să considerăm un perceptron cu o singură
intrare. În ecuaţiile funcție semn sau funcție treaptă se vede că dacă 𝑎 este pozitiv vectorul va fi
atribuit unei clase iar dacă este negativ, vectorul va fi atribuit celeilalte clase. Prin urmare,
separarea celor 2 clase este dată de o linie, care în cazul unidimensional are ecuaţia:
𝑤∙𝑥−𝜃 =0
Exemplu
Să considerăm următoarea situație:
1
𝑓(𝑥) = 𝑥 − 1
2
reprezentată în Figura 8(a). Pentru 𝑥 < 2, răspunsul va fi clasa −1/0, iar pentru 𝑥 ≥ 2
răspunsul perceptronului va fi clasa 1.
Mai întâi să vedem ce se întâmplă când pragul rămâne constant și se modifică ponderea. Fie
următoarea situaţie, în care ponderea s-a schimbat de la 0,5 la 2:
𝑓(𝑥) = 2𝑥 − 1
Comparând Figurile 8(a) și 8(b), se vede că panta diferă. Prin urmare, ponderea exprimă
panta dreptei. În figura 8(b), se vede cum punctul de intersecţie cu ordonata a rămas −1,
valoare dată de prag, însă datorită schimbării ponderii, punctul de separare s-a schimbat
din 2 în 0,5.
Acum să considerăm din nou prima situaţie, menținând ponderea la valoarea 0,5 dar
modificând pragul de la 1 la −1:
1
𝑓(𝑥) = 𝑥 + 1
2
Comparând Figurile 8(a) și 8(c) se vede că pragul a translat dreapta în sus, panta rămânând
aceeași. Punctul de separare s-a mutat în −2.
a)
b)
c)
Figura 8. Reprezentări geometrice ale unor decizii unidimensionale
În general, pentru cazul unidimensional, punctul de separare este, conform ecuaţiei:

𝜃
𝑤∙𝑥−𝜃 =0⇒𝑥 =
𝑤
În continuare, să considerăm un perceptron cu 2 intrări. Separarea celor 2 clase este dată
de o dreaptă cu ecuaţia:
𝑤1 𝜃
𝑤1 𝑥1 + 𝑤2 𝑥2 − 𝜃 = 0 ⇒ 𝑥2 = − 𝑥1 +
𝑤2 𝑤2
Ecuația este reprezentată în Figura 9.
Figura 9. Reprezentarea geometrică a deciziei bidimensionale
Pentru cazul bidimensional considerat, se observă că panta dreptei de separare este dată
de valoarea ponderilor. Dreapta de separare este întotdeauna perpendiculară pe dreapta definită
de origine și de punctul (𝑤1 , 𝑤2 ).
Pragul marchează deplasarea dreptei de separare faţă de origine. În general, distanţa de
la un punct la o dreaptă este:
|𝑎𝑥0 + 𝑏𝑦0 + 𝑐|
𝑑(𝑎𝑥 + 𝑏𝑦 + 𝑐 = 0, (𝑥0 , 𝑦0 )) =
√𝑎2 + 𝑏 2
iar în cazul nostru distanța de la origine la dreapta de separare este:
𝜃 𝜃
𝑑= =
2
√𝑤 + 𝑤 2 ‖𝑤‖
1 2
O observaţie importantă pe baza Figurilor 8 și 9 este că perceptronul poate învăța să
separe doar clase ale căror instanţe nu sunt intercalate, numite separabile liniar. În cazul
bidimensional, avem o dreaptă care împarte planul în două. De o parte a dreptei se află o clasă iar
de cealaltă parte se află cealaltă clasă. Dacă am fi avut 3 intrări, ar fi existat o suprafață de separare
care ar fi împărțit spaţiul în 2 regiuni. În cazul general 𝑛-dimensional, perceptronul definește un
hiperplan de separare.
Regula de învăţare a perceptronului
În ecuaţia:
𝑛
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 − 𝜃)
𝑖=1
care este ecuația de ieșire a perceptronului apar atât ponderile cât și pragul.
De fapt, acești parametri pot fi trataţi unitar, deoarece intrarea totală a neuronului
reprezintă până la urmă o sumă. De aceea, pentru a simplifica modelul de calcul, se consideră că
pragul definește încă o intrare a neuronului:
𝑛
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 − 𝜃) = 𝐹(𝑤1 𝑥1 + 𝑤2 𝑥2 + ⋯ + 𝑤𝑛 𝑥𝑛 + 𝜃 ∙ (−1))
𝑖=1
Considerând această intrare suplimentară ca fiind 1 în loc de −1, pragul va fi valoarea
negată a ponderii conexiunii respective. În acest mod, algoritmul de învăţare are ca scop doar
determinarea unor ponderi. Arhitectura perceptronului după aceste transformări este prezentată
în Figura 10.
Figura 10. Perceptronul: pragul poate fi considerat ponderea unei conexiuni suplimentare
Astfel, ieșirea este:

𝑛+1
𝑦 = 𝐹 (∑ 𝑤𝑖 𝑥𝑖 )
𝑖=1
Pentru a descrie regula de învăţare a perceptronului, vom utiliza următoarele notaţii. Fie
𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) un vector de intrare. Mulţimea de antrenare conține 𝑁 astfel de vectori. Pentru
vectorul 𝑥, 𝑦 este ieșirea calculată de perceptron iar 𝑦𝑑 este ieșirea dorită (corectă, cunoscută).
Fie 𝑤 = (𝑤1 , 𝑤2 , … , 𝑤𝑛 , 𝑤𝑛+1 ) vectorul de ponderi. Conform celor discutate anterior, 𝑤𝑛+1 = −𝜃.
Învăţarea are loc prin modificarea valorilor ponderilor pentru a reduce diferenţa dintre
ieșirile reale și ieșirile dorite, pentru toate datele de antrenare. Instanţele de antrenare se
prezintă la intrarea reţelei succesiv, calculându-se ieșirea reţelei și eroarea. Pe baza erorii se
ajustează ponderile. Prezentarea instanțelor se face iterativ, până se termină toată mulţimea de
antrenare. Prezentarea tuturor instanțelor reprezintă o epocă de antrenare. Apoi, dacă mai există
erori, procesul poate reîncepe cu o nouă epocă și continuă până când ieșirea perceptronului este
egală cu ieșirea dorită pentru toate instanţele de antrenare.
Dacă după prezentarea instanţei 𝑖 ieșirea reală este 𝑦𝑖 iar ieșirea dorită este 𝑦𝑑𝑖 , atunci
eroarea este:
𝑒𝑖 = 𝑦𝑑𝑖 − 𝑦𝑖
Dacă eroarea este pozitivă, trebuie să creștem ieșirea perceptronului 𝑦𝑖 . Dacă eroarea
este negativă, trebuie să micșorăm ieșirea 𝑦𝑖 .
Exemplu
Să considerăm problema de clasificare bidimensională definită de mulţimea de antrenare
din Tabelul 1, care ne va ajuta să înţelegem algoritmul de antrenare.
Intrări Ieșire dorită

1, 1 1
1, −1 0
Tabelul 1. Mulțime de antrenare
Vom folosi pentru perceptron funcţia treaptă, însă dacă problema era definită cu valori ale
clasei de −1 în loc de 0, se putea folosi funcţia semn fără alte modificări.
De asemenea, pentru a simplifica si mai mult lucrurile, vom ignora pragul. În această
situaţie, găsirea perechii de ponderi se rezumă la a găsi orientarea potrivită a unei drepte
care se poate roti în jurul originii.
Dacă vectorul de ponderi este 𝑤 = (−0,2, 0,1), ieșirile perceptronului pentru cei doi vectori
vor fi:
𝑦1 = 𝐹(−0,2 ∙ 1 + 0,1 ∙ 1) = 𝐹(−0,1) = 0
𝑦2 = 𝐹(−0,2 ∙ 1 + 0,1 ∙ (−1)) = 𝐹(−0,3) = 0
Primul vector nu este clasificat corect: 𝑦1 = 0 însă 𝑦𝑑1 = 1. Eroarea este 𝑒1 = 𝑦𝑑1 − 𝑦1 = 1.
Situaţia este reprezentată în Figura 11.
Figura 11. Procesul de învățare: ajustarea ponderilor (cazul 1)
Se vede că ambele puncte sunt sub dreapta de separare. Ecuaţia dreptei este:
𝑤1
𝑤1 𝑥1 + 𝑤2 𝑥2 = 0 ⇔ 𝑥2 = − 𝑥1
𝑤2
deci panta dreptei este:
𝑤1
−
𝑤2
Am dori să scădem panta dreptei, astfel încât să treacă printre cele două puncte. Întrucât
eroarea apare la primul vector, cel de sus, trebuie modificat 𝑤1 . Prin urmare, trebuie mărit
𝑤1 , de exemplu la valoarea 𝑤1 = −0,05, rezultând situaţia din Figura 12.
Acum ieșirile perceptronului vor fi:
𝑦1 = 𝐹(−0,05 ∙ 1 + 0,1 ∙ 1) = 𝐹(0,05) = 1
𝑦2 = 𝐹(−0,05 ∙ 1 + 0,1 ∙ (−1)) = 𝐹(−0,15) = 0
care sunt răspunsurile corecte.
Analog, dacă vectorul de ponderi este 𝑤 = (0,2 , 0,1), ieșirile perceptronului pentru cei doi
vectori vor fi:
𝑦1 = 𝐹(0,2 ∙ 1 + 0,1 ∙ 1) = 𝐹(0,3) = 1
𝑦2 = 𝐹(0,2 ∙ 1 + 0,1 ∙ (−1)) = 𝐹(0,1) = 1
adică dreapta trece pe dedesubtul vectorului al doilea. Eroarea acestuia este 𝑒2 = 𝑦𝑑2 −
𝑤
𝑦2 = 0 − 1 = −1. În acest caz, panta − 𝑤1 trebuie crescută și în consecinţă trebuie mărit 𝑤2 ,
2
să spunem până la 𝑤2 = 0,4.
Ieșirile perceptronului vor fi astfel:
𝑦1 = 𝐹(0,2 ∙ 1 + 0,4 ∙ 1) = 𝐹(0,6) = 1
𝑦2 = 𝐹(0,2 ∙ 1 + 0,4 ∙ (−1)) = 𝐹(−0,2) = 0
și răspund răspunsurilor corecte.
Să sintetizăm rezultatele:
➢ În primul caz, 𝑒1 > 0, 𝑥1 > 0 și diferenţa cu care am actualizat ponderea este Δ𝑤1 > 0.
➢ În al doilea caz, 𝑒2 < 0, 𝑥2 < 0 și diferența cu care am actualizat ponderea este Δ𝑤2 <
0.
Acum să considerăm exemplul rotit cu 180° în jurul originii, definind problema următoare
din Tabelul 2:
Intrări Ieșire dorită
−1, 1 0
−1, −1 1
Tabelul 2. Mulțime de antrenare
după cum se poate vedea în Figura 13.
Considerăm vectorul de ponderi 𝑤 = (0,2 , −0,1).

Ieșirile perceptronului pentru cei doi vectori vor fi:
𝑦1 = 𝐹(0,2 ∙ (−1) + (−0,1) ∙ 1) = 𝐹(−0,3) = 0
𝑦2 = 𝐹(0,2 ∙ (−1) + (−0,1) ∙ (−1)) = 𝐹(−0,1) = 0
Vectorul 2 are eroarea 𝑒2 = 𝑦𝑑2 − 𝑦2 = 1 − 0 = 1 > 0. Acum am dori să scădem panta
𝑤
dreptei − 𝑤1 astfel încât cele două puncte să fie separate, modificând 𝑤2 . Ponderea 𝑤2
2
trebuie să scadă. Pentru 𝑤2 = −0,3 , vom avea:
𝑦1 = 𝐹(0,2 ∙ (−1) + (−0,3) ∙ 1) = 𝐹(−0,5) = 0
𝑦2 = 𝐹(0,2 ∙ (−1) + (−0,3) ∙ (−1)) = 𝐹(0,1) = 1
ceea ce reprezintă o clasificare corectă.
În această situaţie avem 𝑒2 > 0, 𝑥2 < 0 și Δ𝑤2 < 0. La fel putem găsi o configurație în care
𝑒 < 0, 𝑥 > 0 și Δ𝑤 < 0.
Întrucât dorim să determinăm modul în care se schimbă ponderile, vom sumariza cele 4
cazuri în Tabelul 3.
𝑒 𝑥 Δ𝑤
>0 >0 >0
<0 <0 >0
>0 <0 <0
<0 >0 <0
Tabelul 3. Schimbarea ponderilor în funcție de semnele erorii și intrării
Se vede că semnul lui Δ𝑤 este produsul semnelor lui 𝑒 și 𝑥.

Cantitatea cu care trebuie să modificăm vectorul 𝑤 poate fi mai mare sau mai mică. În
general, neștiind care este valoarea exactă diferenței, folosim succesiv o serie de pași mici, până
este îndeplinită condiţia de eroare. În acest sens, se utilizează un număr 𝜂 ∈ (0, 1] numit rată de
antrenare, care indică mărimea pașilor făcuți pentru găsirea soluției.
Pentru modificarea ponderilor se utilizează ecuaţia:
Δ𝑤 = 𝜂 ∙ 𝑥 ∙ 𝑒
Aceasta este relaţia fundamentală care caracterizează regula de învăţare a perceptronului.
Teorema de convergență a regulii de învăţare a perceptronului arată că dacă o problemă
poate fi rezolvată (dacă este separabilă liniar), atunci algoritmul converge spre o soluţie într-un
număr finit de pași.
Perceptronul este cea mai simplă formă de reţea neuronală cu propagare înainte (engl.
“feed forward”), în care semnalele se propagă doar de la intrări spre ieșiri, fără bucle de reacţie.
El poate învăța tot ce poate reprezenta, dar nu poate reprezenta foarte mult. Întrucât majoritatea
problemelor interesante din viaţa reală nu sunt separabile liniar, aceasta este o deficiență majoră
a modelului , care a condus la scăderea interesului cercetării în domeniul rețelelor neuronale în
anii 70, până când a fost propusă o nouă arhitectură, perceptronul multistrat, cu un algoritm de
învăţare eficient, bazat pe retropropagarea erorii (engl. “backpropagation”).
De exemplu, este ușor ca perceptronul să învețe operaţii logice precum ŞI (Figura 14) sau
SAU (Figura 15), întrucât acestea sunt separabile liniar.
Figura 14. Soluție pentru problema logică ȘI
Figura 15. Soluție pentru problema logică SAU

Este de asemenea important de spus faptul că soluţia nu este unică, de exemplu pentru
problema ŞI o soluţie alternativă este cea din Figura 16.
Figura 16. Soluție alternativă pentru problema logică ȘI
Însă nu există nicio dreaptă care poate separa clasele operaţiei SAU-EXCLUSIV (engl.
XOR); această problemă nu este separabilă liniar (Figura 17).
Când clasele nu sunt separabile liniar, ponderile se modifică permanent pe parcursul
antrenării, într-o manieră aparent aleatorie. În general, este dificilă determinarea apriori a
separabilității liniare a unei probleme, pentru a ști dacă perceptronul va putea învăța funcţia
corespunzătoare.
Figura 17. Problema logică SAU-EXCLUSIV
Totuși, există și funcţii complexe separabile linear, de exemplu funcţia majoritate cu 𝑛

intrări, a cărei valoare este 1 dacă mai mult de jumătate dintre intrări sunt 1 și −1/0 altfel.
Perceptronul este un model foarte simplu care poate rezolva această problemă, pe când un arbore
de decizie ar necesita 𝑂(2𝑛 ) noduri pentru învăţarea sa.

Ia

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ia

Încărcat de

Drepturi de autor:

Formate disponibile

Inteligență artificială Matematică

Modelul supervizat de învățare din date

1) Cei trei actori

apărute și care sunt dincolo de scopul principiului inductiv. De exemplu, principiul

Teoria inferenței inductive (nedeductive)

➢ Alegerea unei ipoteze care să minimalizeze riscul empiric (Empirical Risk

➢ Alegerea celei mai probabile ipoteze în baza eșantionului considerat (principiul

Figura 1. Spațiul de ipoteze ℋ este modificat a priori în sensul densității de probabilitate.

Astfel, se poate alege fie principiul probabilității maxime – Maximul A posteriori

➢ Alegerea unei ipoteze care să concentreze pe cât posibil în mod cuprinzător

Modul de analiză a procesului de învățare

Performanța unei LM, care depinde de principiul inductiv selectat și de algoritmul de

Există astfel trei posibilități:

1) Analiza cazurilor cele mai nefavorabile

2) Analiza cazurilor cele mai obișnuite

3) Analiza cazurilor binevoitoare

Validitatea condiţiilor aferente principiului de minimalizare a riscului

Să ne reamintim că un proces de învățare constă în a găsi o ipoteză ℎ astfel încât să se

ℎ∗ = ArgMin ℛ𝑟𝑒𝑎𝑙 (ℎ)

ℎ̂𝑠 = ArgMin ℛ𝑒𝑚𝑝 (ℎ)

Această corelație va lua în considerare două aspecte:

(∀𝜀, 𝛿) 𝜀 ≥ 0, 𝛿 ≤ 1, 𝑃(|𝑅𝑟𝑒𝑎𝑙 (ℎ̂𝒮 ) − 𝑅𝑟𝑒𝑎𝑙 (ℎ∗ )| ≥ 𝜀) < 𝛿

(∀𝜀, 𝛿) 𝜀 ≥ 0, 𝛿 ≤ 1, (∃𝑚) astfel încât 𝑃(|𝑅𝑟𝑒𝑎𝑙 (ℎ∗ ) − 𝑅𝑟𝑒𝑎𝑙 (ℎ̂𝒮𝑚 )| ≥ 𝜀) < 𝛿

Figura 2. Dezideratul de convergență dintre riscul real și cel empiric

Definiție. Consistența principiului ERM. Se spune că principiul ERM este consistent

Figura 3. Consistența principiului ERM

Compromisul deplasare-împrăștiere (The bias-variance trade-off)

Compromisul deplasare-împrăștiere exprimă efectul unor factori diferiți asupra erorii

Vom nota 𝒮 = {𝑧1 = (𝑥1 , 𝑢1 ), 𝑧2 = (𝑥2 , 𝑢2 ), … , 𝑧𝑚 = (𝑥𝑚 , 𝑢𝑚 )} eșantionul de antrenare

• Prima sursă de eroare o constituie faptul că nimic nu poate garanta postularea a

• O a doua sursă de eroare provine din faptul că în general LM nu poate să selecteze

• O a treia sursă de eroare se referă la așa numitele perturbații (noise) de etichetare,

Fiind date aceste circumstanțe, compromisul deplasare-împrăștiere poate fi definit în

Evaluarea compromisului deplasare-împrăștiere și analiza principiului ERM au demonstrat

Cu alte cuvinte, inducția supervizată întotdeauna prezintă riscul suprapotrivirii (over-

Reglarea clasei de ipoteze (tuning the hypothesis class)

 Metodele de selecție a modelelor

 Metodele de regularizare (regularization methods)

Toate aceste metode prezentate conduc în general la îmbunătățiri notabile ale

Metoda de selecție a modelelor

Să considerăm secvența ierarhică a spațiilor (claselor) de ipoteze considerate ca modele:

Definiție. Metoda selecției modelelor constă în a alege, pe baza unui eșantion de

Astfel, metoda selecției modelelor se reduce la rezolvarea următoarei ecuații:

Estimarea riscului real

• primul grup notat cu 𝐴 este folosit pentru a proba ipoteza ℎ;

Avem următoarele relații:

Funcția 0-1 loss este definită după cum urmează:

În aria LM, specific în cea a problemelor clasificării statistice, o matrice a erorilor

Estimarea prin intervalul de încredere

Funcția 𝜉(𝑥) are în particular următoarele valori:

Estimarea ratei reale de eroare pe un eșantion de testare 𝑇, independent de eșantionul de

Estimarea prin validare încrucișată

Conceptul validării încrucișate (𝑁-fold cross validation) constă în:

1) împărțirea eșantionului de date 𝒮 în 𝑛 subeșantioane de dimensiuni egale;

Valoarea finală a erorii este dată de valoarea medie a erorilor măsurate:

Estimarea prin variante ale metodei de validare încrucișată: bootstrap, jackknife

Aceste tehnici diferă de precedentele în modul de utilizare a eșantionării prin înlocuire,

𝑅̂𝑟𝑒𝑎𝑙 (ℎ) = 0,636𝑃̅1 + 0,368𝑃̅2

Pentru seturi mici de exemple, metoda bootstrap determină o estimare remarcabil de

Adaptarea algoritmilor prin intermediul unui set de validare

• alegerea principiului inductiv;

• alegerea unui spațiu de ipoteze, care depinde în parte de algoritmul selectat;

În general operatorul testează câteva metode pe problema de învățare existentă pentru a