Nolfi RetiNeurali

GIORNALE ITALIANO DI PSICOLOGIA / a.
XX, febbraio - 15-50
RETI NEURALI: ALGORITMI DI APPRENDIMENTO, AMBIENTE DI APPRENDIMENTO, ARCHITETTURA
DARIO FLOREANO E STEFANO NOLFI

Universit di Trieste e C.N.R. Roma
Riassunto. Le reti neurali sono state viste per lungo tempo come una specie di scatola magica in grado di apprendere a svolgere compiti molto complessi (per cui il classico approccio dei sistemi a regole non era idoneo) e produrre risultati sorprendenti. Negli ultimi anni, invece, lobiettivo principale del lavoro di ricerca in ambito connessionista quello di comprendere meglio il comportamento dei vari tipi di reti neuronali sviluppati. Alcuni fattori: architettura della rete; condizioni iniziali delle sinapsi; interazione attiva con lambiente esterno, che precedentemente erano stati poco approfonditi, sono attualmente studiati con molta attenzione. Tale tendenza ha favorito un pi stretto confronto dei modelli sviluppati con reti neurali artificiali con i risultati ottenuti allinterno delle discipline biologiche (in particolare la psicologia, la neurofisiologia e la biologia evoluzionista ect.).
INTRODUZIONE
A partire dal 1962 con il lavoro di Rosenblatt sul percettrone sono stati sviluppati un gran numero di algoritmi di apprendimento per reti neurali come, ad esempio, le reti basate sulla regola hebbiana, le reti autoassociative di Hopfield, le reti addestrate tramite back-propagation, la macchina di Boltzmann, le reti di Kohonen. Essi hanno trovato applicazione in molti campi della ricerca scientifica, dalle applicazioni ingegneristiche e robotiche ai modelli predittivi in psicologia. Le reti neurali sono state viste per lungo tempo come una specie di scatola magica in grado di apprendere compiti molto complessi (per cui il classico approccio dei sistemi a regole non era idoneo) e produrre risultati sorprendenti. Negli ultimi cinque anni il lavoro in ambito connessionista ha subito una specie di pausa di riflessione. Innanzitutto si cominciato a cercare di sviluppare nuovi strumenti di analisi per studiare il comportamento dei vari tipi di reti neuronali. In secondo luogo, ci si accorti che molti tipi di reti neuronali svolgono operazioni simili o identiche a quelle utilizzate da lungo tempo in statistica matematica per i compiti di segmentazione di immagini, riconoscimento di pattern e categorizzazione di dati. Infine, alcune delle promesse che facevano parte dellentusiasmo iniziale, come la costruzione di robot intelligenti o laccelerazione della comprensione del funzionamento del cervello, non si sono ancora concretizzate. Nel contempo molti ricercatori si sono occupati di comprendere meglio il significato delluso delle reti neurali nel proprio campo di ricerca. In psicologia, soprattutto, ci si resi conto che non possibile considerare una qualsiasi rete neurale standard come un algoritmo di apprendimento tradizionale per cercare di spiegare fenomeni cognitivi, percettivi e motori. In effetti, una rete multistrato addestrata con back-propagation e
dotata di un sufficiente numero di unit nascoste in grado di apprendere qualsiasi funzione (teorema di Kolmogorov). Questo non significa che essa rappresenti un modello valido dei processi neurofisiologici o delle procedure che sottostanno la capacit simulata. fondamentale comprendere invece quale sia la rappresentazione pi idonea per gli stimoli di ingresso, in quale ordine e frequenza essi debbano essere presentati, se il compito venga appreso sfruttando conoscenze gi esistenti, etc. La necessit di unapplicazione ecologica del connessionismo alla psicologia trova riscontro nel fatto che negli ultimi cinque anni i lavori pi significativi nellambito delle reti neurali non concernono tanto lo sviluppo di nuovi algoritmi di apprendimento quanto lo studio di quei fattori (architettura della rete, condizioni iniziali delle sinapsi, interazione attiva con lambiente esterno) che precedentemente erano stati meno approfonditi. In questo articolo cercheremo di passare in rassegna questa letteratura cercando di fornirne una visione sintetica e di metterne in evidenza le implicazioni per quei ricercatori che lavorano al di fuori di questa comunit scientifica.
RETI NEURALI NATURALI E ARTIFICIALI
Le reti neurali consistono di molti semplici elementi che integrano linformazione proveniente da altri elementi simili (o dallambiente esterno) e, a loro volta, comunicano il risultato di tale operazione ad altri elementi ancora. Una rete neurale dunque composta da unit, o nodi, e canali di comunicazione, e linformazione contenuta in essa ad un dato istante data dal pattern di attivazione dei vari nodi distribuiti nella rete. Una caratteristica molto importante di tutte le reti neurali la presenza di convergenza e divergenza: ciascun nodo riceve informazione da molti altri nodi e a sua volta comunica il proprio stato ad altri nodi. Un primo risultato ditale organizzazione lelaborazione parallela dellinformazione e una potenziale complessit della connettivit tra gli elementi. Lunit di base, nodo o neurone, tradizionalmente definita come un semplice processore che integra linformazione proveniente da altri elementi e compie su di essa una semplice operazione in funzione della quale pu restare inattivo o attivarsi. Fino a qui non c stato bisogno di distinguere tra reti neurali biologiche e artificiali in quanto entrambe condividono le propriet sopra esposte; tuttavia le reti neurali artificiali spesso non si attengono alla realt biologica in molti loro aspetti e i nodi possono essere definiti a buon ragione una caricatura del neurone reale in quanto ne semplificano estremamente il funzionamento.
Il neurone biologico Il neurone tipicamente rappresentato nelle reti neurali artificiali la cellula piramidale (figura 1): essa composta da un corpo cellulare, un albero dendritico e un lungo assone. Il corpo della cellula (di forma triangolare, da cui il nome) rivestito da un membrana che contiene molti canali microscopici che permettono la comunicazione di ioni positivi e negativi tra linterno e lesterno della cellula. La misura in cui questi canali sono aperti o chiusi dipende da un certo numero di fattori, il pi importante dei quali linput che la cellula riceve da altri neuroni. I dendriti ricevono i segnali dagli altri neuroni attraverso le sinapsi con le terminazioni degli assoni di altri neuroni; tutti questi input vengono combinati (integrati) e trasmessi lungo lalbero dendritico al corpo cellulare. Alcuni input sono eccitatori mentre altri sono inibitori e il risultato dellintegrazione, assieme alle caratteristiche del neurone stesso, determina che tipo di segnale verr trasmesso dal neurone. Se la cellula viene fortemente inibita, nessun segnale verr trasmesso; se essa invece viene eccitata oltre una certa soglia, un segnale viene trasmesso lungo lassone ad altri neuroni. Questo segnale formato da una serie di brevi impulsi elettrici che vengono emessi tanto pi frequentemente quanto pi la cellula viene eccitata; la frequenza pi alta corrisponde a circa 500 impulsi per secondo, ma in genere corrisponde a circa 100-250 impulsi per secondo. Se il neurone non viene specificatamente eccitato o inibito, esso mostra comunque unattivit spontanea di circa 10 impulsi per secondo. Una componente fondamentale del neurone sono le sinapsi: esse sono piccole regioni locali dove il segnale viene trasmesso dallassone di un neurone al dendrite di un altro neurone. Il numero di sinapsi per neurone varia da poche centinaia ad alcune migliaia e la forza o efficacia di trasmissione del segnale varia da sinapsi a sinapsi; quindi il valore del segnale ricevuto dipende sia dal valore dellimpulso proveniente dallassone che dallefficacia di trasmissione della sinapsi. Lefficacia sinaptica modificabile sia temporaneamente che permanentemente e molta parte dellattuale ricerca neurofisiologica si occupa di stabilire in base a quali condizioni
tali modificazioni avvengono. Lefficacia sinaptica gioca infatti un ruolo cruciale nellapprendimento e nella memoria. Il neurone artificiale Gli elementi base delle reti neurali artificiali vengono chiamati anchessi neuroni, o unit, e ad essi associato un valore di attivazione che viene rappresentato come un valore numerico. Tale valore di attivazione determinato dai segnali che ciascuna unit riceve in ingresso dalle connessioni sinaptiche e dalla funzione di attivazione. Il segnale che viene trasmesso dipende dal valore del peso sinaptico associato alla connessione tra le due unit. Cos come per il valore di attivazione delle unit, anche lefficacia delle connessioni sinaptiche viene rappresentata da un valore numerico che positivo nel caso di sinapsi eccitatorie e negativo nel caso di sinapsi inibitorie.
FIG. 2. Rete neutrale artificiale.
Le reti neurali artificiali Una rete neurale riceve un input e produce un output. Sia input che output sono rappresentati dallo stato di attivazione di alcune unit, rispettivamente le unit di ingresso e le unit di uscita. Questo significa che gli stimoli sensoriali che una rete neurale artificiale riceve sono rappresentati da un vettore numerico e, analogamente, le risposte che essa fornisce sono rappresentate dallinsieme dei valori di attivazione delle unit di output. Il comportamento di una rete neurale, cio il tipo di risposte agli stimoli che essa produce, determinato da una serie di fattori.
La regola di attivazione che, come abbiamo visto nel paragrafo precedente, determina il valore di attivazione di una unit in base al segnale totale che essa riceve dalle altre unit. I pesi sinaptici, che determinano quanta attivazione o inibizione ciascuna unit in grado di trasferire alle altre unit con le quali connessa. La topologia, o architettura della rete, che specifica il numero di unit e il modo in cui tali unit sono connesse tra di loro. raro che le reti neurali siano totalmente connesse (cio che ogni unit comunichi e riceva informazione da tutte le altre unit ed eventualmente anche da se stessa); di solito le unit sono disposte in modo gerarchico: vi uno strato di nodi che riceve input dallambiente, alcuni strati di unit che ricevono informazione dallo strato di input e proiettano la propria attivazione a uno strato di nodi di output. Vari tipi di modifiche possono rendere questo schema pi complesso, come ad esempio la connessione tra i nodi di uno stesso strato, la proiezione diretta da input ad output, il feedback dalle unit di output a quelle di input, ecc. Infine, la dinamica temporale, ossia quando vengono aggiornati i valori di attivazione delle diverse unit.
GLI ALGORITIMI DI APPRENDIMENTO
Nel paragrafo Le reti neurali artificiali abbiamo descritto i fattori che determinano il comportamento di una rete neurale. Affinch una rete neurale si comporti nel modo desiderato necessario che tali fattori (funzione di attivazione, pesi sinaptici, architettura della rete e dinamica temporale) vengano specificati nel modo corretto. Per ottenere ci si pu procedere in due modi distinti: si pu decidere il valore ditali fattori a priori (attraverso una analisi del comportamento che si vuole ottenere o cercando di emulare le caratteristiche di un sistema nervoso naturale che si vuole simulare) oppure si pu cercare di approssimare dei valori corretti per tali fattori attraverso un processo di apprendimento. Il modo in cui di norma vengono costruite le reti neurali artificiali un modo ibrido nel senso che alcuni fattori (la funzione di attivazione, la dinamica temporale e larchitettura della rete) vengono stabiliti a priori in base alle conoscenze e agli obiettivi dello sperimentatore, altri fattori (di solito solo i valori dei pesi sinaptici) vengono approssimati attraverso un processo di apprendimento. Tutti gli algoritmi di apprendimento che descriveremo in questa sezione modificano esclusivamente i pesi sinaptici e prevedono che gli altri fattori vengano definiti a priori dallo sperimentatore. Nellultimo paragrafo descriveremo invece degli algoritmi in grado di selezionare anche larchitettura della rete attraverso un processo di apprendimento. Le procedure attraverso le quali questi fattori vengono determinati vengono dette algoritmi di apprendimento e in generale esse operano mutando progressivamente i valori di alcuni fattori in modo tale che loutput della rete evolva da uno stadio iniziale casuale o indifferenziato a uno stadio finale in cui approssimi un output richiesto (specificato in modo pi o meno generale a seconda dei casi). importante osservare che ciascun algoritmo di apprendimento pu essere applicato esclusivamente ad una certa classe di architetture di rete che utilizzino una determinata funzione di attivazione e una certa dinamica temporale. Di conseguenza la scelta di utilizzare un certo algoritmo di apprendimento pu comportare una serie di vincoli sulle
scelte degli altri fattori che determinano il comportamento della rete e che vengono scelti dallo sperimentatore. Le regole hebbiane Nel 1949 lo psicologo canadese Donald Hebb afferm che le leggi del condizionamento classico erano delle propriet di funzionamento dei singoli neuroni. In sostanza egli sosteneva che se due neuroni collegati fra di loro fossero stati attivi contemporaneamente, lefficacia sinaptica della connessione sarebbe stata automaticamente rinforzata. Questo avrebbe comportato che, ogni volta che uno dei due neuroni fosse stato attivato, anche laltro neurone sarebbe stato attivato. La regola di Hebb pu essere facilmente applicata ad una rete neurale artificiale, ove i pesi delle connessioni sinaptiche abbiano valore iniziale 0, e loutput delle unit sia dato da una funzione a gradino (lunit attiva se la somma algebrica dei segnali di ingresso maggiore di zero e rimane inattiva se tale somma minore o uguale a zero). Alcune modifiche a questa regola sono state proposte successivamente da diversi autori, ma esse vengono tutte tradizionalmente definite regole di Hebb in quanto la modifica dei valori sinaptici dipende da due variabili: 1) lo stato di attivazione dellunit presinaptica (lunit che manda il segnale); 2) lo stato di attivazione dellunit postsinaptica (lunit ricevente). Nella regola postsinaptica, anche detta regola di StentSinger (dal nome degli Autori che ne hanno dimostrato la plausibilit biologica; vedi Stent, 1973 e Singer, 1987), il valore della connessione viene incrementato ogni volta che lunit post-sinaptica e lunit presinaptica sono entrambe attive, ma viene decrementato ogni volta che lunit postsinaptica attiva e quella presinaptica inattiva. Nella regola presinaptica, invece, il valore del peso sinaptico viene incrementato quando sia lunit presinaptica che quella postsinaptica sono attive, ma viene decrementato quando lunit presinaptica attiva e quella postsinaptica inattiva. Queste regole possono essere applicate a due tipi di reti neurali: le reti autoassociative e le reti associative. Le reti autoassociative sono reti che ricevono un pattern o stimolo in ingresso e sono in grado di conservarlo e riprodurlo in uscita. Le reti associative associano pattern di input con pattern di output. Le regole hebbiane applicate a reti autoassociative Le reti autoassociative che utilizzano regole hebbiane sono composte da un solo strato di unit in cui ciascuna unit connessa con tutte le altre unit. La loro funzione principale quella di apprendere, memorizzare e ricostruire pattern di attivazione. Un pattern viene presentato alle unit e i pesi sinaptici vengono modificati utilizzando una delle regole sopra esposte; quindi un altro pattern viene presentato e nuovamente i pesi sinaptici vengono modificati. Alla fine dellapprendimento i pesi vengono congelati (non vengono pi modificati). A questo punto se viene presentata alla rete una versione indebolita di un pattern, o una parte di esso, la rete in grado di ricostruire la versione originale del pattern dopo un certo numero di cicli in cui viene propagata lattivazione. Questi tipi di reti presentano alcune caratteristiche interessanti perch sono in grado di ricostruire la versione originale di un input degradato; inoltre il loro modo ciclico di
funzionamento fa s che un pattern continui ad essere mantenuto attivo anche quando linput viene rimosso. La matrice di connessioni pu essere vista come una memoria distribuita a lungo termine dei pattern appresi; essa fornisce automaticamente un meccanismo per mantenere nella memoria a breve termine (lo stato di attivazione delle unit) i pattern familiari (Orchard e Philips, 1991). A seconda del tipo di regola utilizzata queste reti sono inoltre in grado di estrarre il prototipo di una classe di pattern, di evocare il pattern pi simile a un nuovo pattern e di ricostruire un pattern presentato assieme a del rumore (alcuni bit del pattern sono cambiati casualmente). Le reti autoassociative presentano un notevole interesse per i neurofisiologi in quanto una struttura simile stata trovata nellarea CA3 dellippocampo, una zona subcorticale del cervello che riceve input da tutte le zone sensoriali e proietta verso quasi tutte le zone della corteccia cerebrale. Molti ricercatori sospettano che lippocampo sia una struttura fondamentale per la memoria in tutti i mammiferi. Inoltre recenti studi sullippocampo di ratti hanno rivelato lesistenza di regole pseudo-hebbiane nella modifica delle efficacie sinaptiche (Kelso et al., 1986; vedi anche Stanton e Sejnowski, 1989). Negli ultimi sei anni le regole hebbiane di cui sopra sono state riscontrate negli studi sulla plasticit sinaptica del cervello dei mammiferi (vedi inoltre Artola et al., 1990; Yang e Faber, 1991). La plausibilit biologica e le caratteristiche delle reti autoassociative hanno riscosso quindi un rinnovato interesse da parte di psicologi, neurofisiologi e ingegneri (Willshaw e Dayan, 1990). Le regole hebbiane applicate a reti associative Le reti associative che utilizzano regole hebbiane per lapprendimento dei pesi sinaptici sono costituite da due strati di unit, uno strato di input e uno strato di output. Ciascuna unit di input connessa con tutte le unit di output, ma non vi sono connessioni fra le unit di uno stesso strato, n fra le unit di output e quelle di input: una topologia di questo tipo viene tradizionalmente definita feed-forward. Utilizzando le regole hebbiane possibile associare pattern diversi tra di loro con un unico pattern (che pu essere indicativo di una categoria, o un prototipo o semplicemente un altro pattern). Per addestrare la rete ciascun pattern di input viene presentato assieme al pattern di output corrispondente una sola volta e i valori delle connessioni vengono mutati a seconda della regola scelta. In fase di test solamente il pattern di input viene presentato e la rete produce il corrispondente pattern in output (queste reti associative non hanno un comportamento ciclico come le reti autoassociative descritte nel paragrafo precedente, bens sono in grado di produrre il pattern corretto in output in un solo ciclo). Tutte le regole di Hebb associano i pattern di input e di output in base alla correlazione tra le unit attive, o in base alla probabilit condizionale che ununit sia attiva in un pattern data unaltra unit attiva nellaltro pattern. Esse dimostrano capacit di calcolo utili e interessanti, ma non riescono ad associare qualsiasi coppia di pattern (vedi McClelland e Rumelhart, 1988, pag. 85 per un esempio).
La riduzione dellerrore Nei successivi paragrafi descriveremo alcuni tipi di reti neurali che sono addestrate in modo supervisionato. Nellapprendimento supervisionato loutput della rete viene confrontato con la risposta desiderata e i pesi sinaptici vengono modificati in base a questo confronto; esso viene talvolta definito anche apprendimento insegnato, poich si presuppone la presenza di un insegnante che dice alla rete quali sono le risposte corrette. Le regole di apprendimento supervisionato vengono generalmente applicate a reti con strati di input e di output separati e fanno uso di una lista di coppie di pattern di inputoutput (training set) per addestrare i pesi sinaptici. Nella fase di test si possono utilizzare pattern di input non presenti nel training set per osservare se la rete riesce a generalizzare correttamente quello che ha imparato. Queste reti vengono utilizzate per compiti di tipo associativo o etero-associativo (i pattern di input sono diversi dai pattern di output); una classe particolarmente importante di compiti eteroassociativi consiste nei problemi di classificazione, ove i pattern di input devono venire suddivisi in un certo numero di categorie di output. Lidea base di questo tipo di algoritmi di apprendimento che un modo efficiente per correggere i pesi sinaptici di una rete quello di utilizzare una misura di errore (distanza) tra loutput fornito dalla rete e loutput corretto; i valori dei pesi sinaptici vengono quindi modificati in proporzione allerrore delle unit di output. Allinizio dellapprendimento i pesi sinaptici assumono piccoli valori casuali che generano quindi un output casuale per ciascun pattern di input del training set. Ogni volta che un pattern di input viene presentato, le unit di output producono una risposta che viene confrontata con la risposta desiderata; lerrore viene quindi utilizzato per modificare i pesi sinaptici. Tutti i pattern del training set vengono presentati pi volte fino a quando la rete produce la risposta corretta o riduce lerrore medio al di sotto di un certo valore. Il percettrone Il percettrone (Rosenblatt, 1962; Minsky e Papert, 1969) un tipo di rete neurale con due strati di unit, uno di input e uno di output con unit a soglia (come ad esempio la funzione a gradino) ove ciascuna unit di ingresso connessa con ciascuna unit di uscita. Esso viene addestrato attraverso un algoritmo di apprendimento supervisionato. La funzione di attivazione delle unit di uscita. Questo tipo di rete neurale, che pu essere usata per compiti associativi o eteroassociativi, stata molto studiata. Si pu dimostrare analiticamente che questo tipo di modello in grado di trovare la configurazione di pesi sinaptici in grado di produrre le risposte desiderate per ciascuno stimolo a patto che una tale configurazione di pesi sinaptici esista e che gli stimoli in ingresso siano linearmente separabili (cio se possibile dividerli tracciando una linea o un piano nello spazio in cui essi sono distribuiti; si veda Minsky e Papert, 1969).
stimolo classe A stimolo classe B

FIG. 3. La figura mostra il caso di un percettrone con due unit di ingresso e una di uscita. Le due unit di ingresso codificano le coordinate dello stimolo rispetto al piano bidimensionale, lunit di uscita codifica il tipo di stimolo. Il compito di tale percettrone quello di classificare gli stimoli di ingresso in due classi distinte. Due insiemi di stimoli vengono presentati. Il primo insieme di stimoli distribuito in modo tale che gli stimoli delle due classi, distribuiti in uno spazio bidimensionale, possano essere separati da una linea (il percettrone in grado quindi di apprendere a discriminare le due classi). Nel secondo insieme invece gli stimoli delle due classi non possono essere separati da una linea (di conseguenza il percettrone non pu essere in grado di discriminarli correttamente).
La delta rule Se le unit di output possono assumere valori continui possibile utilizzare una funzione di errore che misuri le prestazioni della rete in base a una funzione differenziabile della variazione dei pesi sinaptici. Di conseguenza, mentre nel caso delle unit a soglia una risposta pu essere considerata solo come corretta o errata e tutti i pesi vengono modificati nello stesso modo, nel caso in cui le unit di output possono assumere valori continui possibile modificare i pesi sinaptici in modo diverso a seconda che un certo input provochi una risposta completamente sbagliata o quasi corretta. La delta rule o regola di Widrow-Hoff dal nome degli inventori (1960), o ADALINE (ADAptive LInear NEurons) prevede appunto delle unit di output la cui attivazione pu assumere valori continui (non solamente zero e uno). La modifica dei pesi sinaptici viene fatta in proporzione inversa al gradiente di discesa dellerrore; intuitivamente questo corrisponde al dire che quanto pi un peso fa scendere lerrore, tanto meno deve essere modificato. La formulazione di questa regola di apprendimento quasi identica al modello del condizionamento classico formulato da Rescorla-Wagner nellambito della psicologia comportamentista (Rescorla e Wagner, 1972). Possiamo immaginare una rete neurale in un particolare istante dellapprendimento come un punto in un ipotetico spazio multidimensionale con un numero di dimensioni pari al numero di connessioni della rete. Ad ogni punto di tale spazio (ovvero a ogni configurazione di pesi) corrisponde un certo valore di errore (possiamo immaginare linsieme di questi valori come una superficie in una dimensione addizionale, la superficie dellerrore relativa al compito dato). Si pu dimostrare analiticamente che un percettrone, sia con unit di output a soglia, sia con unit di output che possono assumere valori continui ma lineari, in grado di spostarsi in questo spazio fino a raggiungere il minimo globale, cio fino a trovare il punto dello spazio che corrisponde
alla configurazione di pesi che genera lerrore pi basso di tutte le possibili combinazioni. Tale processo di discesa sulla superficie dellerrore viene detto discesa di gradiente (gradient descent). Non esiste invece una dimostrazione analitica di convergenza verso il minimo globale per percettroni con unit di output che usano funzioni di attivazione non lineari (come ad esempio la funzione sigmoide o quella arcotangente). In questo caso infatti esistono anche minimi locali in cui la rete pu eventualmente stabilizzarsi. Un minimo locale dato da una certa configurazione dei pesi sinaptici che non corrisponde al miglior punto in assoluto dello spazio dei pesi (in termini di errore globale) ma al miglior punto della zona locale dello spazio intorno al punto stesso. Fino a qui abbiamo analizzato solamente reti feed-forward a due strati: uno strato di ingresso e uno strato di uscita. Infatti qualsiasi rete con pi di due strati di unit lineari esegue dei calcoli eguali a quelli eseguiti da una rete a due soli strati (perch una trasformazione lineare di una trasformazione lineare uguale a unaltra singola trasformazione lineare) e quindi soffre delle stesse limitazioni (indipendenza lineare dei pattern). Luso di unit a funzione non-lineare permette invece di andare oltre queste restrizioni, quando applicate a reti con pi di due strati di unit. Back-propagation Le limitazioni dei semplici percettroni (separabilit lineare e indipendenza lineare degli stimoli dingresso) non si applicano alle reti feed-forward che possiedono uno o pi strati di unit nascoste (hidden units) tra gli strati di ingresso e di uscita. Sebbene le grosse capacit delle reti multistrato fossero note gi 30 anni fa, solamente di recente sono stati trovati gli algoritmi di apprendimento idonei. Lassenza di regole di questo tipo e la dimostrazione che i semplici percettroni sono limitati a compiti linearmente separabili (Minsky e Papert, 1969) distolse linteresse e i finanziamenti economici a questo campo di ricerca per quasi 15 anni (1970-1985 circa). Nel 1986 Rumelhart, Hinton e Williams proposero un algoritmo per far apprendere reti feed-forward multistrato con unit non-lineari: essi chiamarono questa regola Backpropagation of error (propagazione allindietro dellerrore) in quanto i pesi sinaptici comunicano lerrore delle unit superiori a quelle inferiori durante la fase di correzione dei valori. Va detto che una soluzione simile era gi stata trovata a pi riprese negli anni precedenti (Bryson e Ho, 1969; Werbos, 1974; Parker, 1985; Le Cun, 1985). Il principio di funzionamento della back-propagation semplicemente la discesa del gradiente dellerrore tramite la modifica dei pesi sinaptici. La funzione di attivazione comunemente usata per le unit nascoste e quelle di output la funzione logistica, o sigmoidale, anche se altre funzioni ad incremento monotonico (come tanh) possono essere usate. Lerrore sulle unit di output viene calcolato semplicemente confrontando loutput desiderato (teaching input) con loutput realmente prodotto dalla rete cos come viene calcolato nel percettrone. Il punto cruciale della back-propagation sta nel calcolo del termine delta per le unit nascoste: esso non altro che lerrore delle unit di output trasportato allindietro dalle connessioni sinaptiche e moltiplicato per la derivata prima della funzione di output di ciascuna unit nascosta. Questo metodo ricorsivo: esso pu essere applicato a un qualsiasi numero di strati di unit nascoste.
10
La back-propagation fa s che la rete diminuisca lerrore globale durante le iterazioni di apprendimento (quasi tutti i testi riportano la dimostrazione della discesa del gradiente in back-propagation: una delle dimostrazioni pi chiare secondo noi quella offerta in McClelland e Rumelhart, 1986b). Tuttavia questo non garantisce che il minimo globale venga raggiunto. La presenza delle unit nascoste e la non-linearit della funzione di output fa s che il paesaggio della superficie dellerrore allinterno dello spazio multidimensionale dei pesi sinaptici sia molto complesso e abbia molti minimi locali. Esso si distribuisce su di un iperspazio (il cui numero di dimensioni dato dal numero di pesi sinaptici) e pu presentare larghe vallate, burroni profondi e stretti, vasti altipiani e a volte strutture frattaliche e speculari. Sebbene sia molto difficile viaggiare in un paesaggio del genere, va anche detto che, dato il grande numero di dimensioni, la maggior parte dei minimi locali ha spesso anche molte vie di uscita. Da un punto di vista geometrico queste reti riescono a risolvere compiti non linearmente separabili; ciascuna delle unit nascoste individua infatti un iperpiano che isola una certa categoria di pattern permettendo alle unit di output di fornire la risposta corretta nella maggior parte dei casi. In figura 4 viene mostrato come il semplice compito di classificazione illustrato nella figura 3 in cui gli stimoli di ingresso non sono linearmente separabili possa essere risolto da una rete multistrato.
stimolo classe A stimolo classe B

FIG. 4. Gli stimoli di ingresso delle due classi, distribuiti in un piano bidimensionale, non sono separabili tracciando una sola linea. Gli stimoli delle due classi tuttavia possono essere separati tracciando un certo numero di linee (in questo caso almeno quattro). La figura mostra un tipo di possibile soluzione al problema e la corrispondente architettura neurale multistrato la quale contiene un numero sufficiente di neuroni interni per la risoluzione del compito.
Lalgoritmo di back-propagation forse il pi diffuso per la sua semplicit, efficacia e potenza. Esso stato per fortemente criticato (Crick, 1989; ma si veda anche Zipser e Andersen, 1988) come modello di meccanismo di apprendimento biologico per il modo in cui le sinapsi vengono modificate, per luso della funzione di errore e infine perch
11
connessioni bidirezionali e bifunzionali (durante la fase di attivazione esse trasmettono segnali dallingresso verso luscita; durante la fase di modifica dei pesi sinaptici esse trasmettono allindietro lerrore calcolato per le unit dello strato superiore) non son biologicamente plausibili (Grossberg, 1987). Tuttavia il parallelismo intrinseco, la nonlinearit delle unit e il comportamento delle unit nascoste rendono questo tipo di reti estremamente interessanti da un punto di vista applicativo e possono offrire persino uno strumento per la modellazione di caratteristiche neurofisiologiche e psicologiche. In particolare le unit nascoste possono formare rappresentazioni intelleggibili dei pattern di input: alcune di esse, ad esempio, possono attivarsi quando una certa caratteristica (linea orizzontale, vocale, numero dispari, ecc.) dellinput presente. Lo studio del comportamento delle unit nascoste in una rete addestrata pu essere molto utile a uno psicologo che cerchi di modellare una determinata capacit cognitiva o sensoriale (per una rassegna sulle applicazioni della back-propagation si veda Hertz, Krogh e Palmer, 1991 e Hecht-Nielsen, 1991). Back-propagation con reti a connessioni ricorrenti Una rete feed-forward con laggiunta di autoconnessioni su uno o pi nodi e/o con connessioni da uno strato superiore a uno strato inferiore viene definita una rete a topologia ricorrente (recurrent network). Queste reti sono importanti in quanto sono in grado di funzionare in condizioni in cui la dinamica temporale dellinput contiene informazioni importanti (dato un input costante, una rete ricorrente non produce necessariamente un output costante, al contrario delle normali reti feed-forward). I pesi sinaptici di alcune architetture ricorrenti possono essere addestrati direttamente con back-propagation (Jordan, 1989; Elman, 1990). Altre architetture richiedono delle modifiche allalgoritmo di addestramento (vedi Hertz, Krogh e Palmer, 1991, capitolo 7, per una rassegna approfondita). Le reti di Hopfield Uno dei maggiori contributi allo studio delle reti neurali artificiali stato dato dal lavoro di Hopfield (1982) che ha studiato una rete autoassociativa le cui unit assomigliano ai percettroni esaminati pi sopra. La rete di Hopfield consiste in un certo numero di nodi total-mente connessi fra di loro (ogni nodo quindi connesso in modo reciproco e simmetrico con ogni altro nodo), ma senza autoconnessioni. Il valore di output di ciascun nodo pu essere 0 o 1 (utilizzando la funzione a gradino), oppure 1 o -1 (utilizzando la funzione del segno: loutput dellunit 1 se lattivazione positiva ed -1 se lattivazione negativa). La rete di Hopfield non ha uno strato di input e uno di output, in quanto ciascun nodo funziona sia da input che da output. Essendo una memoria autoassociativa, questa rete in grado di memorizzare una serie di pattern e di ricostruirne la versione originale da un input degradato o di restituire il pattern memorizzato pi simile a un nuovo pattern di input. Uno dei meriti del lavoro originale di Hopfield stato quello di descrivere la dinamica della rete in termini di unenergia. Ciascun stato della rete rappresenta un certo valore dellenergia globale. Sebbene la formula dellenergia sia utile per adattare la rete di Hopfield a compiti di ottimizzazione di funzioni (ad esempio il classico problema del
12
commesso viaggiatore; vedi Hopfield e Tank, 1985), essa serve comunque a visualizzare il funzionamento della rete. La propriet centrale di una funzione di energia che essa diminuisce sempre (o almeno resta costante) quando un sistema evolve in base alla propria regola dinamica. Il concetto di energia pu essere applicato a una qualsiasi rete neurale che possieda connessioni simmetriche anche se va notato che connessioni reciproche e simmetriche non sono biologicamente plausibili. Il paesaggio dellenergia delle reti di Hopfield presenta un aspetto tipicamente molto collinoso; la regola di adattamento dei pesi sinaptici non fa altro che collocare ciascun pattern in un minimo dellenergia (o valle), che viene dunque definito bacino dattrazione. Nella fase di test la rete parte da uno stato energetico abbastanza alto (ad esempio un punto sul pendio di una collina) che corrisponde ad un nuovo pattern e scende gradualmente verso il bacino dattrazione corrispondente al pattern immagazzinato pi simile. Tuttavia lenergia presenta molti minimi che non corrispondono a nessuno dei pattern immagazzinati: il pi semplice di essi una combinazione di tre pattern originali (stato misto, Amit et al., 1985a), mentre il pi complesso un minimo locale che non correlato a nessuno dei pattern appresi (talvolta viene definito stato dei vetri di spin, per la somiglianza alle propriet dei modelli dei vetri di spin in meccanica statistica, Amit et al., 1985b). Un metodo per permettere alla rete di uscire da questi stati spuri consiste nelleliminare casualmente alcune delle connessioni simmetriche, provocando quindi un certo grado di instabilit nel comportamento della rete (Parisi, 1986). La capacit della rete di Hopfield, ossia il numero di pattern che possono essere immagazzinati senza causare interferenze, di 0.138N (N = numero di nodi). Malgrado questa capacit relativamente bassa, la rete di Hopfield stata studiata approfonditamente per la sua somiglianza con alcuni modelli di meccanica statistica. La Macchina di Boltzmann Un modo per migliorare le prestazioni della rete di Hopfield consiste nellutilizzare una funzione stocastica di output e nellintrodurre unit nascoste. Hinton e Sejnowski (1983, 1986) e Ackley, Hinton e Sejnowski (1985) hanno formulato una regola di apprendimento applicabile a qualsiasi rete stocastica con connessioni simmetriche. Essi hanno chiamato questo tipo di rete Macchina di Boltzmann perch la probabilit degli stati del sistema data dalla distribuzione di Boltzmann in meccanica statistica. La Macchina di Boltzmann possiede un certo numero di unit (non necessariamente completamente interconnesse) con connessioni simmetriche, che sono suddivise in unit visibili e unit nascoste. Le unit nascoste, come nelle reti precedentemente esposte, non sono in contatto con il mondo esterno, mentre le unit visibili hanno la stessa funzione delle unit della rete di Hopfield; tuttavia ora possibile suddividere ulteriormente le unit visibili in unit di input e unit di output ed eventualmente trasformare la connettivit in modo da simulare una rete feed-forward. La Macchina di Boltzmann dunque unestensione della rete di Hopfield e il fatto di possedere unit nascoste le permette di risolvere problemi non linearmente separabili o semplicemente di aumentare notevolmente la capacit di immagazzinamento della rete. Siccome le connessioni sono simmetriche possibile utilizzare la stessa funzione di energia definita per la rete di Hopfield. Ciascuna unit della rete calcola la differenza di energia dovuta al cambiamento del proprio stato e aggiorna il proprio valore solamente
13
se esso corrisponde ad un abbassamento dellenergia in base a una funzione probabilistica e a una costante energetica definita temperatura. Ciascuna unit della rete dunque muta il proprio valore con una probabilit che dipende dalla differenza energetica dello stato ad un certo valore di temperatura. Il concetto di temperatura in reti stocastiche corrisponde allaggiunta di unulteriore energia intrinseca per ciascuna unit mentre essa si muove sul complesso paesaggio dellenergia globale. Con un alto valore di temperatura il movimento delle unit non lineare, bens possiede delle forti oscillazioni. Questo comportamento oscillatorio particolarmente utile per uscire dai minimi locali allinizio dellapprendimento. Tuttavia, man mano che la rete apprende (procede verso il minimo globale), conveniente ridurre questa oscillazione intrinseca in modo che il sistema possa fermarsi stabilmente nei pressi della soluzione corretta del compito. Il processo di graduale abbassamento della temperatura durante laddestramento viene definito simulated annealing (raffreddamento simulato) perch assomiglia al modo in cui certi metalli vengono raffreddati affinch non si formino strutture spurie. Il funzionamento della Macchina di Boltzmann presenta qualche somiglianza con i sistemi neurali biologici sia per la regola dapprendimento hebbiana che per la funzione probabilistica di output. Nelle reti neurali biologiche i neuroni emettono impulsi elettrici con frequenza variabile e inoltre vi sono ritardi a livello sinaptico e fluttuazioni casuali dellefficacia dei neurotrasmettitori (in base alla quantit rilasciata): questi fattori sono assimilabili a un rumore casuale e possono essere paragonati alle fluttuazioni termiche provocate dalla funzione probabilistica di output delle unit. La Macchina di Boltzmann molto pi flessibile delle reti addestrabili con Back-propagation grazie allelasticit della topologia e al modo in cui le unit possono essere organizzate. Kohonen et al. (1988) hanno confrontato dettagliatamente le capacit di back-propagation e della Macchina di Boltzmann in compiti di decisione statistica e hanno trovato che questultima offre prestazioni molto pi accurate. Tuttavia la Macchina di Boltzmann richiede una procedura daddestramento abbastanza complicata che si traduce in lunghi tempi di calcolo nelle simulazioni su calcolatore, malgrado alcune recenti modifiche per accelerarne il processo (procedimento deterministico; Peterson e Anderson, 1987). Per questi motivi essa non ha ancora trovato un uso molto diffuso, n come modello di simulazione di capacit cognitive, n dal punto di vista applicativo. Apprendimento senza insegnante (unsupervised learning) Nei successivi paragrafi descriveremo alcuni tipi di reti neurali che non richiedono supervisione, che non richiedono cio durante lapprendimento una specifica della risposta desiderata dalla rete per ogni stimolo fornito in ingresso (occorre notare tuttavia che algoritmi di apprendimento supervisionati come la back-propagation possono essere usati in modo non supervisionato in quanto per es. possono ricavare la risposta desiderata agli stimoli dallambiente esterno, si veda pi avanti). Le reti che apprendono senza un supervisore che dica qual loutput corretto rappresentano una parte molto importante per la simulazione realistica di processi cognitivi e sensoriali; tutti i sistemi nervosi infatti sono in gran parte dei sistemi che si auto-organizzano in base alla stimolazione che ricevono dal mondo esterno. Le reti neurali artificiali che utilizzano algoritmi di apprendimento di questo tipo devono quindi scoprire da sole le caratteristiche importanti dello stimolo per poterle riprodurre in
14
output. Il modo in cui i pattern di input vengono trattati dalla rete dipende soprattutto dal tipo di architettura. E comunque utile osservare, in generale, che cosa possiamo aspet-tarci dalloutput di queste reti (Hertz, Krogh e Palmer, 1991): Familiarit: una sola unit di output con funzione di attivazione continua potrebbe mostrare quanto simile un nuovo pattern rispetto al pattern tipico in un dato insieme. Analisi dei componenti principali: data una certa distribuzione spaziale dei pattern di input, possibile rappresentarli tutti estraendo il vettore che giace lungo la direzione di massima varianza dellinput (primo componente principale); per una rappresentazione pi dettagliata possibile estrarre anche il secondo (e il terzo, il quarto e cos via) componente principale che giace nel sottospazio perpendicolare al primo lungo la direzione di massima varianza (per unanalisi dettagliata, vedi ad esempio Jolliffe, 1986). Estrarre i componenti principali di una popolazione di dati consiste dunque nel ridurre la dimensionalit della rappresentazione. Raggruppamento: un insieme di unit con funzione di output binaria potrebbe mostrare a quale categoria appartiene un pattern di input. Prototipo: la rete potrebbe organizzare gli input in categorie e rappresentare in output il prodotto della categoria a cui appartiene il pattern di input. Codifica: loutput della rete potrebbe essere una versione compressa (pur mantenendo linformazione rilevante) dellinput. Mappa topografica: se la distribuzione degli stimoli ha una qualche forma particolare (dovuta alla frequenza o alla disposizione spaziale o al tipo di relazione intrinseca) potrebbe essere conveniente riprodurre tale disposizione su una specie di mappa di output in cui unit di output vicine corrispondano a input simili. Sebbene questi casi non siano necessariamente distinti e possano essere eventualmente combinati o ulteriormente raggruppati, essi rappresentano tutti caratteristiche tipiche dellorganizzazione neurofisiologica e di alcune capacit cognitive (ad esempio memoria, problem solving e riconoscimento) del sistema corticale umano. Apprendimento hebbiano Il modo pi semplice e pi plausibile biologicamente per far apprendere una rete quello di usare una regola hebbiana. Sanger (1989) e Oja (1989) hanno proposto due regole di apprendimento di tipo hebbiano che sono in grado di far apprendere ad una rete a proiettare i pattern di input nello spazio dei primi M componenti principali della distribuzione. In un recente lavoro la regola di Sanger, applicata a una rete che riceve in input immagini fotografiche naturali, ha prodotto unit di output la cui risposta assomiglia ai campi recettivi delle cellule semplici e complesse che si trovano nella corteccia striata (Baddeley e Hancock, 1991; Hancock, Baddeley e Smith, 1992). Lapprendimento hebbiano in reti che si auto-organizzano stato largamente utilizzato per simulare lorganizzazione e la risposta dei neuroni nella corteccia visiva dei mammiferi. In particolare vanno menzionati i lavori di von der Malsburg (1973) e Bienenstock et al. (1982) sullorganizzazione colonnare di cellule sensibili a particolari orientazioni, e il lavoro di Linsker (1986) sullo sviluppo dei campi recettivi nellarea visiva V1.
15
Apprendimento competitivo Nelle reti addestrate con regole competitive vi una sola unit di output attiva per volta. Ciascuna unit di output appartiene ad un insieme di unit in cui compete con le altre al fine di essere lunica attiva; questo tipo di organizzazione dei nodi di uscita chiamato win-ner-take-all (il vincitore prende tutto). Lo scopo di queste reti di raggruppare o categorizzare i pattern di input in modo tale che ciascuna unit di output rappresenti una certa categoria. Nellapprendimento competitivo semplice vi uno strato di unit di input e uno di output; per ogni pattern di input ciascuna unit di output calcola la propria attivazione e solamente i pesi sinaptici afferenti allunit vincente (quella con la massima attivazione) vengono modificati in modo da spingere il vettore dei pesi nella direzione del vettore del pattern di input. Si possono ottenere reti neurali competitive utilizzando connessioni sinaptiche inibitorie fra le unit di output e autoconnessioni eccitatorie. Unaltra possibilit, pi plausibile biologicamente, stata proposta da Smith (1991), il quale ha utilizzato un interneurone inibitorio che viene eccitato dalle unit di output e a sua volta inibisce queste ultime: in questo caso ciascuna unit produce connessioni solamente eccitatorie o solamente inibitorie (come nelle reti neurali biologiche). Le Mappe topografiche di Kohonen Poich nelle reti competitive vengono modificati solo i pesi afferenti alle unit di output vincenti possibile che alcune unit di output non risultino mai vincenti e di conseguenza non svolgano nessun ruolo. Le reti di Kohonen (1982, 1989), che possono essere considerate delle reti di tipo competitivo, risolvono questo problema organizzando le unit di output in uno spazio geometrico e aggiornando anche i pesi sinaptici delle unit perdenti che si trovano nelle vicinanze dellunit vincente. In questo tipo di reti vi uno strato di unit di output connesse tra di loro in modo da essere organizzate su di una linea o un piano bidimensionale (di forma triangolare, quadrangolare, circolare, ecc), o superfici a pi dimensioni. Se la distribuzione spaziale delle unit di output rilevante (come in questo caso), la localizzazione dellunit vincente fornisce dellinformazione aggiuntiva poich possibile aspettarsi che unit di output vicine fra di loro corrispondano a pattern di input vicini. In sostanza le unit di output vanno ad organizzarsi in una mappa che conserva le relazioni topologiche dei pattern di input. Limportanza dellapprendimento di questa corrispondenza sta nel fatto che mappe topografiche di questo tipo sono molto frequenti nel cervello, sia a livello delle connessioni tra le diverse aree corticali che tra gli organi sensoriali e le corrispondenti zone corticali primarie. La mappa retinotopica formata dalle connessioni che vanno dalla retina alla corteccia visiva un chiaro esempio di una mappa bidimensionale; la mappa presente nella corteccia somatosensoriale rappresenta unimmagine dellintero corpo (sebbene in modo distorto); infine la mappa tonotopica nella corteccia auditiva formata da neuroni ordinatamente disposti che rispondono a suoni di diverse frequenze. Le mappe topografiche di Kohonen sono state applicate con successo in molte aree tra cui la simulazione di mappe sensoriali, il controllo motorio, il riconoscimento del parlato e la quantizzazione vettoriale (vedi Kohonen, 1989 e Ritter e Schulten, 1988, per una descrizione pi dettagliata).
16
ART: Teoria della Risonanza Adattiva La maggior parte delle reti neurali soffre di un problema conosciuto come il dilemma della stabilit-plasticit: una volta che una rete stata addestrata essa non pi in grado di apprendere nuovi pattern (non plastica); se invece laddestramento continua allinfinito i nuovi pattern possono procurare output instabili (apprendimento competitivo) o possono cancellare le rappresentazioni dei pattern precedenti (backpropagation, Macchina di Boltzmann, rete di Hopfield). Carpenter e Grossberg (1987a; 1987b; 1988; Grossberg, 1987) hanno ideato una rete che in grado di risolvere questo problema in modo biologicamente plausibile e hanno definito i principi di funzionamento del loro algoritmo Teoria della Risonanza Adattiva (ART). ART una rete che si autoorganizza ed in grado di passare automaticamente dallo stato di plasticit (apprendimento) allo stato di stabilit (riconoscimento), e viceversa. Larchitettura e lalgoritmo di ART sono pi complessi delle reti prese in considerazione fino a ora; per una descrizione pi completa consigliamo Moore (1988) e Carpenter e Grossberg (1988). Il funzionamento dellintera rete descritto da un complesso sistema di equazioni differenziali basate su presupposti biologicamente plausibili. Essa presenta alcune caratteristiche tipiche del riconoscimento in esseri umani: a) sensibile al contesto, ovvero alcune parti di un pattern sono considerate pi o meno rilevanti a seconda del tipo di pattern; b) i pattern familiari vengono riconosciuti pi velocemente (perch hanno accesso diretto, senza dover entrare nella fase di ricerca), anche se sono complessi; c) la ricerca nella memoria della rete avviene in modo automatico e parallelo e i nuovi pattern vengono automaticamente immagazzinati; d) la rete in grado di adattarsi continuamente ai mutamenti nel mondo esterno senza perdere stabilit. Tuttavia ART1 presenta anche alcuni inconvenienti: a) la codifica di tipo locale; b) la scelta del corretto valore di vigilanza (il parametro fondamentale che stabilisce se un pattern familiare o nuovo) cruciale al fine di una classificazione pi o meno generale; c) molto sensibile al rumore nei pattern di input (esso distrugge gradualmente la rappresentazione formatasi nei pesi sinaptici). Alcuni di questi inconvenienti sono stati eliminati nelle ulteriori formulazioni di ART, in ART2 e ART3 (Carpenter e Grossberg, 1987b; Grossberg, 1987). Malgrado il tentativo di spiegare fattori cognitivi (la terminologia utilizzata da Grossberg un chiaro segno di questa aspirazione) e la plausibilit neurofisiologica del funzionamento, ART non ha ancora trovato un ampio utilizzo. Questo forse dovuto alla complessit del funzionamento della rete e alla descrizione matematica altrettanto complessa data dallAutore. ART per merita una maggiore attenzione, soprattutto da parte degli psicologi che vogliano simulare e modellare capacit cognitive e sensomotorie.
ARCHITETTURE ADATTIVE
Nei modelli descritti nel secondo paragrafo il processo di apprendimento modifica esclusivamente i pesi sinaptici. Gli altri fattori che caratterizzano il comportamento delle reti neurali (la regola di attivazione, la dinamica temporale e larchitettura della rete) vengono predefiniti dallo sperimentatore e non vengono modificati durante il processo di apprendimento. Tuttavia il fatto che questi altri fattori (in particolare larchitettura) abbiano unimportanza fondamentale nel determinare il comportamento
17
di una rete neurale e lesito del processo di apprendimento convinzione unanimamente diffusa nella comunit scientifica che si occupa di reti neurali artificiali. Tale opinione si basa sia sul fatto che i sistemi nervosi naturali si presentano sempre organizzati in modo strutturato sia sui dati ottenuti con reti neurali artificiali utilizzando architetture diverse (si veda per es. Rueckl, Cave e Kosslyn, 1988). Lo studio del ruolo dellarchitettura nelle reti neurali artificiali ha anche portato ad alcuni risultati generali (cio indipendenti dal tipo di capacit studiata attraverso luso delle reti neurali). Diversi autori (si veda in particolare Rumelhart, 1987, 1988; Baum e Haussler, 1989) hanno mostrato per es. che le abilit di generalizzazione delle reti neurali (cio la capacit di rispondere correttamente a stimoli non utilizzati nella fase di apprendimento) aumenta al diminuire della grandezza della rete a patto che la rete sia sufficientemente grande da apprendere a rispondere correttamente agli stimoli utilizzati durante la fase di apprendimento. Il problema della definizione dellarchitettura delle reti neurali artificiali viene affrontato in due modi distinti. Alcuni ricercatori cercano di disegnare loro stessi le architetture dei loro modelli basandosi su osservazioni neurofisiologiche e/o su considerazioni sperimentali (Olshausen, Anderson e Van Essen, 1992). Altri ricercatori utilizzano invece metodi automatici di sviluppo dellarchitettura basati sulla modifica dellarchitettura durante il processo di apprendimento oppure basati su un processo di selezione (si vedano i prossimi paragrafi). Modifiche dellarchitettura durante lapprendimento I modelli che prevedono una modifica dellarchitettura durante il processo di apprendimento possono essere divisi in due classi: 1) I modelli che partono da una architettura amorfa e pi grande di quella ipoteticamente corretta ed eliminano connessioni e unit fino ad ottenere una architettura adatta al compito sottoposto ad apprendimento (Plaut, Nowlan e Hinton, 1986; Chauvin, 1989; Weigend, Huberman e Rumelhart, 1990; Sietsma e Dow, 1991). 2) I modelli che partono con una architettura pi piccola di quella ipoteticamente corretta e aggiungono unit e connessioni durante lapprendimento quando si suppone che esse siano necessarie (Ash, 1989; Mezard e Nadal, 1989; Fahlman e Lebiere, 1990; Frean, 1990). Nel caso del primo tipo di modelli un modo per ridurre il numero delle connessioni consiste nel cercare di forzare i pesi sinaptici ad assumere il valore 0.0 (cio ad annullare la propria funzione). Le connessioni con peso nullo possono infatti essere eliminate senza modificare il comportamento della rete e leliminazione di tutte le connessioni in uscita di ununit pu portare, di fatto, alla eliminazione dellunit stessa. Tutto ci pu essere ottenuto, nel caso della back-propagation, aggiungendo alla funzione di apprendimento un costo per i pesi con valore elevato o un costo correlato alla complessit dellarchitettura corrente. Il processo di apprendimento, in questi modelli, deve dunque cercare di minimizzare la complessit dellarchitettura oltre alla differenza tra le risposte desiderate e le risposte prodotte (errore). Nel secondo caso unit e connessioni vengono aggiunte durante il processo di apprendimento, di norma quando tale processo non riesce a progredire con larchitettura corrente. Si noti tuttavia che tale aggiunta non pu essere fatta in modo semplice. Si
18
deve cercare un meccanismo in cui laggiunta delle nuove unit non comprometta la prestazione corrente della rete. La modifica dellarchitettura durante il processo di apprendimento pu sembrare un appesantimento e una complicazione di tale processo (il numero di parametri liberi da ottimizzare durante tale processo aumenta). Daltro canto occorre considerare che, qualora larchitettura sia fissata e non risulti ottimale per il compito da apprendere, questo fatto costituisce una difficolt per il processo di apprendimento stesso. In aggiunta a questo una architettura fissa potrebbe essere un ostacolo al processo di apprendimento indipendentemente dal tipo di architettura scelta in quanto architetture diverse potrebbero essere richieste in fasi diverse del processo di apprendimento. Elman (1991), per esempio, ha mostrato come una rete feed-forward ad architettura fissa non sia in grado di apprendere una serie di compiti e come tale processo di apprendimento possa avere successo invece se larchitettura della rete viene modificata durante il processo di apprendimento (in particolare lautore mostra come sia necessario partire da una architettura con un numero limitato di unit di memoria e incrementare tale numero durante il processo di apprendimento). Architetture modulari competitive Nella classe di modelli presentati nel paragrafo precedente larchitettura della rete si modifica durante il processo di apprendimento adattandosi al compito da svolgere in modo analogo ai pesi sinaptici. Tale processo di apprendimento pu portare ad architetture suddivisibili in blocchi funzionali. Possiamo definire un blocco funzionale come una parte dellarchitettura fisiologicamente identificabile (per esempio un gruppo di neuroni fortemente connessi tra di loro e poco connessi con il resto della rete) che specializzata nel processing di alcuni stimoli o di alcuni aspetti degli stimoli. Jacobs, Jordan e Barto (1990), per ottenere unarchitettura adatta al compito da apprendere, propongono di partire da unarchitettura fissa e gi suddivisa in blocchi dove ciascun blocco compete con gli altri nel tentativo di apprendere gli stimoli che vengono presentati alla rete nel suo complesso. Il risultato della competizione consiste nel fatto che blocchi diversi della rete apprendono a processare classi di stimoli diverse e di conseguenza si specializzano funzionalmente. Larchitettura proposta dagli autori formata da una serie di blocchi, o esperti, costituiti da un certo numero di sotto-reti che hanno accesso allinput e che tentano di produrre loutput corretto e da una rete di controllo (gating network) che in base allinput corrente decide a quale - o a quali - esperti dare maggior peso (si veda la figura 5).
19
FIG. 5. Architettura modulare formata da due sotto-reti esperto e una rete di controllo. Se denominiamo y1 e y2 loutput delle due sotto-reti esperto rappresentate e g1 e g2 il valore delle due unit di output della rete di controllo possiamo definire loutput dellintero sistema y come g1y1 + g2y2.
Le sotto-reti esperto competono per apprendere gli stimoli e la rete di controllo media questa competizione. Le sotto-reti (le reti esperto e la rete di controllo) vengono addestrate in parallelo tramite back-propagation, ma lapprendimento delle diverse sotto-reti basato sulla minimizzazione di errori diversi. Ciascuna rete esperto cerca di minimizzare la differenza tra loutput del sistema e loutput desiderato. I pesi della rete di controllo invece vengono modificati in modo tale da aumentare il contributo dellesperto che ha processato meglio lo stimolo corrente nel produrre la risposta dellintera rete e diminuire il contributo degli altri esperti alloutput del sistema relativo a tale stimolo. Analizzando il ruolo delle diverse sotto-reti esperto gli autori mostrano come, utilizzando questo tipo di apprendimento, la rete riesce ad apprendere compiti diversi scomponendoli in sotto-compiti pi semplici i quali vengono risolti da sotto-reti esperto diverse. Architetture selezionate attraverso processi evolutivi Un altro modo per ottenere reti neurali con architetture adattive consiste nellapplicare un processo evolutivo, basato su selezione, crossover e mutazione, a una popolazione di reti con architettura variabile. Questo tipo di tecnica evolutiva stata formalizzata come algoritmo di ottimizzazione da Holland (1975) con il nome di algoritmo genetico. Si tratta di una tecnica molto generale che pu essere utilizzata per ottimizzare qualsiasi tipo di sistema a patto che i parametri liberi del sistema vengano rappresentati come una stringa numerica. Allinizio del processo viene creata una popolazione iniziale di individui generando un certo numero di stringhe numeriche (genotipi) in modo casuale. Questo insieme di individui costituisce la generazione 0. Questi individui vengono poi valutati in base alla loro capacit di svolgere il compito per il quale vengono selezionati e tale processo di valutazione porta allattribuzione di un valore numerico di fitness per ciascun individuo della popolazione. A questo punto gli individui della popolazione vengono fatti riprodurre in modo selettivo. Questo significa che ciascun individuo ha una certa
20
probabilit di creare delle copie di se stesso che proporzionale alla propria fitness. Durante il processo di riproduzione (copia delle stringhe genitrici) vengono poi aggiunte delle mutazioni, cio dei cambiamenti casuali, alla stringhe genotipiche degli individui risultanti (oppure, nel caso in cui si utilizzi una riproduzione sessuata, le stringhe genotipiche di due genitori vengono ricombinate per formare la stringa genotipica dellindividuo risultante). In questo modo si ottiene una nuova generazione, la generazione 1. Il processo viene poi ripetuto per un certo numero di generazioni in modo tale da ottenere generazioni di individui progressivamente pi adatti allo svolgimento del compito dato. Miller et al. (Miller, Todd e Hedge, 1989) hanno applicato gli algoritmi genetici alla selezione dellarchitettura di reti neurali. Gli autori hanno utilizzato una matrice bidimensionale per rappresentare tutte le possibili connessioni di una rete (dove 0 rappresenta lassenza di connessione tra due unit e 1 la presenza di tale connessione). Tali matrici bidimensionali rappresentano linformazione genotipica dei diversi organismi. Utilizzando una tecnica analoga a quella descritta sopra e valutando le architetture delle reti in base alla capacit di apprendere un compito tramite backpropagation, gli autori mostrano come sia possibile evolvere architetture adatte al compito scelto. Pi recentemente altri autori (Harp, Samad e Guha, 1989; Kitano 1990; Nolfi e Parisi, 1991) hanno applicato un approccio simile per la selezione di architetture neurali, ma hanno proposto dei modelli che prevedono una regola di corrispondenza pi complessa tra le in formazioni genotipiche e la rete neurale risultante. Tale scelta determinata sia da ragioni di esplosione combinatoriale (nel modello di Miller et al. la lunghezza della stringa genotipica aumenta esponenzialmente allaumentare del numero di unit) sia da ragioni di plausibilit biologica (negli organismi naturali il processo di sviluppo da genotipo a fenotipo un processo complesso che ha un ruolo fondamentale nel determinare il sistema risultante). Lapproccio evolutivo stato applicato da diversi autori anche per selezionare i pesi iniziali delle reti neurali da sottoporre ad apprendimento (Hinton e Nowlan, 1987; Belew, McInerney e Schraudolph, 1990; Nolfi, Elman e Parisi, 1990). Il valore dei pesi iniziali infatti, cos come larchitettura della rete, in grado di condizionare lesito del processo di apprendimento (si veda Kolen e Pollack, 1990). Nei modelli neurali proposti da questi autori il processo di apprendimento non parte da una tabula rasa, cio da pesi sinaptici selezionati in modo casuale, ma da pesi sinaptici che sono stati selezionati per apprendere il compito scelto.
RETI NEURALI E AMBIENTE DI APPRENDIMENTO
Il risultato del processo di apprendimento non dipende solo dallalgoritmo di apprendimento scelto e dal modo in cui i fattori non sottoposti ad apprendimento (pesi sinaptici iniziali, architettura, funzione di attivazione) vengono stabiliti, ma anche dagli stimoli a cui la rete neurale viene esposta durante tale processo. La lista degli stimoli di ingresso (ed eventualmente la lista degli stimoli desiderati) rappresenta le esperienze a cui la rete sottoposta e di conseguenza una modellizzazione dellambiente allinterno del quale la rete si sviluppa. Diverse liste di stimoli, cio esperienze ambientali diverse, di norma indirizzano il processo di apprendimento verso soluzioni diverse. Spesso reti neurali che sono esposte ad
21
esperienze ambientali anche leggermente diverse, per es. reti esposte a diverse frequenze di occorrenza di alcuni stimoli, possono risultare, alla fine dellapprendimento, in reti che si comportano in modo fondamentalmente diverso (si veda per es. Plunket e Marchman, 1991). Di conseguenza, se si vuole studiare lemergere di una certa capacit utilizzando le reti neurali, fondamentale che le esperienze ambientali a cui la rete neurale artificiale viene esposta modellino nel modo pi accurato possibile le condizioni ambientali in cui tale capacit emerge negli organismi biologici che la possiedono. La lista degli stimoli di ingresso per la rete (ed eventualmente la lista delle risposte desiderate) deve dunque poter rispondere il pi possibile a due requisiti: (a) deve contenere informazioni disponibili nellambiente che si vuole modellare e ricorrere il meno possibile ad informazioni rielaborate da un agente umano; (b) deve rappresentare tali informazioni nel modo pi simile possibile al modo in cui lambiente le rende disponibili. Tali requisiti, come vedremo meglio nei paragrafi successivi, a volte implicano che lambiente non possa essere modellizzato da una semplice lista di stimoli, ma si richieda invece un vero e proprio modello dellambiente in grado di generare, di volta in volta, gli stimoli da dare in ingresso alla rete. Reti neurali che apprendono a predire gli stimoli successivi Come abbiamo detto precedentemente, lapprendimento supervisionato prevede che loutput della rete venga confrontato con una risposta desiderata. Se tale risposta desiderata viene prodotta da un esperto umano ci che viene appreso dalla rete si riduce alla sola capacit di rispondere agli stimoli nel modo desiderato. La capacit di scoprire la risposta corretta agli stimoli di fatto esclusa da questi processi di apprendimento in quanto viene sostituita dalle scelte dellesperto umano. Nonostante questo gli algoritmi di apprendimento supervisionati possono essere utilizzati per modellare aspetti fondamentali dei sistemi cognitivi. Lambiente infatti spesso in grado di fornire delle informazioni che possono essere usate come stimoli di insegnamento o risposte desiderate. Uno degli esempi pi interessanti di modelli che utilizzano informazioni disponibili nellambiente come stimoli di insegnamento comprende quei modelli che sono esposti a una sequenza temporale di stimoli e il cui compito prevedere lo stimolo successivo a quello corrente (Elman, 1991; Weigend, Huberman e Rumelhart, 1990). In questo caso infatti (nel caso cio in cui il compito della rete neurale consiste nella previsione dello stimolo successivo), la risposta desiderata equivale allo stimolo stesso al tempo t + 1 che costituisce al tempo stesso lo stimolo di ingresso al tempo t + 1. Elman (1991) ha applicato questo tipo di architettura neurale a sequenze di frasi linguistiche. In una delle simulazioni pi interessanti una rete neurale viene esposta a un lungo corpus di frasi inglesi (10.000 frasi). La rete neurale riceve in ingresso una parola alla volta e deve produrre in uscita la parola seguente (si veda la figura 6).
22
FIG. 6. Rete predittiva ricorrente. La rete riceve una parola in ingresso e deve produrre in uscita la parola successiva della frase, lo stato di attivazione delle unit interne viene copiato su un set addizionale di unit che costituiscono un ulteriore input al ciclo successivo.
Alla fine della fase di apprendimento la rete naturalmente non in grado di predire con esattezza quale parola segue ciascunaltra parola del corpus. Tuttavia, una analisi delle rappresentazioni interne della rete e del tipo di errori commessi, mostra che, alla fine del processo di apprendimento, le parole del corpus vengono classificate in base alla loro categoria lessicale (nome, verbo ecc.). In aggiunta a questo la rete mostra di aver interiorizzato relazioni sintattiche complesse come la referenza dei pronomi. Reti neurali che apprendono a predire le conseguenze delle proprie azioni Nel tipo di modelli descritti nel paragrafo precedente la rete neurale esposta a una lista fissa di stimoli e non ha nessun modo per modificare le proprie esperienze ambientali (cio la lista degli stimoli). Al contrario, gli organismi biologici (dai pi semplici ai pi complessi), fanno parte dellambiente da cui ricevono gli stimoli in ingresso e sono in grado di modificare le proprie esperienze sia modificando lambiente in modo diretto sia modificando il loro rapporto con lambiente (per es. modificando la propria visuale). In alcuni lavori recenti (Parisi, Cecconi e Nolfi, 1990; Floreano, Parisi, Antinucci e Natale, 1992; NIPS Workshop on Active Learning, 1991; Olshausen, Anderson e Van Essen, 1992) sono stati presentati dei modelli di reti neurali che apprendono attraverso una interazione attiva con lambiente e che attraverso tale interazione sono in grado di modificare il tipo di esperienze cui sono sottoposti. In questo tipo di lavori lambiente non pi quindi modellizzato con una lista di stimoli, ma come un sistema (di solito un sistema simbolico) che calcola di volta in volta lo stimolo da dare in ingresso alla rete a seconda dello stato corrente dellambiente e delloutput della rete stessa. Un esempio di sistema neurale che utilizza informazioni disponibile nellambiente e prevede che le esperienze ambientali possano essere modificate dalla rete neurale stessa descritto in Parisi, Cecconi e Nolfi (1990). Gli autori hanno sviluppato un modello di reti neurali che devono svolgere un semplice compito di navigazione in un ambiente
23
bidimensionale. Tali reti ricevono informazioni relative allambiente circostante (relativamente alla loro posizione attuale) e producono in output delle risposte motorie. Nel lavoro citato si mostra che, qualora tali reti vengano addestrate a prevedere le conseguenze delle proprie azioni (cio a prevedere come lo stimolo sensoriale cambia in conseguenza delle proprie risposte motorie), esse imparano a svolgere il proprio compito di navigazione in modo pi efficiente rispetto al caso in cui non devono imparare a fare previsioni. Reti neurali che apprendono a produrre uno stato desiderato Recentemente Jordan e Rumelhart (1991) hanno proposto un altro modello di rete neurale che risponde alle caratteristiche che abbiamo indicato in questo paragrafo. Gli autori partono dalla considerazione che in molti casi lambiente in grado di fornire agli organismi informazioni relative alle conseguenze delle proprie azioni e non informazioni relative alle azioni da compiere per produrre certe conseguenze. Consideriamo per esempio il caso di un giocatore di pallacanestro che deve imparare a colpire la palla nel modo corretto. Il problema, per il giocatore, quello di trovare il comando muscolare appropriato per la situazione (diversi comandi sono appropriati per diverse situazioni; quindi il giocatore deve imparare linsieme di trasformazioni dalla scena visiva al corrispondente comando muscolare). Tuttavia lambiente non mette a disposizione del giocatore il comando muscolare desiderato. Le uniche informazioni disponibili nellambiente riguardano le conseguenze del comando motorio del giocatore. Un discorso analogo pu essere fatto per un grandissimo numero di compiti analoghi, come per es. imparare a produrre dei suoni linguistici attraverso movimenti articolatori. Nel precedente paragrafo abbiamo visto come sia possibile imparare il mapping tra azioni motorie e conseguenze percettive di tali azioni (si pu imparare a prevedere le conseguenze delle proprie azioni usando un algoritmo di apprendimento supervisionato visto che la risposta desiderata, in questo caso, disponibile nellambiente). Ci che necessario invece in questo caso imparare il mapping inverso, cio il mapping tra le conseguenze desiderate e le azioni necessarie per raggiungerle. La soluzione escogitata da Jordan e Rumelhart per risolvere il problema dellapprendimento del mapping inverso estremamente interessante e generale, ma richiede una architettura pi complessa di una normale rete multistrato (si veda la figura 7).
24
FIG. 7. La rete ha uno strato di unit di input sensoriali, uno strato di unit di output motorio e uno strato di unit di output predittivo. Le connessioni rappresentate con frecce vuote vengono apprese in una prima fase e poi congelate, quelle rappresentate con frecce piene vengono invece modificate in una seconda fase.
In una prima fase viene appreso il mapping tra azioni e conseguenze sensoriali di tali azioni. Durante questa fase le azioni vengono generate in modo casuale e solamente la parte superiore della rete viene addestrata a prevedere le conseguenze delle proprie azioni utilizzando come risposta desiderata lo stimolo percettivo proveniente dallambiente al tempo t + 1. In una seconda fase invece i pesi della parte superiore della rete vengono congelati e la rete viene addestrata a produrre uno stato desiderato uguale a quello presentato in ingresso (cio lintera rete viene addestrata come una rete autoassociativa in questa seconda fase). La discrepanza tra conseguenze desiderate (input) e conseguenze ottenute (o previste) pu essere infatti a questo punto propagata allindietro nel modo usuale fino alle unit del terzo strato che codificano lazione motoria, senza per modificare i pesi sinaptici. In questa fase di propagazione allindietro linformazione relativa alla discrepanza tra lo stato desiderato e lo stato ottenuto viene di fatto trasformata in una discrepanza tra mossa corretta e mossa attuata dalla rete grazie al fatto che i pesi degli ultimi due strati sono stati precedentemente addestrati nel modo indicato. Per chiarire il funzionamento della rete opportuno osservare due cose: (1) che per produrre lo stato desiderato la rete deve generare, nel terzo strato di unit, una risposta motoria appropriata per ottenere tale stato desiderato (cio la rete deve risolvere il problema del mapping inverso); (2) nel risolvere questo problema la rete pu avvalersi sia delle informazioni di feedback provenienti dallambiente (cio le differenze tra le conseguenze provocate e quelle desiderate) sia delle conoscenze relative al mapping tra azioni motorie e conseguenze di tali azioni motorie precedentemente apprese e incorporate nei pesi degli ultimi due strati di connessioni. Il risultato finale che, nonostante lambiente non sia in grado di fornire esplicitamente le risposte desiderate, la rete comunque in grado di scoprirle grazie alla formazione e utilizzo di un modello interno (predittivo) dellambiente.
25
CONCLUSIONI
La ricerca sulle reti neurali sembra passare attraverso un periodo di maturazione. Alleuforia iniziale si sta sostituendo un atteggiamento pi riflessivo e critico nei confronti della scelta di un modello connessionista. In ambito psicologico, come si visto, si presta maggiore attenzione alle condizioni di apprendimento e alla complessit dellinterazione tra lindividuo (o rete neurale) e lambiente. Lapproccio ecologico si rispecchia anche nella ricerca sulle basi genetiche del comportamento e sul complicato intreccio tra innatismo e apprendimento. Questo campo di ricerca, in cui le reti neuronali simulano il sistema nervoso di semplici organismi che si evolvono secondo le leggi dellevoluzione naturale, sta trovando un successo sempre pi ampio, sia perch ha prodotto risultati formali molto interessanti, sia perch non fa grosse assunzioni e non aspira alla spiegazione immediata di capacit molto complesse. Nel campo della modellistica neurofisiologica, i ricercatori cercano di far combaciare maggiormente i propri modelli formali con i risultati sperimentali ottenuti sullorganizzazione anatomica e sinaptica dei sistemi nervosi biologici. Bench il rapporto tra studiosi di reti neurali artificiali e studiosi di reti neurali biologiche non sia mai stato molto frequente e proficuo, ultimamente si arrivati da entrambi i lati a una maggiore convergenza. Le regole di Hebb sono state riscontrate in studi in vivo e in vitro in molti tipi di neuroni della corteccia cerebrale e dellippocampo; inoltre queste regole si sono rivelate sufficienti per simulare lattivazione e i campi recettivi di neuroni biologici, specialmente nella corteccia e, in particolare, nellarea 17. Vi ora uno sforzo parallelo per migliorare i modelli formali e testare le ipotesi che ne derivano. La ricerca connessionista dunque ancora attiva e in buona salute. Essa sta passando attraverso quel periodo di trasformazione che - come per tutti i nuovi campi di ricerca la porta da una fase iniziale di disciplina empirica e disordinata verso lo status di sapere autonomo, con un proprio corpus di conoscenze e paradigmi di base che ne costituiscono le fondazioni e ne definiscono i caratteri. BIBLIOGRAFIA ACKLEY D.H., HINTON G.E., SEJNOWSKI T.J. (1985). A Learning Algorithm for Boltzmann Machines. Cognitive Science, 9, 147-169. Ristampato in Anderson e Rosenfeld (1988). AMIT D., GUTFREUND H., SOMPOLINSKY H. (1985a). Spin-Glass Models of Neural Networks. Physical Review A, 32, 1007-1018. AMIT D., GUTFREUND H., SOMPOLINSKY H. (1985b). Storing Infinite Numbers of Patterns in a Spin-Glass Model of Neural Networks. Physical Review Letters, 55, 1530-1533. ARTOLA A., BROECHER S., SINGER W. (1990). Different voltage-dependent thresholds for inducing long-term depression and long-term potentiation in slices of rat visual cortex. Nature, 347, 69-72. ASH T. (1989). Dynamic Node Creation in Backpropagation Networks. ICS Technical Report, UCSD, San Diego. BADDELEY R.J., HANCOCK P.J.B. (1991). A statistical analysis of natural images matches psychophysically derived orientation tuning curves. Proceedings of the Royal Society of London B, 246, 219-223.
26
BAUM E.B., HAUSSLER D. (1989). What size net gives valid generalization? Neural Computation, 1, 151. BELEW R.K., MCINERNEY J., SCHRAUDOLPH N. (1990). Evolving Networks: Using Genetic Algorithms with Connectionist Learning. CSE Technical Report C589-174. University of California, San Diego. BIENENSTOCK E.L., COOPER L.N., MUNRO P.W. (1982). Theory for the Deve-lopment of Neuron Selectivity: Orientation Specificity and Binocular In-teraction in Visual Cortex. Journal of Neuroscience, 2, 32-48. Ristampato in Anderson e Rosenfeld (1988). BRYSON A.E., Ho Y.-C. (1969). Applied Optimal Control. New York: Blaisdell. CARPENTER G.A., GROSSBERG S. (1987a). A Massively Parallel Architecture for a Self-Organizing Neural Pattern Recognition Machine. Computer Vision, Graphics and Image Processing, 37, 54-115. CARPENTER G.A., GROSSBERG S. (1987b). ART2: Self-Organization of Stable Category Recognition Codes for Analog Input Patterns. Applied Optics, 26, 4919- 4930. CARPENTER G.A., GROSSBERG S. (1988). The ART of Adaptive Pattern Recognition by a Self-Organizing Neural Network. Computer, 8, 77-88. CHAUVIN Y. (1989). A Back-Propagation Algorithm with Optimal Use of Hidden Units. In Advances in Neural Information Processing Systems I, ed. D.S. Touretzky (San Mateo: Morgan Kaufmann), 519-526 . CRICK F. (1989). The Recent Excitement About Neural Networks. Nature, 337, 129- 132. ELMAN J.L. (1990). Finding Structure in Time. Cognitive Science, 14, 179-211. ELMAN J.L. (1991). Incremental Learning, or the Importance of Starting Small. Center for Research in Language, Technical Report 9101, University of California, San Diego. FAHLMAN S.E., LEBIERE C. (1990). The Cascade Correlation Architecture. In Advances in Neural Information Processing Systems, ed. D.S. Touretzky, (San Mateo: Morgan Kaufman), 2, pp. 524-532. FLOREANO D., PARISI D., ANTINUCCI F., NATALE F. (1992). Eye Tracking with a Neural Network. Accettato per pubbl. su Cognitive Systems. FREAN M. (1990). The Upstart Algorithm: A Method for Constructing and Training Feedforward Neural Networks. Neural Computation, 2, 198-209. GROSSBERG S. (1987). Competitive Learning: From Interactive Activation to Adaptive Resonance. Cognitive Science, 11, 23-63. HANCOCK P.J.B., BADDELEY R.J., SMITH L.S. (1992). Principal components of natural images. Network, 3, 61-70. HARP S., SAMAD T., GUHA A. (1989). Toward the Genetic Synthesis of Neural Networks. Proceedings of the International Conference on Genetic Algorithms. HEBB D.O. (1949). The organisation of behaviour. New York: Wiley. HECHT-NIELSEN R. (1990). Neurocomputing. Redwood City, CA: Addison-Wesley. HERTZ J., KROGH A., PALMER R.G. (1991). Introduction to the Theory of Neural Computation. Redwood City, CA: Addison-Wesley. HINTON G.E., NOWLAN S.J. (1987). How Learning Guides Evolution. Comples Systems, 1, 495-502.
27
HINTON G.E., SEJNOWSKI T.J. (1983). Optimal Perceptual Inference. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (Washington 1983), (New York: IEEE), pp. 448-453. HINTON G.E., SEJNOWSKI T.J. (1986). Learning and Relearning in Boltzmann Machines. In Rumelhart, McClelland et al. (1986), vol. I, cap. 7. HOPFIELD J.J. (1982). Neural Networks and Physical Systems with Emergent Collective Computational Abilities. Proceedings of the National Academy of Sciences, USA, 79, 2554-2558. Ristampato in Anderson e Rosenfeld (1988). HOPFIELD J.J., TANK D.W. (1985). Neural Computation of Decisions in Optimization Problems. Biological Cybernetics, 52, 141-152. HOLLAND J.J. (1975). Adaptation in Natural and Artificial Systems. Ann Arbor, Michigan: University of Michigan Press. JACOBS R.A, JORDAN MI., BARTO A.G. (1990). Task Decomposition Through Competition in a Modular Connectionist Architecture: The what and Where Vision Tasks. COINS Technical Report 9-27. MIT, Cambridge. JOLLIFFE I.T. (1986). Principal Component Analysis. New York: Springer-Verlag. JORDAN M.I. (1989). Serial Order: A Parallel, Distributed Processing Approach. In Advances in Connectionist Theory: Speech, eds J.L. Elman, D.E. Rumelhart (Hillsdale: Erlbaum). JORDAN M.I., RUMELHART D.E. (1991). Forward models: Supervised learning with a distal teacher. Occasional Paper 40, Center for Cognitive Science, MIT. KELSO S.R., GANONG A.H., BROWN T.H. (1986). Hebbian synapses in hippocampus. Proceedings o/the National Academy of Sciences, USA, 83, 53265330. KITANO H. (1990). Designing Neural Networks Using Genetic Algorithms with Graph Generation Systems. Complex Systems, 4, 461-476. KOHONEN T. (1982). Self-Organized Formation of Topologically Correct Feature Maps. Biological Cybernetics, 43, 59-69. Ristampato in Anderson e Rosenfeld (1988). KOHONEN T. (1989). Self-Organization and Associative Memory (3a ediz.). Berlin: Springer-Verlag. KOHONEN T., BARNA G., CHRISLEY R. (1988). Statistical Pattern Recognition with Neural Networks: Benchmarking Studies. In IEEE International Conference on Neural Networks (San Diego 1988), (New York: IEEE), vol. I, pp. 61-68. KOLEN J.F., POLLACK J.B. (1990). Back propagation is sensitive to initial conditions. Technical Report 90-JK-BPSIC. Computer and Information Science Department. The Ohio State University. LE CUN Y. (1985). Une Procedure dApprentissage pour Reseau a Seuil Assymetrique. In Cognitiva 85: A la Frontire de lIntelligence Artificielle des Sciences de la Connaissance des Neurosciences (Paris 1985), (Paris: CE-STA), pp. 599-604. LINSKER R. (1986). From Basic Network Principles to Neural Architecture. Proceedings of the National Academy of Sciences, USA, 83, 7508-75 12, 83908394, 8779-8783. LINSKER R. (1988). Self-Organization in a Perceptual Network. Computer, March 1988, 105-117.
28
VON DER MALSBURG CH. (1973). Self-Organization of Orientation Sensitive Cells in the Striate Cortex. Kybernetik, 14, 85-100. Ristampato in Ander-son e Rosenfeld (1988). MCCLELLAND J.R., RUMELHART D.E. (1988). Explorations in parallel distributed processing: A handbook of models, programs, and exercises. Cambridge, MA: MIT Press. MEZARD M., NADAL J.-P. (1989). Learning in Feedforward Layered Networks: The Tiling Algorithm. Journal of Physics A, 22, 2191-2204. MILLER G.F., TODD P.M., HEDGE S. (1989). Designing Neural Networks Using Genetic Algorithms. Proceedings of the International Conference on Genetic Algorithms. MINSKY M.L., PAPERT S.A. (1969). Perceptrons. Cambridge, MA: MIT Press. Ristampato parzialmente in Anderson e Rosenfeld (1988). MOORE B. (1988). ART1 and Pattern Clustering. In Proceedings of the 1988 Connectionist Models Summer School, eds. D. Touretzky, G. Hinton, T. Sejnowski. (San Mateo: Morgan Kaufman), 174-185. NOLFI S., ELMAN J., PARISI D. (1990). Learning and Evolution. CRL Technical Report. University of California, San Diego. NOLFI S., PARISI D. (1991). Growing Neural Networks. PCIA Technical Report. Institute of Psychology, CNR, Rome. OJA E. (1989). Neural Networks, Principal Components, and Subspaces. International Journal of Neural Systems, 1, 61-68. OLSHAUSEN B., ANDERSON C., VAN ESSEN D. (1992). A Neural Model Of Visual Attention And Invariant Pattern Recognition. CNS Memo 18, Caltech, California. ORCHARD G.A., PHILLIPS W.A. (1991). Neural Computation. A Beginners guide. London: Lawrence Erlbaum Associates. PARISI D. (1986). Asymmetric Neural Networks and the Process of Learning. Journal of Physics A, 19, L675-L680. PARKER D.B. (1985). Learning Logic. Technical Report TR-47, Center for Computational Research in Economics and Management Science, MIT, Cambridge, MA. PETERSON C., ANDERSON J.R. (1987). A Mean Field Theory Learning Algorithm for Neural Networks. Complex Systems, 1, 995-1019. PLAUT D.C., NOWLAN S.J., HINTON G.E. (1986). Experiments on Learning by Backpropagation. Technical Report, Carnegie Mellon University, Pittsburgh, PA. PLUNKET K., MARCHMAN V. (1991). U-shaped learning and frequency effects in a multi-layered perception: implications for child language acquisition. Cognition, 38, 43-102. RESCORLA R.A., WAGNER A.R. (1972). A Theory of Pavlovian Conditioning: The Effectivness of Reinforcement and Nonreinforcement. In Classical Conditioning II: Current Research and Theory, eds. A.H. Black, W.F. Prokasy (New York: Appleton-Century-Crofts). RITTER H., SCHULTEN K. (1988). Kohonens Self-Organizing Maps: Exploring Their Computational Capabilities. In IEEE International Conference on Neural Networks (San Diego 1988), (New York: IEEE), vo1. I, pp. 109-116. ROSENBLATT F. (1962). Principles of Neurodynamics. New York: Spartan.
29
RUECKL J.G., CAVE K.R., KOSSLYN S.M. (1988). Why are What and Where Processed by Separate Cortical Visual Systems? A computational Investigation. Journal of Cognitive Neuroscience, 1,171-188. RUMELHART D.E. (1988). Learning and generalization. Proc. IEEE Int. Conf Neural Networks, San Diego. RUMELHART, D.E. (1989). Personal Communication, Princeton. In Comparing biases for minimal network construction with back-propagation, eds. S.J. Hanson, L.Y. Pratt in Advances in Neural Information Processing Systems 1 (NIPS 88), ed. Davis 5. Touretzky (San Mateo: Morgan Kaufmann, 1989), p. 177. RUMELHART D.E., HINTON G.E., WILLIAMS R.J. (1986a). Learning Representations by Back-Propagation of Errors. Nature, 323, 533-536. Ristampato in Anderson e Rosenfeld (1988). RUMELHART D.E., HINTON G.E., WILLIAMS R.J. (1986h). Learning Internal Representations by Error Propagation. In Rumelhart, McClelland et al. (1986). Parallel Distributed Processing, vol. 1, cap. 8. Ristampato in Anderson e Rosenfeld (1988). SANGER T.D. (1989). Optimal Unsupervised Learning in a Single-Layer Feedforward Neural Network. Neural Networks, 2, 459-473. SINGER W. (1987). Activity-dependant self-organisation of synaptic connections as a substrate of learning. In The Neural and Molecular Bases of Learning, eds. J.P. Changeux, M. Konishi (London: Wiley). SIETSMA J., Dow J.F. (1991). Creating artificial neural network that generalize. Neural Networks, 4, 67-79. SMITH L.S. (1991). Lecture Notes in Neural Computation. Centre for Cognitive and Computational Neuroscience, University of Stirling (Scotland). STANTON P.K., SEJNOWSKI T.J. (1989). Associative long-term depression in the hippocampus induced by hebbian covariance. Nature, 339, 215-218. STENT G.S. (1973). A physiological mechanism for Hebbs postulate of learning. Proceedings of the National Academy of Sciences, USA, 70, 997-1001. WEIGEND A.S., HUBERMAN B.A., RUMELHART D.E. (1990). Predicting the future: a connectionist approach. International Journal of Neural Systems, 1, 193-209. WERBOS P. (1974). Beyond Regression: New Tools for Prediction and Analysis in the Behavioural Sciences. Tesi di Dottorato, Harvard University. WIDROW B., HOFF M.E. (1960). Adaptive Switching Circuits. In 1960 IRE WESCON Convention Record, New York: IRE, parte 4, 96-104. Ristampato in Anderson e Rosenfeld (1988). WILLSHAW D., DAYAN P. (1990). Optimal plasticity from matrix memories: What goes up must come down. Neural Computation, 2, 85-93. YANG X.-D., FABER D.S. (1991). Initial synaptic efficacy influences induction and expression of long-term changes in transmission. Proceedings of the National Academy of Sciences, USA, 88, 4299-4303. ZIPSER D., ANDERSEN R.A. (1988). A back-propagation programmed network that simulates response properties of a subset of posterior parietal neurons. Nature, 331, 679-684.
30
Summary. Neural networks have been interpreted for a long time as constituing a magic box which is able to learn to perform very complex tasks (thea classical rule based systems were not able to perform) and to produce surprising results. On the contrary, in the last few years, the main goal of research in the connectionist field is trying to arrive at a deeper understanding of the behavior of the different types of neural networks previously developed. Some factors such as network architecture, initial weights, and the interaction with the external environment that were poorly analisized in the past are now studied very carefully. This tendency favored a wider exchange between results obtained with artificial neural networks and results coming from biological disciplines (i.e. psychology, neurophisiology, evolutionary biology etc.).
Le richieste di estratti vanno inviate a Stefano Noi/i, Istituto di Psicologia CNR, V. le C. Marx 15, 00135 Roma.
31

Nolfi RetiNeurali

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Nolfi RetiNeurali

Încărcat de

Drepturi de autor:

Formate disponibile

GIORNALE ITALIANO DI PSICOLOGIA / a.

XX, febbraio - 15-50

RETI NEURALI: ALGORITMI DI APPRENDIMENTO, AMBIENTE DI APPRENDIMENTO, ARCHITETTURA

DARIO FLOREANO E STEFANO NOLFI

FIG. 2. Rete neutrale artificiale.

stimolo classe A stimolo classe B

stimolo classe A stimolo classe B

S-ar putea să vă placă și