This thesis investigates the potential of generative neural networks to model cognitive processes. In contrast to many popular connectionist models, the computational framework adopted in this research work emphasizes the generative nature of cognition, suggesting that one of the primary goals of cognitive systems is to learn an internal model of the surrounding environment that can be used to infer causes and make predictions about the upcoming sensory information. In particular, we consider a powerful class of recurrent neural networks that learn probabilistic generative models from experience in a completely unsupervised way, by extracting high-order statistical structure from a set of observed variables. Notably, this type of networks can be conveniently formalized within the more general framework of probabilistic graphical models, which provides a unified language to describe both neural networks and structured Bayesian models. Moreover, recent advances allow to extend basic network architectures to build more powerful systems, which exploit multiple processing stages to perform learning and inference over hierarchical models, or which exploit delayed recurrent connections to process sequential information. We argue that these advanced network architectures constitute a promising alternative to the more traditional, feed-forward, supervised neural networks, because they more neatly capture the functional and structural organization of cortical circuits, providing a principled way to combine top-down, high-level contextual information with bottom-up, sensory evidence. We provide empirical support justifying the use of these models by studying how efficient implementations of hierarchical and temporal generative networks can extract information from large datasets containing thousands of patterns. In particular, we perform computational simulations of recognition of handwritten and printed characters belonging to different writing scripts, which are successively combined spatially or temporally in order to build more complex orthographic units such as those constituting English words.

In questa tesi vengono studiati alcuni processi cognitivi utilizzando recenti modelli di reti neurali generative. A differenza della maggior parte dei modelli connessionisti, l’approccio computazionale adottato in questa tesi enfatizza la natura generativa della cognizione, suggerendo che uno degli obiettivi principali dei sistemi cognitivi sia quello di apprendere un modello interno dell’ambiente circostante, che può essere usato per inferire relazioni causali ed effettuare previsioni riguardo all’informazione sensoriale in arrivo. In particolare, viene considerata una potente classe di reti neurali ricorrenti in grado di apprendere modelli generativi probabilistici dall’esperienza, estraendo informazione statistica di ordine superiore da un insieme di variabili in modo totalmente non supervisionato. Questo tipo di reti può essere formalizzato utilizzando la teoria dei modelli grafici probabilistici, che consente di descrivere con lo stesso linguaggio formale sia modelli di reti neurali che modelli Bayesiani strutturati. Inoltre, architetture di rete di base possono essere estese per creare sistemi più sofisticati, sfruttando molteplici livelli di processamento per apprendere modelli generativi gerarchici o sfruttando connessioni ricorrenti direzionate per processare informazione organizzata in sequenze. Riteniamo che queste architetture avanzate costituiscano un’alternativa promettente alle più tradizionali reti neurali supervisionate di tipo feed-forward, perché riproducono più fedelmente l’organizzazione funzionale e strutturale dei circuiti corticali, consentendo di spiegare come l’evidenza sensoriale possa essere effettivamente combinata con informazione contestuale proveniente da connessioni di feedback (“top-down”). Per giustificare l’utilizzo di questo tipo di modelli, in una serie di simulazioni studiamo nel dettaglio come implementazioni efficienti di reti generative gerarchiche e temporali possano estrarre informazione da grandi basi di dati, contenenti migliaia di esempi di training. In particolare, forniamo evidenza empirica relativa al riconoscimento di caratteri stampati e manoscritti appartenenti a diversi sistemi di scrittura, che possono in seguito essere combinati spazialmente o temporalmente per costruire unità ortografiche più complesse come quelle rappresentate dalle parole inglesi.

Modeling cognition with generative neural networks: The case of orthographic processing / Testolin, Alberto. - (2015 Jan).

Modeling cognition with generative neural networks: The case of orthographic processing

Testolin, Alberto
2015

Abstract

In questa tesi vengono studiati alcuni processi cognitivi utilizzando recenti modelli di reti neurali generative. A differenza della maggior parte dei modelli connessionisti, l’approccio computazionale adottato in questa tesi enfatizza la natura generativa della cognizione, suggerendo che uno degli obiettivi principali dei sistemi cognitivi sia quello di apprendere un modello interno dell’ambiente circostante, che può essere usato per inferire relazioni causali ed effettuare previsioni riguardo all’informazione sensoriale in arrivo. In particolare, viene considerata una potente classe di reti neurali ricorrenti in grado di apprendere modelli generativi probabilistici dall’esperienza, estraendo informazione statistica di ordine superiore da un insieme di variabili in modo totalmente non supervisionato. Questo tipo di reti può essere formalizzato utilizzando la teoria dei modelli grafici probabilistici, che consente di descrivere con lo stesso linguaggio formale sia modelli di reti neurali che modelli Bayesiani strutturati. Inoltre, architetture di rete di base possono essere estese per creare sistemi più sofisticati, sfruttando molteplici livelli di processamento per apprendere modelli generativi gerarchici o sfruttando connessioni ricorrenti direzionate per processare informazione organizzata in sequenze. Riteniamo che queste architetture avanzate costituiscano un’alternativa promettente alle più tradizionali reti neurali supervisionate di tipo feed-forward, perché riproducono più fedelmente l’organizzazione funzionale e strutturale dei circuiti corticali, consentendo di spiegare come l’evidenza sensoriale possa essere effettivamente combinata con informazione contestuale proveniente da connessioni di feedback (“top-down”). Per giustificare l’utilizzo di questo tipo di modelli, in una serie di simulazioni studiamo nel dettaglio come implementazioni efficienti di reti generative gerarchiche e temporali possano estrarre informazione da grandi basi di dati, contenenti migliaia di esempi di training. In particolare, forniamo evidenza empirica relativa al riconoscimento di caratteri stampati e manoscritti appartenenti a diversi sistemi di scrittura, che possono in seguito essere combinati spazialmente o temporalmente per costruire unità ortografiche più complesse come quelle rappresentate dalle parole inglesi.
gen-2015
This thesis investigates the potential of generative neural networks to model cognitive processes. In contrast to many popular connectionist models, the computational framework adopted in this research work emphasizes the generative nature of cognition, suggesting that one of the primary goals of cognitive systems is to learn an internal model of the surrounding environment that can be used to infer causes and make predictions about the upcoming sensory information. In particular, we consider a powerful class of recurrent neural networks that learn probabilistic generative models from experience in a completely unsupervised way, by extracting high-order statistical structure from a set of observed variables. Notably, this type of networks can be conveniently formalized within the more general framework of probabilistic graphical models, which provides a unified language to describe both neural networks and structured Bayesian models. Moreover, recent advances allow to extend basic network architectures to build more powerful systems, which exploit multiple processing stages to perform learning and inference over hierarchical models, or which exploit delayed recurrent connections to process sequential information. We argue that these advanced network architectures constitute a promising alternative to the more traditional, feed-forward, supervised neural networks, because they more neatly capture the functional and structural organization of cortical circuits, providing a principled way to combine top-down, high-level contextual information with bottom-up, sensory evidence. We provide empirical support justifying the use of these models by studying how efficient implementations of hierarchical and temporal generative networks can extract information from large datasets containing thousands of patterns. In particular, we perform computational simulations of recognition of handwritten and printed characters belonging to different writing scripts, which are successively combined spatially or temporally in order to build more complex orthographic units such as those constituting English words.
modellazione cognitiva / cognitive modeling modelli computazionali / computational models deep learning / deep learning reti neurali / neural networks processamento ortografico / orthographic processing connessionismo / connectionism
Modeling cognition with generative neural networks: The case of orthographic processing / Testolin, Alberto. - (2015 Jan).
File in questo prodotto:
File Dimensione Formato  
testolin_alberto_tesi.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 10.35 MB
Formato Adobe PDF
10.35 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3424619
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact