Linear Models and Deep Learning: Learning in Sequential Domains

Pasa, Luca

With the diffusion of cheap sensors, sensor-equipped devices (e.g., drones), and sensor networks (such as Internet of Things), as well as the development of inexpensive human-machine interaction interfaces, the ability to quickly and effectively process sequential data is becoming more and more important. There are many tasks that may benefit from advancement in this field, ranging from monitoring and classification of human behavior to prediction of future events. Most of the above tasks require pattern recognition and machine learning capabilities. There are many approaches that have been proposed in the past to learn in sequential domains, especially extensions in the field of Deep Learning. Deep Learning is based on highly nonlinear systems, which very often reach quite good classification/prediction performances, but at the expenses of a substantial computational burden. Actually, when facing learning in a sequential, or more in general structured domain, it is common practice to readily resort to nonlinear systems. Not always, however, the task really requires a nonlinear system. So the risk is to run into difficult and computational expensive training procedures to eventually get a solution that improves of an epsilon (if not at all) the performances that can be reached by a simple linear dynamical system involving simpler training procedures and a much lower computational effort. The aim of this thesis is to discuss about the role that linear dynamical systems may have in learning in sequential domains. On one hand, we like to point out that a linear dynamical system (LDS) is able, in many cases, to already provide good performances at a relatively low computational cost. On the other hand, when a linear dynamical system is not enough to provide a reasonable solution, we show that it can be used as a building block to construct more complex and powerful models, or how to resort to it to design quite effective pre-training techniques for nonlinear dynamical systems, such as Echo State Networks (ESNs) and simple Recurrent Neural Networks (RNNs). Specifically, in this thesis we consider the task of predicting the next event into a sequence of events. The datasets used to test various discussed models involve polyphonic music and contain quite long sequences. We start by introducing a simple state space LDS. Three different approaches to train the LDS are then considered. Then we introduce some brand new models that are inspired by the LDS and that have the aim to increase the prediction/classification capabilities of the simple linear models. We then move to study the most common nonlinear models. From this point of view, we considered the RNN models, which are significantly more computationally demanding. We experimentally show that, at least for the addressed prediction task and the considered datasets, the introduction of pre-training approaches involving linear systems leads to quite large improvements in prediction performances. Specifically, we introduce pre-training via linear Autoencoder, and an alternative based on Hidden Markov Models (HMMs). Experimental results suggest that linear models may play an important role for learning in sequential domains, both when used directly or indirectly (as basis for pre-training approaches): in fact, when used directly, linear models may by themselves return state-of-the-art performance, while requiring a much lower computational effort with respect to their nonlinear counterpart. Moreover, even when linear models do not perform well, it is always possible to successfully exploit them within pre-training approaches for nonlinear systems.

Con la diffusione di dispositivi a basso costo, e reti di sensori (come ad esempio l'Internet of Things), nonché lo sviluppo di interfacce di interazione uomo-macchina a basso costo, la capacità di processare dati sequenziali in maniera veloce, e assicurando un basso consumo di risorse, è diventato sempre più importante. Molti sono i compiti che trarrebbero beneficio da un avanzamento in questo ambito, dal monitoraggio e classificazione di comportamenti umani fino alla predizioni di eventi futuri. Molti dei task citati richiedono l'uso di tecniche di pattern recognition e di abilità correlate con metodi tipici dell’apprendimento automatico. Molti sono gli approcci per eseguire apprendimento su domini sequenziali proposti nel recente passato, e molti sono basati su tecniche tipiche dell'ambito del Deep Learning. I metodi di Deep Learning sono tipicamente basati su sistemi fortemente non lineari, capaci di ottenere ottimi risultati in problemi di predizione/classificazione, ma che risultano anche essere molto costosi dal punto di vista computazionale. Quando si cerca di eseguire un compito di apprendimento su domini sequenziali, e più in generale su dati strutturati, tipicamente si ricorre all'utilizzo di sistemi non lineari. Non è però sempre vero che i task considerati richiedono modelli non lineari. Quindi il rischio è di andare ad utilizzare metodi troppo complessi, e computazionalmente costosi, per poi ottenere alla fine soluzioni che migliorano di un’epsilon (o anche no migliorano) i risultati ottenibili tramite l'utilizzo di sistemi lineari dinamici, che risultano essere molto meno costosi dal punto di vista dell'apprendimento, e del costo computazionale. L'obiettivo di questa tesi è di discutere del ruolo che i sistemi lineari dinamici possono avere nelle esecuzioni di compiti di apprendimento su dati strutturati. In questa tesi vogliamo mettere in luce le capacità dei sistemi lineari dinamici (LDS) di ottenere soluzioni molto buone ad un costo computazionale relativamente basso. Inoltre risulta interessante vedere come, nel caso in cui un sistema lineare non sia sufficiente per ottenere il risultato sperato, esso possa essere usato come base per costruire modelli più complessi, oppure possa essere utilizzato per eseguire la fase di pre-training per un modello non lineare, come ad esempio Echo State Networks (ESNs) e Recurrent Neural Networks (RNNs). Nello specifico in questa tesi è stato considerato un task di predizione dell'evento successivo, data una sequenza di eventi. I dataset usati per testare i vari modelli proposti nella tesi, contengono sequenze di musica polifonica, che risultano essere particolarmente lunghe e complesse. Nella prima parte della tesi viene proposto l'utilizzo del semplice modello LDS per affrontare il compito considerato. In particolare vengono considerati tre approcci diversi per eseguire l'apprendimento con questo modello. Viene poi introdotti nuovi modelli, ispirati al modello LDS, che hanno l'obiettivo di migliorare le prestazioni di quest'ultimo nei compiti di predizione/classificazione. Vengono poi considerati i più comuni modelli non lineari, in particolare il modello RNN il quale risulta essere significativamente più complesso e computazionalmente costoso da utilizzare. Viene quindi empiricamente dimostrato che, almeno per quanto riguarda il compito di predizione e i dataset considerati, l'introduzione di una fase di pre-training basati su sistemi lineari porta ad un significativo miglioramento delle prestazioni e della accuratezza nell'eseguire la predizione. In particolare 2 metodi di pre-training vengono proposti, il primo chiamato pre-training via Linear Autoencoder, ed il secondo basato su Hidden Markov Models (HMMs). I risultati sperimentali suggeriscono che i sistemi lineari possono giocare un ruolo importante per quanto riguarda il compito di apprendimento in domini sequenziali, sia che siano direttamente usati oppure siano usati indirettamente (come base per eseguire la fase di pre-training): infatti, usandoli direttamente, essi hanno permesso di raggiungere risultati che rappresentano lo stato dell'arte, andando però a richiedere uno sforzo computazionale molto limitato se confrontato con i più comuni modelli non lineari. Inoltre, anche quando le performance ottenute sono risultate non soddisfacenti, si è dimostrato che è possibile utilizzarli con successo per eseguire la fase di pre-training di sistemi non lineari.

Linear Models and Deep Learning: Learning in Sequential Domains / Pasa, Luca. - (2017 Jan 31).