This thesis investigates the application of Deep Reinforcement Learning to develop humanaware task and motion planners. Human-robot applications introduce a set of criticalities to the problem of Task and Motion Planning that is already complex. Indeed, human-robot scenarios are non-determinism and highly dynamic; thus, it is necessary to compute plans quickly and adapt to an ever-changing environment. Therefore, this thesis studied the planning problem as a sequential decision-making problem modeled as Markov Decision Process solved via Reinforcement Learning. Markov Decision Processes are a possible answer to the problem of non-deterministic and dynamic environments. Indeed, on the one hand, are stochastic models, and on the other hand, rather than computing a complete plan at the beginning of each activity, step by step, the optimal action to perform is computed based on the current status of the environment. In particular, it is firstly investigated the task planning and the motion planning problems separately; subsequently, the combined problem is studied. The proposed solutions proved to be able to compute quick and effective task plans, motion plans, task and motion plans in dynamic e non-deterministic applications like humanrobot cooperation. In all the applications, it was noticed that the agent was able to identify hazardous situations and minimize the risk, for example, in task planning by choosing the task with lower failure probability or in motion planning by avoiding region of space with a high probability of collision. Furthermore, it was possible to ensure safety by combining human-aware Task and Motion Planning with current industry safety standards.

Questa tesi indaga l'applicazione del Deep Reinforcement Learning per sviluppare task e motion planner human-aware. Le applicazioni uomo-robot introducono una serie di criticità al problema di Task e Motion Planning che è già complesso. Infatti, scenari uomo-robot sono non deterministici e altamente dinamici; quindi, è necessario calcolare i piani rapidamente e adattarsi a un ambiente in continua evoluzione. Pertanto, questa tesi ha studiato il problema della pianificazione come un problema di decisione sequenziale modellato come Markov Decision Process risolto tramite Reinforcement Learning. I processi decisionali di Markov sono una possibile risposta al problema degli ambienti non deterministici e dinamici. Infatti, da un lato, sono modelli stocastici, e d'altra parte, invece di calcolare un piano completo all'inizio di ogni attività, passo dopo passo, l'azione ottimale da eseguire viene calcolata sulla base di lo stato attuale dell'ambiente. In particolare, vengono dapprima indagati separatamente i problemi di task planning e di motion planning; successivamente, il problema combinato è studiato. Le soluzioni proposte si sono dimostrate in grado di calcolare piani di attività, piani di movimento, piani di attività e di movimento rapidi ed efficaci in applicazioni dinamiche e non deterministiche come la cooperazione uomo-robot. In tutte le applicazioni è stato notato che l'agente è stato in grado di identificare situazioni pericolose e ridurre al minimo il rischio, ad esempio, nella pianificazione delle attività scegliendo il compito con minore probabilità di guasto o nella pianificazione del movimento evitando regioni di spazio con un'alta probabilità di collisione. Inoltre, è stato possibile garantire la sicurezza combinando Task and Motion Plan consapevole delle persone con gli attuali standard di sicurezza del settore.

Human-Aware Task e Motion Planning attraverso Deep Reinforcement Learning / Nicola, Giorgio. - (2022 Mar 11).

Human-Aware Task e Motion Planning attraverso Deep Reinforcement Learning

NICOLA, GIORGIO
2022

Abstract

This thesis investigates the application of Deep Reinforcement Learning to develop humanaware task and motion planners. Human-robot applications introduce a set of criticalities to the problem of Task and Motion Planning that is already complex. Indeed, human-robot scenarios are non-determinism and highly dynamic; thus, it is necessary to compute plans quickly and adapt to an ever-changing environment. Therefore, this thesis studied the planning problem as a sequential decision-making problem modeled as Markov Decision Process solved via Reinforcement Learning. Markov Decision Processes are a possible answer to the problem of non-deterministic and dynamic environments. Indeed, on the one hand, are stochastic models, and on the other hand, rather than computing a complete plan at the beginning of each activity, step by step, the optimal action to perform is computed based on the current status of the environment. In particular, it is firstly investigated the task planning and the motion planning problems separately; subsequently, the combined problem is studied. The proposed solutions proved to be able to compute quick and effective task plans, motion plans, task and motion plans in dynamic e non-deterministic applications like humanrobot cooperation. In all the applications, it was noticed that the agent was able to identify hazardous situations and minimize the risk, for example, in task planning by choosing the task with lower failure probability or in motion planning by avoiding region of space with a high probability of collision. Furthermore, it was possible to ensure safety by combining human-aware Task and Motion Planning with current industry safety standards.
Human-Aware Task and Motion Planning through Deep Reinforcement Learning
11-mar-2022
Questa tesi indaga l'applicazione del Deep Reinforcement Learning per sviluppare task e motion planner human-aware. Le applicazioni uomo-robot introducono una serie di criticità al problema di Task e Motion Planning che è già complesso. Infatti, scenari uomo-robot sono non deterministici e altamente dinamici; quindi, è necessario calcolare i piani rapidamente e adattarsi a un ambiente in continua evoluzione. Pertanto, questa tesi ha studiato il problema della pianificazione come un problema di decisione sequenziale modellato come Markov Decision Process risolto tramite Reinforcement Learning. I processi decisionali di Markov sono una possibile risposta al problema degli ambienti non deterministici e dinamici. Infatti, da un lato, sono modelli stocastici, e d'altra parte, invece di calcolare un piano completo all'inizio di ogni attività, passo dopo passo, l'azione ottimale da eseguire viene calcolata sulla base di lo stato attuale dell'ambiente. In particolare, vengono dapprima indagati separatamente i problemi di task planning e di motion planning; successivamente, il problema combinato è studiato. Le soluzioni proposte si sono dimostrate in grado di calcolare piani di attività, piani di movimento, piani di attività e di movimento rapidi ed efficaci in applicazioni dinamiche e non deterministiche come la cooperazione uomo-robot. In tutte le applicazioni è stato notato che l'agente è stato in grado di identificare situazioni pericolose e ridurre al minimo il rischio, ad esempio, nella pianificazione delle attività scegliendo il compito con minore probabilità di guasto o nella pianificazione del movimento evitando regioni di spazio con un'alta probabilità di collisione. Inoltre, è stato possibile garantire la sicurezza combinando Task and Motion Plan consapevole delle persone con gli attuali standard di sicurezza del settore.
Human-Aware Task e Motion Planning attraverso Deep Reinforcement Learning / Nicola, Giorgio. - (2022 Mar 11).
File in questo prodotto:
File Dimensione Formato  
final_thesis_Giorgio_Nicola.pdf

accesso aperto

Descrizione: phd thesis Giorgio Nicola
Tipologia: Tesi di dottorato
Dimensione 12.48 MB
Formato Adobe PDF
12.48 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3445088
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact