This thesis comes as the result of a detailed study of decomposition methods for large-scale problems and their application to a particular problem arising in computational biology. The improvements on computer capabilities and programming techniques in the last decades have widened the set of problems that can be easily solved as Mixed Integer Linear programs. However, several applications still require formulations that involve a non-tractable amount of data necessary to describe the geometry of the solution space. In these cases, decomposition methods are used to reduce the size of the problems to be addressed. In this thesis we propose the application of some of these methods, as Dantzig-Wolfe reformulation, column generation and Lagrangian relaxation, to a problem related to the study of the human genome. The human DNA is made of two double chains, each of which consists in a sequence of nucleotides. Among these, the ones related to the Single Nucleotide Polymorphisms (SNPs) are interesting as they describe the differences between individuals. We define a haplotype as a sequence of nucleotides that describes a portion of the SNPs found in a particular chromosome, and a genotype as the sequence that aggregates the information on SNPs coming from the double DNA chain of an individual. The problem we address falls into the class defining the Haplotyping Inference problem, that consists in recovering the structure of the haplotypes, given the information on the genotypes. In particular, we consider the parsimony criterion, which means that we want to find the minimum number of haplotypes able to explain all the genotypes. This problem is known to be APX-hard. There are several contributions in the literature that can be divided into two main different classes of mixed integer linear formulations. The first one presents a polynomial number of both variables and constraints, thus these formulations are solved using a branch-and-cut approach. The second class consists of formulations that present an exponential number of constraints and variables, solved with a branch-and-cut-and-price approach. The scope of this thesis is to investigate how a new formulation that involves an exponential number of variables and a polynomial number of constraints can be solved by a branch-and-price approach. Its aim is to provide a competitive algorithm with respect to other formulations from the literature, in particular those with a polynomial number of constraints and variables. We start by providing a review of the state of the art on the Haplotype Inference problem, with particular focus on the Mixed Integer Linear programming approaches for the Haplotype Inference by Pure Parsimony (HIPP) problem. We then consider a new mathematical programming formulation for HIPP that includes a set of quadratic constraints. By applying Dantzig-Wolfe reformulation, we obtained a new integer linear programming formulation, presenting an exponential number of variables and a polynomial number of constraints on the input data. This model is the basis for the development of a branch-and-price approach. Due to the large number of variables involved, a column-generation approach is needed to solve the linear relaxation at a generic node of the search tree. An initial feasible solution is easily found by means of heuristics and used as starting point to build the Restricted Master Problem (RMP). In order to find variables to be added to the RMP, we solve a dedicated subproblem, the pricing problem, that in our case presents a quadratic objective function. We propose different ways of solving the pricing problem. Among the exact methods, we consider the integer linear model obtained by linearizing the quadratic objective function and a Smart Enumeration approach, that partitions the set of feasible solutions and solves the pricing problem restricted to each subset, exploiting some extra available information to further reduce the size of the subproblems. As heuristic approaches, we at first note that the pricing problem is easily solved for particular haplotypes. Then, for investigating the remaining solutions we propose a local search-based heuristic and an Early-terminated Smart Enumeration, where we stop the Smart Enumeration approach as soon as we find a variable that can be added to the RMP. The oscillatory behaviour of the dual variables involved in the definition of the pricing problem is limited by introducing a stabilization technique adapted to our formulation. In particular, we extended the proof of convergence of this procedure, that consists in using dual values obtained as convex combinations between real dual variables and a chosen stability center, to the cases in which the stabilized dual variables are feasible for the dual problem. In order to solve the integer model, the solution of the linear relaxation is embedded in a branch-and-price approach. The branching rule we present is inspired to the well-known Ryan-Foster branching rule for set-partitioning problems. The correctness of our approach has been proved. Further observations on the similarity of the formulation's constraints to multiple set-covering ones suggest that we can relax a family of constraints to obtain a new formulation similar to a multiple set-covering. However, we note that the proposed branch-and-price algorithm applied to this formulation does not provide a feasible solution for HIPP, thus we need to integrate the proposed branching rule and recover a feasible optimal solution for HIPP. This branch-and-price approach has been implemented in C++, with the aid of SCIP libraries and Cplex solver. Results have been obtained from different classes of instances found in literature, coming from real biological data and generated using ad-hoc programs, as well as newly generated ones. The branch-and-price approach proposed for our formulation proves to be competitive with state-of-the-art polynomial-sized formulations. In fact, we can note how the linear relaxation of our formulation is tighter than other linear relaxations and provides an effective starting solution for the branch-and-price algorithm. Results show how our approach is efficient, in particular on the set of instances that contain a larger number of genotypes We proved therefore that a branch-and-price procedure provides a good solution approach for a formulation with exponential number of variables and polynomial number of constraints. Further work may include enhancements on the implementation details, such as exploring different ways of ordering the genotypes or combining heuristic and exact methods in the stabilized framework to solve the pricing problem. Moreover, it is possible to investigate the generalization of the proposed approach in order to solve set-partitioning problems.

Questa tesi rappresenta il risultato dello studio dettagliato di metodi di decomposizione per problemi di grandi dimensioni e la loro applicazione ad un problema particolare di biologia computazionale. I progressi nelle prestazioni dei computer e nelle tecniche di programmazione degli ultimi decenni hanno ampliato l’insieme di problemi che possono essere facilmente risolti come programmi lineari interi. Tuttavia, molte applicazioni richiedono ancora formulazioni che interessano una quantità di informazioni non trattabili per descrivere la geometria dello spazio delle soluzioni. In questi casi, vengono usati metodi di decomposizione per ridurre la dimensione del problema. In questa tesi proponiamo l’applicazione di alcuni di questi metodi, come la riformulazione di Dantzig-Wolfe, la generazione di colonne e il rilassamento Lagrangiano, ad un problema legato allo studio del genoma umano. Il DNA umano è costituito da due doppie catene formate da sequenze di nucleotidi. Tra questi nucleotidi, siamo interessati a quelli che individuano Single Nucleotide Polymorphisms (SNPs), in quanto descrivono le differenze tra individui della stessa specie. Definiamo un aplotipo come una sequenza di nucleotidi che descrivono una parte degli SNPs di un particolare cromosoma, e un genotipo come una sequenza che aggrega le informazioni sugli SNPs per una doppia catena di DNA. Il problema oggetto di studio ricade nella più ampia famiglia di problemi riguardanti l’Haplotype Inference, che consiste nel ricavare la struttura degli aplotipi avendo solo l’informazione riguardante i genotipi di una popolazione. In particolare, consideriamo il criterio di Pure Parsimony, per il quale cerchiamo il numero minimo di aplotipi necessari a formare tutti i genotipi dati. Questo problema è APX-hard. I diversi approcci usati per la soluzione di questo problema possono essere divisi in due principali categorie: la prima utilizza formulazioni con un numero polinomiale di variabili e vincoli, che sono risolte applicando un algoritmo branch-and-cut; la seconda classe presenta formulazioni con numero esponenziale di variabili e vincoli, risolte con un algoritmo di tipo branch-and-cut-and-price. Questa tesi si prefigge lo scopo di studiare come risolvere con un approccio di tipo branch-and-price una nuova formulazione che presenta un numero esponenziale di variabili e polinomiale di vincoli, ottenendo un algoritmo competitivo rispetto a quelli proposti in letteratura. Inizialmente, proponiamo un excursus nello stato dell’arte per il problema di Haplotype Inference, con particolare attenzione agli approcci di programmazione lineare intera per il problema di Haplotype Inference by Pure Parsimony (HIPP) problem. Successivamente consideriamo una nuova formulazione per HIPP che comprende un insieme di vincoli quadratici. Applicando la riformulazione di Dantzig-Wolfe, otteniamo una nuova formulazione lineare intera, con un numero esponenziale di variabili e polinomiale di vincoli. Questo modello viene usato per implementare un algoritmo di tipo branch-and-price. A causa del grande numero di variabili coinvolte, abbiamo bisogno di un algoritmo di generazione di colonne per risolvere il rilassamento lineare ad un qualsiasi nodo dell’albero di branching. Una soluzione iniziale ammissibile si trova facilmente utilizzando delle euristiche, e viene usata per costruire il Restricted Master Problem (RMP). Il pricing problem risultante è quadratico. Proponiamo diversi modi per risolvere il pricing problem. Tra i metodi esatti, consideriamo il modello lineare ottenuto linearizzando la funzione obiettivo quadratica e un algoritmo Smart Enumeration, che partiziona l’insieme di tutte le possibili soluzioni e risolve il pricing problem ristretto ad ogni singolo sottoinsieme. Per quanto riguarda le euristiche, proponiamo una local-search e una Early-terminated Smart Enumeration, in cui fermiamo la Smart Enumeration non appena troviamo una variabile da aggiungere al RMP. L’andamento oscillatorio delle variabili duali coinvolte nella definizione del pricing problem viene limitato stabilizzandole: consideriamo come coefficienti per il pricing problem una combinazione convessa tra i veri valori delle variabili duali e uno stability center scelto. Abbiamo esteso la dimostrazione di convergenza di questa procedura al caso in cui le variabili duali stabilizzate risultano essere ammissibili per il problema duale. Per risolvere il problema all’interezza, usiamo la soluzione del rilassamento lineare come punto di partenza per un algoritmo branch-and-price. La regola di branching proposta, e dimostrata corretta, si ispira alla famosa regola di Ryan-Foster per problemi di tipo set-partitioning. Ulteriori osservazioni sulla similitudine tra I vincoli della formulazione e un set-covering multiplo suggerisce di rilassare la formulazione. Tuttavia, l’algoritmo branch-and-price proposto finora potrebbe non restituire una soluzione ammissibile per HIPP, quindi bisogna ampliare la regola di branching proposta per recuperare la soluzione ottima. Abbiamo implementato l’algoritmo branch-and-price proposto in C++, con l’aiuto delle librerie SCIP e il solutore Cplex, e l’abbiamo testato su diverse classi di istanze usate in letteratura, sia simulate che derivanti da dati reali, e istanze create ad hoc. L’algoritmo proposto per la nostra formulazione risulta essere competitivo con i metodi di soluzione di formulazioni polinomiali dello stato dell’arte. Infatti, notiamo che la distanza tra il rilassamento lineare e l’inviluppo convesso è minore per la nostra formulazione rispetto alle altre formulazioni. I risultati computazionali mostrano l’efficienza del nostro algoritmo, in particolare sull’insieme di istanze che presentano un numero maggiore di genotipi. Abbiamo quindi mostrato come una procedura di tipo branch-and-price fornisce un buon metodo per risolvere problemi la cui formulazione presenta un numero esponenziale di variabili e un numero polinomiale di vincoli. Futuri sviluppi possono riguardare miglioramentii nei dettagli implementativi, ad esempio considerando diversi ordinamenti per i genotipi o combinando metodi esatti e altre euristiche per la risoluzione del pricing problem. Inoltre, si potrebbe generalizzare il metodo proposto per la risoluzione di problemi di tipo set-partitioning.

A branch-and-price approach for Pure Parsimony haplotyping / Dal Sasso, Veronica. - (2017 Jan 31).

A branch-and-price approach for Pure Parsimony haplotyping

Dal Sasso, Veronica
2017

Abstract

Questa tesi rappresenta il risultato dello studio dettagliato di metodi di decomposizione per problemi di grandi dimensioni e la loro applicazione ad un problema particolare di biologia computazionale. I progressi nelle prestazioni dei computer e nelle tecniche di programmazione degli ultimi decenni hanno ampliato l’insieme di problemi che possono essere facilmente risolti come programmi lineari interi. Tuttavia, molte applicazioni richiedono ancora formulazioni che interessano una quantità di informazioni non trattabili per descrivere la geometria dello spazio delle soluzioni. In questi casi, vengono usati metodi di decomposizione per ridurre la dimensione del problema. In questa tesi proponiamo l’applicazione di alcuni di questi metodi, come la riformulazione di Dantzig-Wolfe, la generazione di colonne e il rilassamento Lagrangiano, ad un problema legato allo studio del genoma umano. Il DNA umano è costituito da due doppie catene formate da sequenze di nucleotidi. Tra questi nucleotidi, siamo interessati a quelli che individuano Single Nucleotide Polymorphisms (SNPs), in quanto descrivono le differenze tra individui della stessa specie. Definiamo un aplotipo come una sequenza di nucleotidi che descrivono una parte degli SNPs di un particolare cromosoma, e un genotipo come una sequenza che aggrega le informazioni sugli SNPs per una doppia catena di DNA. Il problema oggetto di studio ricade nella più ampia famiglia di problemi riguardanti l’Haplotype Inference, che consiste nel ricavare la struttura degli aplotipi avendo solo l’informazione riguardante i genotipi di una popolazione. In particolare, consideriamo il criterio di Pure Parsimony, per il quale cerchiamo il numero minimo di aplotipi necessari a formare tutti i genotipi dati. Questo problema è APX-hard. I diversi approcci usati per la soluzione di questo problema possono essere divisi in due principali categorie: la prima utilizza formulazioni con un numero polinomiale di variabili e vincoli, che sono risolte applicando un algoritmo branch-and-cut; la seconda classe presenta formulazioni con numero esponenziale di variabili e vincoli, risolte con un algoritmo di tipo branch-and-cut-and-price. Questa tesi si prefigge lo scopo di studiare come risolvere con un approccio di tipo branch-and-price una nuova formulazione che presenta un numero esponenziale di variabili e polinomiale di vincoli, ottenendo un algoritmo competitivo rispetto a quelli proposti in letteratura. Inizialmente, proponiamo un excursus nello stato dell’arte per il problema di Haplotype Inference, con particolare attenzione agli approcci di programmazione lineare intera per il problema di Haplotype Inference by Pure Parsimony (HIPP) problem. Successivamente consideriamo una nuova formulazione per HIPP che comprende un insieme di vincoli quadratici. Applicando la riformulazione di Dantzig-Wolfe, otteniamo una nuova formulazione lineare intera, con un numero esponenziale di variabili e polinomiale di vincoli. Questo modello viene usato per implementare un algoritmo di tipo branch-and-price. A causa del grande numero di variabili coinvolte, abbiamo bisogno di un algoritmo di generazione di colonne per risolvere il rilassamento lineare ad un qualsiasi nodo dell’albero di branching. Una soluzione iniziale ammissibile si trova facilmente utilizzando delle euristiche, e viene usata per costruire il Restricted Master Problem (RMP). Il pricing problem risultante è quadratico. Proponiamo diversi modi per risolvere il pricing problem. Tra i metodi esatti, consideriamo il modello lineare ottenuto linearizzando la funzione obiettivo quadratica e un algoritmo Smart Enumeration, che partiziona l’insieme di tutte le possibili soluzioni e risolve il pricing problem ristretto ad ogni singolo sottoinsieme. Per quanto riguarda le euristiche, proponiamo una local-search e una Early-terminated Smart Enumeration, in cui fermiamo la Smart Enumeration non appena troviamo una variabile da aggiungere al RMP. L’andamento oscillatorio delle variabili duali coinvolte nella definizione del pricing problem viene limitato stabilizzandole: consideriamo come coefficienti per il pricing problem una combinazione convessa tra i veri valori delle variabili duali e uno stability center scelto. Abbiamo esteso la dimostrazione di convergenza di questa procedura al caso in cui le variabili duali stabilizzate risultano essere ammissibili per il problema duale. Per risolvere il problema all’interezza, usiamo la soluzione del rilassamento lineare come punto di partenza per un algoritmo branch-and-price. La regola di branching proposta, e dimostrata corretta, si ispira alla famosa regola di Ryan-Foster per problemi di tipo set-partitioning. Ulteriori osservazioni sulla similitudine tra I vincoli della formulazione e un set-covering multiplo suggerisce di rilassare la formulazione. Tuttavia, l’algoritmo branch-and-price proposto finora potrebbe non restituire una soluzione ammissibile per HIPP, quindi bisogna ampliare la regola di branching proposta per recuperare la soluzione ottima. Abbiamo implementato l’algoritmo branch-and-price proposto in C++, con l’aiuto delle librerie SCIP e il solutore Cplex, e l’abbiamo testato su diverse classi di istanze usate in letteratura, sia simulate che derivanti da dati reali, e istanze create ad hoc. L’algoritmo proposto per la nostra formulazione risulta essere competitivo con i metodi di soluzione di formulazioni polinomiali dello stato dell’arte. Infatti, notiamo che la distanza tra il rilassamento lineare e l’inviluppo convesso è minore per la nostra formulazione rispetto alle altre formulazioni. I risultati computazionali mostrano l’efficienza del nostro algoritmo, in particolare sull’insieme di istanze che presentano un numero maggiore di genotipi. Abbiamo quindi mostrato come una procedura di tipo branch-and-price fornisce un buon metodo per risolvere problemi la cui formulazione presenta un numero esponenziale di variabili e un numero polinomiale di vincoli. Futuri sviluppi possono riguardare miglioramentii nei dettagli implementativi, ad esempio considerando diversi ordinamenti per i genotipi o combinando metodi esatti e altre euristiche per la risoluzione del pricing problem. Inoltre, si potrebbe generalizzare il metodo proposto per la risoluzione di problemi di tipo set-partitioning.
31-gen-2017
This thesis comes as the result of a detailed study of decomposition methods for large-scale problems and their application to a particular problem arising in computational biology. The improvements on computer capabilities and programming techniques in the last decades have widened the set of problems that can be easily solved as Mixed Integer Linear programs. However, several applications still require formulations that involve a non-tractable amount of data necessary to describe the geometry of the solution space. In these cases, decomposition methods are used to reduce the size of the problems to be addressed. In this thesis we propose the application of some of these methods, as Dantzig-Wolfe reformulation, column generation and Lagrangian relaxation, to a problem related to the study of the human genome. The human DNA is made of two double chains, each of which consists in a sequence of nucleotides. Among these, the ones related to the Single Nucleotide Polymorphisms (SNPs) are interesting as they describe the differences between individuals. We define a haplotype as a sequence of nucleotides that describes a portion of the SNPs found in a particular chromosome, and a genotype as the sequence that aggregates the information on SNPs coming from the double DNA chain of an individual. The problem we address falls into the class defining the Haplotyping Inference problem, that consists in recovering the structure of the haplotypes, given the information on the genotypes. In particular, we consider the parsimony criterion, which means that we want to find the minimum number of haplotypes able to explain all the genotypes. This problem is known to be APX-hard. There are several contributions in the literature that can be divided into two main different classes of mixed integer linear formulations. The first one presents a polynomial number of both variables and constraints, thus these formulations are solved using a branch-and-cut approach. The second class consists of formulations that present an exponential number of constraints and variables, solved with a branch-and-cut-and-price approach. The scope of this thesis is to investigate how a new formulation that involves an exponential number of variables and a polynomial number of constraints can be solved by a branch-and-price approach. Its aim is to provide a competitive algorithm with respect to other formulations from the literature, in particular those with a polynomial number of constraints and variables. We start by providing a review of the state of the art on the Haplotype Inference problem, with particular focus on the Mixed Integer Linear programming approaches for the Haplotype Inference by Pure Parsimony (HIPP) problem. We then consider a new mathematical programming formulation for HIPP that includes a set of quadratic constraints. By applying Dantzig-Wolfe reformulation, we obtained a new integer linear programming formulation, presenting an exponential number of variables and a polynomial number of constraints on the input data. This model is the basis for the development of a branch-and-price approach. Due to the large number of variables involved, a column-generation approach is needed to solve the linear relaxation at a generic node of the search tree. An initial feasible solution is easily found by means of heuristics and used as starting point to build the Restricted Master Problem (RMP). In order to find variables to be added to the RMP, we solve a dedicated subproblem, the pricing problem, that in our case presents a quadratic objective function. We propose different ways of solving the pricing problem. Among the exact methods, we consider the integer linear model obtained by linearizing the quadratic objective function and a Smart Enumeration approach, that partitions the set of feasible solutions and solves the pricing problem restricted to each subset, exploiting some extra available information to further reduce the size of the subproblems. As heuristic approaches, we at first note that the pricing problem is easily solved for particular haplotypes. Then, for investigating the remaining solutions we propose a local search-based heuristic and an Early-terminated Smart Enumeration, where we stop the Smart Enumeration approach as soon as we find a variable that can be added to the RMP. The oscillatory behaviour of the dual variables involved in the definition of the pricing problem is limited by introducing a stabilization technique adapted to our formulation. In particular, we extended the proof of convergence of this procedure, that consists in using dual values obtained as convex combinations between real dual variables and a chosen stability center, to the cases in which the stabilized dual variables are feasible for the dual problem. In order to solve the integer model, the solution of the linear relaxation is embedded in a branch-and-price approach. The branching rule we present is inspired to the well-known Ryan-Foster branching rule for set-partitioning problems. The correctness of our approach has been proved. Further observations on the similarity of the formulation's constraints to multiple set-covering ones suggest that we can relax a family of constraints to obtain a new formulation similar to a multiple set-covering. However, we note that the proposed branch-and-price algorithm applied to this formulation does not provide a feasible solution for HIPP, thus we need to integrate the proposed branching rule and recover a feasible optimal solution for HIPP. This branch-and-price approach has been implemented in C++, with the aid of SCIP libraries and Cplex solver. Results have been obtained from different classes of instances found in literature, coming from real biological data and generated using ad-hoc programs, as well as newly generated ones. The branch-and-price approach proposed for our formulation proves to be competitive with state-of-the-art polynomial-sized formulations. In fact, we can note how the linear relaxation of our formulation is tighter than other linear relaxations and provides an effective starting solution for the branch-and-price algorithm. Results show how our approach is efficient, in particular on the set of instances that contain a larger number of genotypes We proved therefore that a branch-and-price procedure provides a good solution approach for a formulation with exponential number of variables and polynomial number of constraints. Further work may include enhancements on the implementation details, such as exploring different ways of ordering the genotypes or combining heuristic and exact methods in the stabilized framework to solve the pricing problem. Moreover, it is possible to investigate the generalization of the proposed approach in order to solve set-partitioning problems.
combinatorial optimization, branch-and-price, haplotyping
A branch-and-price approach for Pure Parsimony haplotyping / Dal Sasso, Veronica. - (2017 Jan 31).
File in questo prodotto:
File Dimensione Formato  
DalSasso_Veronica_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 1.53 MB
Formato Adobe PDF
1.53 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3425709
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact