The objective of an Information Retrieval system is to support the user when he searches for information by predicting the documents relevant to his information need. Prediction is performed on the basis of evidence available during the search process. User interactions are examples of sources from which this evidence can be gathered. This thesis addresses the problem of uniformly modeling heterogeneous forms of user interaction that are selected as sources for feedback. The problem of uniform source modeling is addressed by way of a complete methodology. The methodology aims at designing, implementing and evaluating a system that validates an experimental hypothesis. The hypothesis being validated regards the possible factors that can explain the user perception of relevance through the evidence gathered from the user interaction. The objective is to obtain and exploit a usable representation of the factors in the role of a new dimension of the information need representation. The methodology aims at being general and not tailored to a specific source. The methodology defines the set of steps needed for obtaining a vector subspace-based representation of the information need dimensions to further exploit this representation for relevance prediction purposes. The set of steps identified are source selection, evidence collection, dimension modeling, document modeling and prediction. This thesis shows how the methodology can be used for modeling two sources of evidence: term relationship in documents judged as relevant and the relationship between interaction features gathered from the behavior of the user when interacting with a set of documents. As for the term relationship dimension, this thesis shows that the current implementation of term relationship is feasible with a very large text collection delivered within the 2009 and 2010 Relevance Feedback tracks of the Text Retrieval Conference initiative. The methodology has supported the evaluation of term relationship for document re-ranking. As for interaction feature relationships, this thesis investigates the adoption of the user behavior dimension for document re-ranking both without query expansion and with query expansion.

L'obiettivo di un sistema di reperimento dell'informazione è quello di supportare l'utente in cerca di informazioni predicendo quali documenti siano rilevanti per la sua esigenza informativa. La predizione di rilevanza è effettuata sulla base dell'evidenza disponibile durante il processo di reperimento. Le interazioni che coivolgono l'utente sono esempi di sorgenti di evidenza. Questa tesi affronta il problema della modellazione uniforme di forme eterogenee di interazione utilizzate come sorgenti di retroazione. Il problema della modellazione uniforme delle sorgenti è affrontato mediante l'introduzione di una metodologia, finalizzata alla progettazione, la realizzazione e la valutazione di un sistema per validare ipotesi sperimentali. Le ipotesi riguardano i possibili fattori che possano spiegare la percezione di rilevanza dell'utente sulla base dell'evidenza ottenuta da interazioni che coinvolgano l'utente stesso. L'obiettivo è quello di ottenere una rappresentazione dei fattori che possa essere utilizzata come una nuova dimensione della rappresentazione dell'esigenza informativa. La metodologia si propone di essere generale e non specifica per una particolare sorgente. Essa definisce una serie di passi necessari per ottenere una rappresentazione in termini di sottospazi delle dimensioni della rappresentazione dell'esigenza informativa per poi utilizzare tale rappresentazione al fine della predizione. La tesi applica la metodologia per modellare due sorgenti di evidenza: le relazioni tra i termini nei documenti giudicati rilevanti e la relazione tra attributi utilizzati per caratterizzare il comportamento dell'utente durante l'interazione con i documenti. In merito alla relazione tra i termini questa tesi mostra come la attuale implementazione per questa sorgente possa essere utilizzata per effettuare il reperimento su collezioni molto ampie, in particolare quelle adottate nelle campagne di valutazione dell'iniziativa Text Retrieval Conference, nello specifico nelle track di Relevance Feedback tenutesi nel 2009 e nel 2010. La metodologia ha consentito di supportare la valutazione del riordinamento dei documenti basato sulle relazioni tra i termini. In merito alle relazioni tra attributi per caratterizzare il comportamento dell'utente questa tesi investiga l'utilizzo di una dimensione basata su tale sorgente per effettuare un riordinamento dei documenti sia unicamente basato sul comportamento, sia mediante espansione dell'interrogazione.

Design, Implementation and Evaluation of a Methodology for Utilizing Sources of Evidence in Relevance Feedback / Di Buccio, Emanuele. - (2011 Jan 31).

Design, Implementation and Evaluation of a Methodology for Utilizing Sources of Evidence in Relevance Feedback

Di Buccio, Emanuele
2011

Abstract

L'obiettivo di un sistema di reperimento dell'informazione è quello di supportare l'utente in cerca di informazioni predicendo quali documenti siano rilevanti per la sua esigenza informativa. La predizione di rilevanza è effettuata sulla base dell'evidenza disponibile durante il processo di reperimento. Le interazioni che coivolgono l'utente sono esempi di sorgenti di evidenza. Questa tesi affronta il problema della modellazione uniforme di forme eterogenee di interazione utilizzate come sorgenti di retroazione. Il problema della modellazione uniforme delle sorgenti è affrontato mediante l'introduzione di una metodologia, finalizzata alla progettazione, la realizzazione e la valutazione di un sistema per validare ipotesi sperimentali. Le ipotesi riguardano i possibili fattori che possano spiegare la percezione di rilevanza dell'utente sulla base dell'evidenza ottenuta da interazioni che coinvolgano l'utente stesso. L'obiettivo è quello di ottenere una rappresentazione dei fattori che possa essere utilizzata come una nuova dimensione della rappresentazione dell'esigenza informativa. La metodologia si propone di essere generale e non specifica per una particolare sorgente. Essa definisce una serie di passi necessari per ottenere una rappresentazione in termini di sottospazi delle dimensioni della rappresentazione dell'esigenza informativa per poi utilizzare tale rappresentazione al fine della predizione. La tesi applica la metodologia per modellare due sorgenti di evidenza: le relazioni tra i termini nei documenti giudicati rilevanti e la relazione tra attributi utilizzati per caratterizzare il comportamento dell'utente durante l'interazione con i documenti. In merito alla relazione tra i termini questa tesi mostra come la attuale implementazione per questa sorgente possa essere utilizzata per effettuare il reperimento su collezioni molto ampie, in particolare quelle adottate nelle campagne di valutazione dell'iniziativa Text Retrieval Conference, nello specifico nelle track di Relevance Feedback tenutesi nel 2009 e nel 2010. La metodologia ha consentito di supportare la valutazione del riordinamento dei documenti basato sulle relazioni tra i termini. In merito alle relazioni tra attributi per caratterizzare il comportamento dell'utente questa tesi investiga l'utilizzo di una dimensione basata su tale sorgente per effettuare un riordinamento dei documenti sia unicamente basato sul comportamento, sia mediante espansione dell'interrogazione.
31-gen-2011
The objective of an Information Retrieval system is to support the user when he searches for information by predicting the documents relevant to his information need. Prediction is performed on the basis of evidence available during the search process. User interactions are examples of sources from which this evidence can be gathered. This thesis addresses the problem of uniformly modeling heterogeneous forms of user interaction that are selected as sources for feedback. The problem of uniform source modeling is addressed by way of a complete methodology. The methodology aims at designing, implementing and evaluating a system that validates an experimental hypothesis. The hypothesis being validated regards the possible factors that can explain the user perception of relevance through the evidence gathered from the user interaction. The objective is to obtain and exploit a usable representation of the factors in the role of a new dimension of the information need representation. The methodology aims at being general and not tailored to a specific source. The methodology defines the set of steps needed for obtaining a vector subspace-based representation of the information need dimensions to further exploit this representation for relevance prediction purposes. The set of steps identified are source selection, evidence collection, dimension modeling, document modeling and prediction. This thesis shows how the methodology can be used for modeling two sources of evidence: term relationship in documents judged as relevant and the relationship between interaction features gathered from the behavior of the user when interacting with a set of documents. As for the term relationship dimension, this thesis shows that the current implementation of term relationship is feasible with a very large text collection delivered within the 2009 and 2010 Relevance Feedback tracks of the Text Retrieval Conference initiative. The methodology has supported the evaluation of term relationship for document re-ranking. As for interaction feature relationships, this thesis investigates the adoption of the user behavior dimension for document re-ranking both without query expansion and with query expansion.
Information Retrieval, Relevance Feedback, User Behavior
Design, Implementation and Evaluation of a Methodology for Utilizing Sources of Evidence in Relevance Feedback / Di Buccio, Emanuele. - (2011 Jan 31).
File in questo prodotto:
File Dimensione Formato  
thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 4.53 MB
Formato Adobe PDF
4.53 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3421639
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact