Il progetto Atti Chiari, volto a raccogliere il primo grande corpus italiano di atti di parte, presenta stringenti requisiti di ordine legale e numerose peculiarità sul piano della lingua e dei contenuti, che hanno reso necessario progettare e implementare una serie di processi e di strumenti ad hoc. In particolare, al fine di eliminare ogni dato personale dai documenti, senza tuttavia distruggerne il tessuto linguistico e comprometterne la leggibilità, si è creata una procedura di pseudonimizzazione funzionale anche alla successiva indicizzazione e ricerca. La molteplicità dei metadati derivanti da questo processo e delle relative fonti converge poi in un sistema di ricerca basato su un motore specificamente disegnato per trattare testi in qualsiasi formato dotati di grandi quantità di annotazioni, anche relative a strutture testuali eterogenee e liberamente sovrapponibili. La combinazione di tutte queste strutture e dei loro metadati in una ricerca è resa possibile da un approccio più astratto, dove il testo viene in certo modo smaterializzato in un insieme di oggetti dotati di metadati aperti, risultando in una modellazione modulare riflessa anche in una procedura di indicizzazione.

Testi in maschera: nuovi strumenti per la sicurezza e l’analisi linguistica di corpora giuridici

Francesca Fusco
;
Giulia Lombardi
2023

Abstract

Il progetto Atti Chiari, volto a raccogliere il primo grande corpus italiano di atti di parte, presenta stringenti requisiti di ordine legale e numerose peculiarità sul piano della lingua e dei contenuti, che hanno reso necessario progettare e implementare una serie di processi e di strumenti ad hoc. In particolare, al fine di eliminare ogni dato personale dai documenti, senza tuttavia distruggerne il tessuto linguistico e comprometterne la leggibilità, si è creata una procedura di pseudonimizzazione funzionale anche alla successiva indicizzazione e ricerca. La molteplicità dei metadati derivanti da questo processo e delle relative fonti converge poi in un sistema di ricerca basato su un motore specificamente disegnato per trattare testi in qualsiasi formato dotati di grandi quantità di annotazioni, anche relative a strutture testuali eterogenee e liberamente sovrapponibili. La combinazione di tutte queste strutture e dei loro metadati in una ricerca è resa possibile da un approccio più astratto, dove il testo viene in certo modo smaterializzato in un insieme di oggetti dotati di metadati aperti, risultando in una modellazione modulare riflessa anche in una procedura di indicizzazione.
File in questo prodotto:
Non ci sono file associati a questo prodotto.
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3502234
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus 0
  • ???jsp.display-item.citation.isi??? ND
social impact