Étude textometrique de l’œuvre de Milan Kundera. À la recherche de la « pepite d’or »

Beghini, Federica

This study consists of an integrated linguistic analysis of the work of Milan Kundera, a naturalized Czech writer. By integrated analysis, we mean a linguistic study carried out through qualitative and quantitative methods. These methods belong to the field of textometry, a discipline whose objective is to analyse textual corpora through computer processing (Guiraud, 1960; Lebart, Salem, 1994; Pincemin, 2020). More generally, this work could therefore be included in the field of stylometry, since this textometric analysis is functional to the characterization of a writing style (Magri, 2010). Indeed, the main objective of this research is to detect by contrast the elements that define Kundera's prose. To this end, two corpora were composed: a corpus of study and a reference corpus (Rastier, 2011). The first comprehends almost all the texts of Kundera's Œuvre I, II (Gallimard, Pléiade). The second is representative of the French literary landscape of the period in which Kundera published his texts (1968-2013). In order to compile the latter corpus, we have selected those texts which, on the basis of certain criteria (literary prizes, literary studies, critics' works), can be considered the most significant of the aforementioned literary period. The corpora were first digitised and then examined using the textometry software Hyperbase (web and standard version), which employs both classical statistical methods and deep learning techniques (CNN, Convolutional neural network). This software allows various analyses on lexical, morphosyntactic and semantic levels. In particular, the following elements have been investigated: the vocabulary structure, morphological and syntactic aspects, morphosyntactic and multidimensional patterns, and finally the thematic structure. These elements were examined in an endogenous analysis of the corpus of study and in a series of exogenous analyses between the corpus of study and the reference corpus. Indeed, comparative studies between Kundera's work and the contrastive norm represented by the reference corpus aim to isolate the linguistic characteristics of the literary language of the time in novels, essays and short stories, in order to detect the distinguishing elements of Kundera's prose that differ from the linguistic model of his contemporaries' literary language. In addition, endogenous analyses of Kundera's work – made possible by the creation of subcorpora – can account for stylistic constants that are independent of genre, period and/or language, as well as for linguistic variants determined by literary genre, diachronic and/or linguistic variability. In conclusion, this study employs an integrated methodology (linguistics, statistics, deep learning) with the aim of defining the prototypical features of Kundera's idiolect, that is, the most significant elements that distinguish his writing from that of a representative sample of his contemporary French authors.

Cette étude consiste en une analyse linguistique intégrée de l’œuvre de Milan Kundera, écrivain tchèque naturalisé français. Par analyse intégrée, nous entendons une étude linguistique menée à l’aide des méthodes qualitatives et quantitatives. Plus précisément, les méthodes utilisées appartiennent au domaine de la textométrie, discipline dont l’objectif est d’analyser les corpus textuels par le biais d’un traitement informatisé (Guiraud, 1960 ; Lebart, Salem, 1994 ; Pincemin, 2020). Plus généralement, ces travaux pourraient donc être inclus dans le domaine de la stylométrie, puisque cette analyse textométrique est fonctionnelle à la « caractérisation d'une écriture » (Magri, 2010). En effet, l'objectif principal de cette recherche est de détecter par contraste les éléments qui définissent la prose de Kundera. Pour ce faire, deux corpus ont été composés : un corpus d’étude et un corpus de référence (Rastier, 2011). Le premier correspond à la quasi-totalité des textes de l’Œuvre I, II de Kundera (Éd. Gallimard, Pléiade). Le second est représentatif du paysage littéraire français de la période d'activité de Kundera (1968-2013). Pour le compiler, nous avons sélectionné les textes qui, sur la base de certains critères (prix littéraires, études littéraires, commentaires des critiques), peuvent être considérés comme les plus significatifs de cette période littéraire. Ces corpus ont été d’abord numérisés et ensuite examinés à l’aide du logiciel de textométrie Hyperbase (version web et standard), qui emploie à la fois les méthodes classiques d’exploration statistique et le deep learning ou apprentissage profond. Ce logiciel permet diverses analyses aux différents niveaux lexical, morphosyntaxique et sémantique. En particulier, les éléments suivants ont fait l’objet de l’étude : la structure du vocabulaire (la distribution des fréquences, des hapax, la richesse lexicale, la diversité du vocabulaire et l’accroissement lexical) ; les aspects morphologiques et syntaxiques qui peuvent être examinés grâce aux versions lemmatisées et étiquetées des corpus ; les motifs morphosyntaxiques et multidimensionnels ; le contenu lexical et thématique (les spécificités lexicales, les isotopies et les thèmes récurrents). Ces éléments ont été examinés lors d’une analyse endogène du corpus d'étude et d’une série d'analyses exogènes avec le corpus de référence. En effet, les études comparatives avec le second corpus permettent de neutraliser les caractéristiques linguistiques conformes à la langue littéraire de l'époque dans le genre du roman, de l'essai et de la nouvelle, afin de faire ressortir les éléments de la prose de Kundera qui se distinguent de ce modèle linguistique représentatif de la langue littéraire contemporaine. En outre, les analyses endogènes de l'œuvre de Kundera, possibles grâce à la compilation de sous-corpus, peuvent rendre compte à la fois des constantes stylistiques qui ne varient pas selon le genre, la période ou la langue et des variantes linguistiques qui dépendent des variables diachroniques, génériques et linguistiques. En conclusion, cette étude emploie une méthodologie intégrée (linguistique, statistique, informatique) dans le but de faire ressortir les caractéristiques prototypiques de l’idiolecte de Kundera, à savoir les éléments les plus significatifs de son écriture qui la distinguent de celle d’un échantillon représentatif d’auteurs français à lui contemporains.

Étude textometrique de l’œuvre de Milan Kundera. À la recherche de la « pepite d’or » / Beghini, Federica. - (2023 May 04).

Étude textometrique de l’œuvre de Milan Kundera. À la recherche de la « pepite d’or »

BEGHINI, FEDERICA

2023

Abstract

This study consists of an integrated linguistic analysis of the work of Milan Kundera, a naturalized Czech writer. By integrated analysis, we mean a linguistic study carried out through qualitative and quantitative methods. These methods belong to the field of textometry, a discipline whose objective is to analyse textual corpora through computer processing (Guiraud, 1960; Lebart, Salem, 1994; Pincemin, 2020). More generally, this work could therefore be included in the field of stylometry, since this textometric analysis is functional to the characterization of a writing style (Magri, 2010). Indeed, the main objective of this research is to detect by contrast the elements that define Kundera's prose. To this end, two corpora were composed: a corpus of study and a reference corpus (Rastier, 2011). The first comprehends almost all the texts of Kundera's Œuvre I, II (Gallimard, Pléiade). The second is representative of the French literary landscape of the period in which Kundera published his texts (1968-2013). In order to compile the latter corpus, we have selected those texts which, on the basis of certain criteria (literary prizes, literary studies, critics' works), can be considered the most significant of the aforementioned literary period. The corpora were first digitised and then examined using the textometry software Hyperbase (web and standard version), which employs both classical statistical methods and deep learning techniques (CNN, Convolutional neural network). This software allows various analyses on lexical, morphosyntactic and semantic levels. In particular, the following elements have been investigated: the vocabulary structure, morphological and syntactic aspects, morphosyntactic and multidimensional patterns, and finally the thematic structure. These elements were examined in an endogenous analysis of the corpus of study and in a series of exogenous analyses between the corpus of study and the reference corpus. Indeed, comparative studies between Kundera's work and the contrastive norm represented by the reference corpus aim to isolate the linguistic characteristics of the literary language of the time in novels, essays and short stories, in order to detect the distinguishing elements of Kundera's prose that differ from the linguistic model of his contemporaries' literary language. In addition, endogenous analyses of Kundera's work – made possible by the creation of subcorpora – can account for stylistic constants that are independent of genre, period and/or language, as well as for linguistic variants determined by literary genre, diachronic and/or linguistic variability. In conclusion, this study employs an integrated methodology (linguistics, statistics, deep learning) with the aim of defining the prototypical features of Kundera's idiolect, that is, the most significant elements that distinguish his writing from that of a representative sample of his contemporary French authors.

Scheda breve

Scheda completa

Scheda completa (DC)

	Titolo in inglese
	
				A textometric study of the work of Milan Kundera. In search of the "gold nugget"
			
	Anno di discussione
	
				4-mag-2023
			
	Abstract
	
				Cette étude consiste en une analyse linguistique intégrée de l’œuvre de Milan Kundera, écrivain tchèque naturalisé français. Par analyse intégrée, nous entendons une étude linguistique menée à l’aide des méthodes qualitatives et quantitatives. Plus précisément, les méthodes utilisées appartiennent au domaine de la textométrie, discipline dont l’objectif est d’analyser les corpus textuels par le biais d’un traitement informatisé (Guiraud, 1960 ; Lebart, Salem, 1994 ; Pincemin, 2020). Plus généralement, ces travaux pourraient donc être inclus dans le domaine de la stylométrie, puisque cette analyse textométrique est fonctionnelle à la « caractérisation d'une écriture » (Magri, 2010). 

En effet, l'objectif principal de cette recherche est de détecter par contraste les éléments qui définissent la prose de Kundera. Pour ce faire, deux corpus ont été composés : un corpus d’étude et un corpus de référence (Rastier, 2011). Le premier correspond à la quasi-totalité des textes de l’Œuvre I, II de Kundera (Éd. Gallimard, Pléiade). Le second est représentatif du paysage littéraire français de la période d'activité de Kundera (1968-2013). Pour le compiler, nous avons sélectionné les textes qui, sur la base de certains critères (prix littéraires, études littéraires, commentaires des critiques), peuvent être considérés comme les plus significatifs de cette période littéraire. 

Ces corpus ont été d’abord numérisés et ensuite examinés à l’aide du logiciel de textométrie Hyperbase (version web et standard), qui emploie à la fois les méthodes classiques d’exploration statistique et le deep learning ou apprentissage profond.

Ce logiciel permet diverses analyses aux différents niveaux lexical, morphosyntaxique et sémantique. En particulier, les éléments suivants ont fait l’objet de l’étude : la structure du vocabulaire (la distribution des fréquences, des hapax, la richesse lexicale, la diversité du vocabulaire et l’accroissement lexical) ; les aspects morphologiques et syntaxiques qui peuvent être examinés grâce aux versions lemmatisées et étiquetées des corpus ; les motifs morphosyntaxiques et multidimensionnels ; le contenu lexical et thématique (les spécificités lexicales, les isotopies et les thèmes récurrents). 

Ces éléments ont été examinés lors d’une analyse endogène du corpus d'étude et d’une série d'analyses exogènes avec le corpus de référence. En effet, les études comparatives avec le second corpus permettent de neutraliser les caractéristiques linguistiques conformes à la langue littéraire de l'époque dans le genre du roman, de l'essai et de la nouvelle, afin de faire ressortir les éléments de la prose de Kundera qui se distinguent de ce modèle linguistique représentatif de la langue littéraire contemporaine. En outre, les analyses endogènes de l'œuvre de Kundera, possibles grâce à la compilation de sous-corpus, peuvent rendre compte à la fois des constantes stylistiques qui ne varient pas selon le genre, la période ou la langue et des variantes linguistiques qui dépendent des variables diachroniques, génériques et linguistiques.

En conclusion, cette étude emploie une méthodologie intégrée (linguistique, statistique, informatique) dans le but de faire ressortir les caractéristiques prototypiques de l’idiolecte de Kundera, à savoir les éléments les plus significatifs de son écriture qui la distinguent de celle d’un échantillon représentatif d’auteurs français à lui contemporains.
			
	Citazione
	
				Étude textometrique de l’œuvre de Milan Kundera. À la recherche de la « pepite d’or » / Beghini, Federica. - (2023 May 04).
			
	Appare nelle tipologie:
	
				08.01 - Tesi di Dottorato UNIPD (Deposito Legale)

File in questo prodotto:

File	Dimensione	Formato
Beghini_tesi_definitiva.pdf Open Access dal 04/05/2026 Descrizione: Tesi Tipologia: Tesi di dottorato Licenza: Altro Dimensione 12.78 MB Formato Adobe PDF Visualizza/Apri	12.78 MB	Adobe PDF	Visualizza/Apri