imageLarge

Développements de la banque de données de textes latins

Plusieurs œuvres latines sont actuellement en cours de traitement : pour la littérature classique, l’analyse des Lettres de Pline le Jeune (J. Denooz) est en voie d’achèvement ; l’histoire romaine de Tite-Live (environ 500.000 mots) est actuellement traitée par un jeune philologue liégeois, B. Lhoest, les Douze Césars de Suétone par E. Evrard et C. Phillipart, l’œuvre de Cornelius Nepos par D. Longrée. Pour la littérature néo-latine, les Lettres de Turquie de Ghislain Augier de Busbeck, sont analysées par L. Grailet, dans le cadre de la préparation d’un doctorat consacrée à la langue de cette œuvre.

Par ailleurs, le LASLA développe de nouvelles procédures de lemmatisation : couplage du lemmatiseur avec un étiqueteur entraînable et mise en ligne d’une interface de lemmatisation :

  • Poudat C. et Longrée D., Variations langagières et annotation morphosyntaxique du latin classique.
    Article soumis pour publication dans la revue TAL. (2009)
  • Longrée D. et Poudat C., Linguistic taggers and syntactic parsers for Classical and post-Classical Latin : the new projects of the LASLA.
    Communication dans le cadre de la table ronde « Computational Linguistics and Latin Philology », XVe Colloque international de Linguistique latine, Innsbruck, 4-9 avril 2009.
  • Longrée D. et Poudat C., Latin du Haut Moyen Age et annotation morphosyntaxique automatique : quelles perspectives ?
    Communication au IXe Colloque international « Latin vulgaire – Latin tardif » (LVLT9), Lyon, 2-6 septembre 2009, en préparation.

Grammaticométrie et classification des textes historiques latins

En collaboration étroite avec l’UMR 6039 «Bases, corpus et langage» (CNRS-Université de Nice), le LASLA a initié un programme de recherche intitulé « Lemmatisation, grammaticométrie et topologie textuelle : des outils pour la classification des textes historiques latins ». Ce programme, bénéficiant du soutien du CGRI de la Communauté française de Belgique, du FNRS et du CNRS, a comme objectifs :

  • de fonder la classification des textes sur des critères strictement linguistiques, évalués et analysés au moyen des outils de la statistique linguistique la plus récente et de la topologie textuelle.
  • d’établir ainsi une classification endogène des textes historiques latins, de la fonder objectivement et de la confronter aux classifications établies a priori (annales vs. commentaires vs. biographies).
  • de faire progresser les outils d’analyse par le développement de méthodologies toujours mieux adaptées à la nature des données traitées et à la spécificité de leur organisation textuelle.
  • d’appliquer ces outils au classement des textes latins médiévaux ou néolatins, principalement dans le cadre des recherches menées par C. Philippart et par Laurent Grailet, et de valider par là même une nouvelle méthodologie pour la modélisation des typologies textuelles.

Références

Motifs syntaxiques et topologie textuelle

Ce programme de recherche, mené avec le soutien de Wallonie-Bruxelles international, du FNRS et du CNRS, est le fruit d’une autre collaboration du LASLA avec l’UMR 6039 «Bases, corpus et langage» (CNRS-Université de Nice). Son objectif est de contribuer au développement actuel de nouvelles approches en linguistique textuelle, en prenant appui sur des analyses formelles et des traitements quantitatifs qui donnent toute sa place à la dynamique interne des textes telle qu’elle se manifeste à travers leurs macro- et leurs micro-structures récurrentes.

Le pivot de cette approche est la caractérisation topologique des textes à travers un certain nombre d’outils formels : les partenaires de ce projet ont déjà largement exploré et exploité la notion de « voisinage », directement empruntée à la topologie mathématique (cfr programme « Grammaticométrie et classification des textes historiques latins »). Par ce nouveau programme, ils souhaitent approfondir la notion de « motif » qu’ils ont  présentée lors des Journées internationales d’Analyse Statistique des Données Textuelles (JADT, Lyon, 12-14 mars 2008).

On définit le motif comme un sous-ensemble textuel ordonné formé par l’association récurrente de n éléments du textuel muni de sa structure linéaire. Ainsi, si le texte est formé d’un certain nombre d’occurrences des éléments A, B, C, D, E, un motif pourra être la micro-structure récurrente ACD ou bien encore AA, etc., sans qu’on préjuge ici de la nature des éléments A, B, C, D, E en question : il s’agit de faire du motif le cadre – ou l’enveloppe – accueillant un ensemble de paramètres à définir et susceptibles de caractériser les divers textes d’un corpus, voire les différentes parties d’un texte.

Le motif fournit un cadre formel accueillant à toutes sortes d’unités linguistiques ; par exemple, dans le domaine lexical, il pourrait englober ce qu’A. Salem a reconnu sous le nom de « segments répétés » ou ce que, dans un autre domaine d’application, on appelle les « unités phraséologiques », ou encore – dans la mesure où le motif admet la présence d’une variable en son sein – ce qu’en milieu anglo-saxon on appelle « collocations ». Mais le motif pourrait aussi rassembler des structures phonologiques récurrentes, ou des structures métriques, et permettre de leur superposer des structures syntaxiques. Le motif a donc une définition formelle très précise (dans la mesure où il répond, lui aussi, à certaines propriétés définitoires des espaces topologiques), mais, simultanément, il est accueillant à toute sorte de paramètres d’analyse et accepte l’hétérogénéité de ceux-ci. Les premières études en ce sens ont montré que le motif fournit un outil d’analyse textuelle extrêmement performant ; on note en particulier que, grâce à la plasticité de cet outil qui peut accueillir tous les types d’unités textuelles et dont le paramétrage reste à l’entière liberté du linguiste, il est possible d’envisager des analyses multidimensionnelles à toutes les étapes du traitement et d’ainsi mieux rendre compte que par les traitements quantitatifs classiques de la complexité textuelle.

Le projet consiste donc à :

  • Développer une méthodologie et un outil logiciel de reconnaissance automatique de certains motifs syntaxiques dans des textes déjà lemmatisés et étiquetés, français et latins.
  • Étudier la distribution de ces motifs au fil d’un texte pour caractériser la dynamique interne de celui-ci, la comparer à d’autres structures textuelles et améliorer par là-même les outils de classification automatique des textes.
  • Prendre appui sur la distribution des motifs au fil d’un texte pour produire des partitionnements automatiques de ce texte, repérer des zones sensibles d’apport d’information ou des zones transitionnelles par exemple.
  • Utiliser les résultats de ces diverses applications pour un retour réflexif sur la notion et en valider la pertinence conceptuelle et méthodologique.

Références

  • D. Longrée, S. Mellet et X. Luong, « Les motifs : un outil pour la caractérisation topologique des textes ».
    in S. Heiden et B. Pincemin, Actes des JADT 2008, 9èmes Journées internationales d’Analyse statistique des Données Textuelles, Lyon, 12-14 mars 2008, Presses ENS-Lyon, 2008, pp. 733-744.
  • D. Longrée, S. Mellet et X. Luong, « Classification et analyse textuelle : l’approche topologique ».
    Communication présentée à la Société Francophone de Classification (Paris, septembre 2007), Mathématiques et Sciences Humaines, sous presse.
  • D. Longrée & Mellet S., «Motifs syntaxiques et structures textuelles : à la recherche de nouvelles méthodes pour l’étude du corpus historique latin».
    in D. Longrée et S. Mellet (éd.), Actes du colloque Nouvelles approches en linguistique textuelle, Bruxelles, du 22 au 24 mai 2008, Belgian Journal of Linguistics, 2009, à paraître.

Lemmatisation assistée par ordinateur et analyse syntaxique automatisée

Les programmes de recherche « Grammaticométrie et classification des textes historiques latins » et « Motifs syntaxiques et topologie textuelle » ont mis en évidence la nécessité de disposer de données précises sur la structure syntaxique des textes pour pouvoir caractériser avec précision la langue et le style de chaque texte. Or, pour l’instant, la base latine du LASLA ne comporte qu’une seule donnée à proprement parler syntaxique, à savoir un code permettant de repérer les prédicats des propositions principales et subordonnées. Cependant, en s’appuyant sur cette donnée et sur les informations morphologiques déjà encodées, une équipe du LASLA cherche à mettre au point des procédures d’analyse syntaxique automatisées permettant de surmonter cette difficulté. Cette démarche va de pair avec une recherche fondamentale sur les structures de la langue latine. La finalité de ce vaste projet de recherche est de fournir de nouveaux outils pour l’étude de l’ordre des mots, pour la modélisation des structures énonciatives et pour la classification des textes latins et néo-latins.

La première phase de ce projet vise à développer, parmi les procédures d’analyse syntaxique automatisées, celles qui ont pour objet de délimiter les propositions subordonnées et de préciser leur niveau de subordination (c’est-à-dire d’enchâssement syntaxique). Cette recherche a un double objectif : d’une part, une réflexion méthodologique et linguistique, et, d’autre part, une série d’applications concrètes.

Sur le plan méthodologique et linguistique, il s’agit de mener une recherche originale et novatrice sur l’ordre des mots et sur les structures de l’énoncé latin : en faisant appel aux données déjà encodées et à la linéarité du texte, on implémente diverses règles d’ordre de mots proposées par des descriptions linguistiques récentes. En soumettant le corpus du LASLA à de véritables procédures d’analyse syntaxique automatisées, on cherche non seulement à pourvoir le texte de nouvelles annotations syntaxiques, mais aussi à évaluer le bien-fondé des descriptions linguistiques sur lesquelles ces procédures s’appuient. Une fois délimitées toutes les propositions subordonnées, ainsi que leur niveau de subordination, on pourra avoir une plus juste vision de l’ampleur des propositions principales, distinguer les divers types de propositions introduites par un même subordonnant, déterminer les zones de style indirect et les séries de phrases nominales, ou encore étudier avec plus de précision les mécanismes de coordination et de juxtaposition entre propositions.

Sur le plan des applications concrètes, la recherche permettra de compléter les informations contenues dans la base. Les nouvelles données recueillies pourront être utilisées immédiatement dans les autres programmes de recherche du LASLA. À cette fin, et également dans l’optique de pouvoir constituer un corpus homogène d’un point de vue générique, sur lequel tester les programmes d’analyse syntaxique que l’on aura développés, on a retenu comme corpus de travail l’ensemble des textes historiques latins de l’époque classique. Les mêmes méthodes pourront ensuite être appliquées à d’autres textes classiques, voire à des textes plus tardifs, notamment néo-latins, pour déterminer les similitudes et les écarts par rapport aux modèles classiques.

Références

  • Dominique Longrée, Gérald Purnelle et Caroline Philippart, « Subordinate clause boundaries and word order in Latin: the contribution of the LASLA syntactic parser project ».
    Communication au XVe Colloque international de Linguistique latine, Innsbruck, 4-9 avril 2009.

Partagez cette page