Les corpus arborés avant et après le numérique - Université Paris Nanterre
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2022

Treebanks before and after the digital technology

Les corpus arborés avant et après le numérique

Sylvain Kahane
Nicolas Mazziotta
  • Fonction : Auteur

Résumé

This paper explains how, from the 18th century to the present day, the syntactic annotation has evolved from the comprehensive analysis of isolated sentences to lists of examples, then to complete texts. We study the evolution of the aims of these treebanks between pedagogical and theoretical motivations and resources for NLP. We introduce some key works, often little known by the NLP community as well as by linguists: Buffier (1709), Beauzée (1765), Gaultier (1817), Clark (1847), Jespersen (1937), Tesnière (1959). We conclude on the current links between treebanks and NLP.
Nous montrons comment, du XVIIIe siècle à nos jours, l’annotation syntaxique de cor- pus a évolué de l’analyse exhaustive de phrases isolées à celle de listes d’exemples, puis à celle de textes entiers. Nous étudions l’évolution des visées de ces corpus arborés entre motivations pédagogique, théorique et ressources pour le TAL. Nous présentons quelques ouvrages clés, souvent peu connus de la communauté TAL comme de celle des linguistes : Buffier (1709), Beauzée (1765), Gaultier (1817), Clark (1847), Jespersen (1937) et Tesnière (1959). Nous concluons sur les liens actuels entre corpus arborés et TAL.
Fichier principal
Vignette du fichier
CorpusArboresTAL_63_3_3.pdf (4 Mo) Télécharger le fichier
Origine Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-04074851 , version 1 (09-05-2023)

Identifiants

  • HAL Id : hal-04074851 , version 1

Citer

Sylvain Kahane, Nicolas Mazziotta. Les corpus arborés avant et après le numérique. Revue TAL : traitement automatique des langues, 2022, 63 (3), pp.63-88. ⟨hal-04074851⟩
51 Consultations
51 Téléchargements

Partager

More