Les corpus arborés avant et après le numérique - Université Paris Nanterre Access content directly
Journal Articles Revue TAL : traitement automatique des langues Year : 2022

Treebanks before and after the digital technology

Les corpus arborés avant et après le numérique

Sylvain Kahane
Nicolas Mazziotta
  • Function : Author

Abstract

This paper explains how, from the 18th century to the present day, the syntactic annotation has evolved from the comprehensive analysis of isolated sentences to lists of examples, then to complete texts. We study the evolution of the aims of these treebanks between pedagogical and theoretical motivations and resources for NLP. We introduce some key works, often little known by the NLP community as well as by linguists: Buffier (1709), Beauzée (1765), Gaultier (1817), Clark (1847), Jespersen (1937), Tesnière (1959). We conclude on the current links between treebanks and NLP.
Nous montrons comment, du XVIIIe siècle à nos jours, l’annotation syntaxique de cor- pus a évolué de l’analyse exhaustive de phrases isolées à celle de listes d’exemples, puis à celle de textes entiers. Nous étudions l’évolution des visées de ces corpus arborés entre motivations pédagogique, théorique et ressources pour le TAL. Nous présentons quelques ouvrages clés, souvent peu connus de la communauté TAL comme de celle des linguistes : Buffier (1709), Beauzée (1765), Gaultier (1817), Clark (1847), Jespersen (1937) et Tesnière (1959). Nous concluons sur les liens actuels entre corpus arborés et TAL.
Fichier principal
Vignette du fichier
CorpusArboresTAL_63_3_3.pdf (4 Mo) Télécharger le fichier
Origin : Publisher files allowed on an open archive

Dates and versions

hal-04074851 , version 1 (09-05-2023)

Identifiers

  • HAL Id : hal-04074851 , version 1

Cite

Sylvain Kahane, Nicolas Mazziotta. Les corpus arborés avant et après le numérique. Revue TAL : traitement automatique des langues, 2022, 63 (3), pp.63-88. ⟨hal-04074851⟩
31 View
32 Download

Share

Gmail Facebook X LinkedIn More