Balisage et annotation d'un corpus diachronique de comptes rendus universitaires (1964 à nos jours) - Université Paris Nanterre Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Balisage et annotation d'un corpus diachronique de comptes rendus universitaires (1964 à nos jours)

Frédérique Sitri
Ilaine Wang

Résumé

Cette communication propose une réflexion méthodologique sur les principes de balisage d’un corpus de comptes rendus universitaires. Elle s’inscrit dans le cadre d’un projet interdisciplinaire visant à analyser des archives universitaires numérisées en mettant en relation les régularités formelles observées avec différentes déterminations (évolutions socio-historiques et législatives, les spécificités disciplinaires, ...) saisies sous l’angle des genres de discours, de leur évolution et de leur institutionnalisation. On considère le compte rendu (CR) comme un genre ” tenant lieu ” d’un autre discours : le CR est un texte écrit qui doit, au sein de l’institution où il est produit, ” tenir lieu ” ou ” représenter ” un événement de parole. La question de la représentation du discours autre (RDA) y est donc cruciale. Sur le plan matériel, le corpus est constitué à partir de boîtes d’archives qui comprennent, outre les CR, des documents annexes tels que convocations, feuilles d’émargement, textes discutés au cours de la réunion. On trouve également dans certaines boîtes une première version corrigée (brouillon). Nous exposerons tout d’abord la structure des métadonnées retenue pour ce projet : basée sur l’adaptation du modèle TEI META élaboré pour la description des données orales, notre démarche s’inscrit globalement dans le travail d’harmonisation des métadonnées de l’écrit, initiée au sein de CORLI dans le but de favoriser l’interopérabilité et la mise à disposition. Les balises propres au corps du texte, dont nous expliciterons la définition et les attributs, portent sur les champs suivants : 1) structure endogène du texte : paratexte (en-tête, nom du document, signature, présents et des excusés, sommaire et ordre du jour, pagination), texte (titres de section, paragraphes, textes insérés dans le CR)... 2) informations liées au contenu du texte : noms propres et statuts des intervenants, unités thématiques... 3) catégories identifiées via une analyse linguistique : discours direct, verbes et noms de parole, embrayeurs de personne... Le choix des balises et de leur structuration doit permettre de mettre au jour des observables permettant des explorations étroitement articulées aux questions de recherche. Ainsi la caractérisation générique du CR comme ”tenant lieu” conduit-elle à se pencher sur : les formes de RDA, les séquences thématiques métadiscursives consacrées au genre même, la relation entre le CR et les textes qui y sont intégrés... On montrera comment ces choix recoupent partiellement le modèle proposé pour les textes de représentation. On montrera également comment l’observation des modifications apportées sur les brouillons a fait apparaître certains observables (par exemple les nombreuses modifications affectant les changements de paragraphe).

Domaines

Linguistique
Fichier non déposé

Dates et versions

hal-04081021 , version 1 (25-04-2023)

Identifiants

  • HAL Id : hal-04081021 , version 1

Citer

Frédérique Sitri, Ilaine Wang, Emilie Née. Balisage et annotation d'un corpus diachronique de comptes rendus universitaires (1964 à nos jours). NACLA2 - Corpus et textes de représentation, Jun 2018, Avignon, France. ⟨hal-04081021⟩
31 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More