Jargon : Une suite de modèles de langues et de référentiels d'évaluation pour les domaines spécialisés du français

Vincent Segonne; Aidan Mannion; Laura Alonzo-Canul; Audibert Alexandre; Xingyu Liu; Cécile Macaire; Adrien Pupier; Yongxin Zhou; Mathilde Aguiar; Felix Herron; Magali Norré; Massih-Reza Amini; Pierrette Bouillon; Iris Eshkol-Taravela; Emmanuelle Esparança-Rodier; Thomas François; Lorraine Goeuriot; Jérôme Goulian; Mathieu Lafourcade; Benjamin Lecouteux; François Portet; Fabien Ringeval; Vincent Vandeghinste; Maximin Coavoux; Marco Dinarelli; Didier Schwab

Communication Dans Un Congrès Année : 2024

Jargon : Une suite de modèles de langues et de référentiels d'évaluation pour les domaines spécialisés du français

(1) , (2, 3) , (2) , (2) , (2, 3) , (2, 3) , (2, 3) , (2, 3) , (4) , (2, 5) , (6, 7) , (2, 8) , (7) , (9) , (2) , (6) , (2, 10) , (11, 2, 3) , (12) , (2, 11, 3) , (2, 3) , (3, 2) , (13) , (2, 3) , (11, 2, 3) , (11, 2, 3)

1
2
3
4
5
6
7
8
9
10
11
12
13

Vincent Segonne

Fonction : Auteur

Expressiveness in Human Centered Data/Media

Aidan Mannion

Fonction : Auteur
PersonId : 749373
IdHAL : aidan-mannion

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Laura Alonzo-Canul

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Audibert Alexandre

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Xingyu Liu

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Cécile Macaire

Fonction : Auteur
PersonId : 1120002
IdHAL : cecile-macaire
ORCID : 0000-0003-1407-8880

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Adrien Pupier

Fonction : Auteur
PersonId : 1254663
IdHAL : adrien-pupier
ORCID : 0009-0007-9458-341X

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Yongxin Zhou

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Mathilde Aguiar

Fonction : Auteur

Laboratoire Interdisciplinaire des Sciences du Numérique

Felix Herron

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision

Magali Norré

Fonction : Auteur

Université Catholique de Louvain = Catholic University of Louvain

Université de Genève = University of Geneva

Massih-Reza Amini

Fonction : Auteur
PersonId : 747054
IdHAL : massih-reza-amini
ORCID : 0000-0001-9032-4233
IdRef : 132277042

Laboratoire d'Informatique de Grenoble

Algorithms, Principles and TheorIes for collaborative Knowledge acquisition And Learning

Pierrette Bouillon

Fonction : Auteur

Université de Genève = University of Geneva

Iris Eshkol-Taravela

Fonction : Auteur
PersonId : 18520
IdHAL : iris-eshkol-taravella
ORCID : 0000-0003-0814-3623
IdRef : 074195158

Modèles, Dynamiques, Corpus

Emmanuelle Esparança-Rodier

Fonction : Auteur

Laboratoire d'Informatique de Grenoble

Thomas François

Fonction : Auteur

Université Catholique de Louvain = Catholic University of Louvain

Lorraine Goeuriot

Fonction : Auteur
PersonId : 169704
IdHAL : lorraine-goeuriot
ORCID : 0000-0001-7491-1980
IdRef : 143794957

Laboratoire d'Informatique de Grenoble

Modélisation et Recherche d’Information Multimédia [Grenoble]

Jérôme Goulian

Fonction : Auteur

Université Grenoble Alpes

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Mathieu Lafourcade

Fonction : Auteur
PersonId : 172381
IdHAL : mathieu-lafourcade
ORCID : 0000-0003-2832-2143

Exploration et exploitation de données textuelles

Benjamin Lecouteux

Fonction : Auteur
PersonId : 7847
IdHAL : benjamin-lecouteux
ORCID : 0000-0003-3000-6190
IdRef : 135355060

Laboratoire d'Informatique de Grenoble

Université Grenoble Alpes

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

François Portet

Fonction : Auteur
PersonId : 1069
IdHAL : francois-portet
ORCID : 0000-0003-2542-0661
IdRef : 098179160

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Fabien Ringeval

Fonction : Auteur
PersonId : 13134
IdHAL : fabien-ringeval
ORCID : 0000-0002-9213-4529
IdRef : 154573078

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Laboratoire d'Informatique de Grenoble

Vincent Vandeghinste

Fonction : Auteur

Catholic University of Leuven = Katholieke Universiteit Leuven

Maximin Coavoux

Fonction : Auteur
PersonId : 13643
IdHAL : maximin-coavoux
ORCID : 0000-0003-4089-4558

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Marco Dinarelli

Fonction : Auteur

Université Grenoble Alpes

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Didier Schwab

Fonction : Auteur

Université Grenoble Alpes

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Résumé

Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.

Mots clés

Autoapprentissage modèles de langue préentraînés référentiels d’évaluation traitement Automatique de la langue biomédicale et clinique traitement Automatique de documents légaux transcription automatique.

Domaines

Informatique et langage [cs.CL]

Fichier principal

8197.pdf (45.82 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Matthieu Labeau : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-04622997

Soumis le : vendredi 28 juin 2024-11:12:22

Dernière modification le : mardi 2 juillet 2024-03:18:29

Dates et versions

hal-04622997 , version 1 (28-06-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04622997 , version 1

Citer

Vincent Segonne, Aidan Mannion, Laura Alonzo-Canul, Audibert Alexandre, Xingyu Liu, et al.. Jargon : Une suite de modèles de langues et de référentiels d'évaluation pour les domaines spécialisés du français. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.9-10. ⟨hal-04622997⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 UGA CNRS INRIA UNIV-DAUPHINE INSA-RENNES IRISA MODYCO LIG TEXTE LIRMM CENTRALESUPELEC LAMSADE-DAUPHINE PSL UR1-MATH-STIC UNIV-PARIS-SACLAY UR1-UFR-ISTIC UNIV-MONTPELLIER UNIV-RENNES UNIV-PARIS-LUMIERES MIAI TALN-RECITAL ANR UR1-MATH-NUM LISN UNIV-PARIS-NANTERRE GS-COMPUTER-SCIENCE LIG_SIDCH LIG_SIDCH_APTIKAL JEP-TALN-RECITAL2024

0 Consultations

0 Téléchargements

Jargon : Une suite de modèles de langues et de référentiels d'évaluation pour les domaines spécialisés du français

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Relations

Exporter

Collections

Partager