La linguistique face à la multiplication des données langagières numériques. Méthodes, risques et enjeux

Jean-Luc Minel

Résumé

The research landscape in Language Sciences has undergone important transformations in the last decades. Since the 1960s, it was institutionally dominated by the computational-representational paradigm, which gives a central place to the notion of formal system. However, in recent years, this approach has been challenged by the rise of emergentist perspectives in which the diachronic, enunciative, discursive, textual and contextual dimensions take their full place. These renewed approaches take into account the reality of attested linguistic facts and bring to the forefront the diversity of attested uses. They are therefore necessarily based on written, oral or gestural language data collected in corpora. This approach requires different steps: data collection, annotation and transformation of raw data into observables for multifactorial analyses, provision of data and tools. By their diversity, heterogeneity, multimodality and continuous evolution, these resources question the classical models while challenging the watertightness of the levels of description. The questioning of established theoretical models and their confrontation with usage data gathered in methodologically constructed and scientifically tested resources leads to the construction of "corpus-based models". Finally, access to massive language data implies the development of conceptual and technological tools capable of analyzing them on a scale that exceeds the capacities of the symbolic approaches used until now. My presentation will aim at identifying the main contributions, but also the risks, of annotated corpus mining tools, Linked Open Data, Machine Learning and Deep Learning.

Le paysage de la recherche en Sciences du langage a subi d’importantes transformations au cours des dernières décennies. Depuis les années 60, il était institutionnellement dominé par le paradigme computo-représentationnel, qui accorde une place centrale à la notion de système formel. Cependant, depuis quelques années, cette approche se voit questionnée par la montée en puissance de perspectives émergentistes dans lesquelles les dimensions diachronique, énonciative, discursive, textuelle et contextuelle prennent toute leur place. Ces approches renouvelées prennent en compte la réalité de faits linguistiques attestés et mettent au premier plan la diversité des usages attestés. Elles s’appuient donc nécessairement sur des données langagières écrites, orales ou gestuelles rassemblées en corpus. Cette approche nécessite différentes étapes : recueil de données, annotation et transformation des données brutes en observables pour des analyses multifactorielles, mise à disposition et outillage. Par leur diversité, leur hétérogénéité, leur multimodalité et leur évolution continue, ces ressources interrogent les modèles classiques tout en remettant en cause l’étanchéité des niveaux de description. L’interrogation des modèles théoriques établis et leur confrontation aux données d’usage rassemblées dans des ressources méthodologiquement construites et scientifiquement éprouvées conduit à la construction de « modèles sur corpus ». Enfin, l’accès à des données langagières massives implique l’élaboration d’appareillages conceptuels et technologiques capables de les analyser à une échelle qui dépasse les capacités des approches symboliques jusqu’alors utilisées. Mon exposé visera à dégager les principaux apports, mais aussi les risques, des outils d’exploration de corpus annotés, du Linked Open Data, du « Machine Learning et du Deep Learning »

Linguistics confronted with the multiplication of digital language data. Methods, risks and issues

La linguistique face à la multiplication des données langagières numériques. Méthodes, risques et enjeux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager