How large should a dense corpus be for reliable studies in early language acquisition ?

Christophe Parisse

doi:10.4000/cognitextes.1483

Article Dans Une Revue CogniTextes Année : 2019

How large should a dense corpus be for reliable studies in early language acquisition ?

(1)

Christophe Parisse

Fonction : Auteur
PersonId : 9317
IdHAL : christophe-parisse
ORCID : 0000-0002-0010-3363
IdRef : 069504245

Modèles, Dynamiques, Corpus

Résumé

Dense corpora have been put forward as necessary tools for corpus studies of language acquisition. Despite their great interest, they are not yet frequently used, probably because of the high cost involved in their creation. The goal of the present study was to predict the optimal size of a dense longitudinal corpus when used to infer, manually or automatically, the details of lexical or syntactic development in child language. The results show that corpora of at least 30 to 40 one-hour recordings are necessary, but that longer corpora using the same protocol provide little new information. Dense corpora are indeed very useful, but do not need to be overly large to study grammatical development. This has important consequences for corpus-building projects, which can be optimized. The existence of a limit to the amount of information provided by large corpora also has important consequences for linguistic theory, as this helps locate the threshold between learning frozen forms and generalizing knowledge about language structure.

Les corpus denses sont souvent présentés comme des outils incontournables dans les études d’acquisition du langage. En dépit de leur grand intérêt scientifique, ils ne sont pas souvent utilisés en raison de leur coût important. Le but de cet article est de prédire la taille optimale d’un corpus dense longitudinal utilisé pour modéliser, de manière automatique ou non, le développement langagier. Les résultats montrent que des corpus d’au moins 30 à 40 sessions sont nécessaires, mais que de plus grands corpus utilisant le même protocole de recueil n’apportent pas beaucoup plus d’information. Il apparaît donc que les corpus denses sont très utiles, mais n’ont pas besoin d’être immenses. Ce résultat a des conséquences importantes pour la mise en place de projets scientifiques, qui peuvent de ce fait être optimisés. Il a également des conséquences pour les théories langagières, car il permet de pointer la frontière entre l’apprentissage massif de formes figées et la capacité de généralisation des connaissances langagières.

Mots clés

Dense corpus optimal corpus size lexical and grammatical development

Corpus dense taille optimale d’un corpus développement lexical et grammatical

Domaines

Linguistique

Guillaume Sioly : Connectez-vous pour contacter le contributeur

https://hal.parisnanterre.fr/hal-04086919

Soumis le : mardi 2 mai 2023-15:34:39

Dernière modification le : jeudi 21 décembre 2023-17:18:03

Dates et versions

hal-04086919 , version 1 (02-05-2023)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

HAL Id : hal-04086919 , version 1
DOI : 10.4000/cognitextes.1483

Citer

Christophe Parisse. How large should a dense corpus be for reliable studies in early language acquisition ?. CogniTextes, 2019, 19 (Volume 19), ⟨10.4000/cognitextes.1483⟩. ⟨hal-04086919⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS MODYCO UNIV-PARIS-LUMIERES UNIV-PARIS-NANTERRE

25 Consultations

0 Téléchargements