How large should a dense corpus be for reliable studies in early language acquisition ?
Résumé
Dense corpora have been put forward as necessary tools for corpus studies of language acquisition. Despite their great interest, they are not yet frequently used, probably because of the high cost involved in their creation. The goal of the present study was to predict the optimal size of a dense longitudinal corpus when used to infer, manually or automatically, the details of lexical or syntactic development in child language. The results show that corpora of at least 30 to 40 one-hour recordings are necessary, but that longer corpora using the same protocol provide little new information. Dense corpora are indeed very useful, but do not need to be overly large to study grammatical development. This has important consequences for corpus-building projects, which can be optimized. The existence of a limit to the amount of information provided by large corpora also has important consequences for linguistic theory, as this helps locate the threshold between learning frozen forms and generalizing knowledge about language structure.
Les corpus denses sont souvent présentés comme des outils incontournables dans les études d’acquisition du langage. En dépit de leur grand intérêt scientifique, ils ne sont pas souvent utilisés en raison de leur coût important. Le but de cet article est de prédire la taille optimale d’un corpus dense longitudinal utilisé pour modéliser, de manière automatique ou non, le développement langagier. Les résultats montrent que des corpus d’au moins 30 à 40 sessions sont nécessaires, mais que de plus grands corpus utilisant le même protocole de recueil n’apportent pas beaucoup plus d’information. Il apparaît donc que les corpus denses sont très utiles, mais n’ont pas besoin d’être immenses. Ce résultat a des conséquences importantes pour la mise en place de projets scientifiques, qui peuvent de ce fait être optimisés. Il a également des conséquences pour les théories langagières, car il permet de pointer la frontière entre l’apprentissage massif de formes figées et la capacité de généralisation des connaissances langagières.