Documenter Twitter : défis et méthodes pour la constitution de corpus de tweets - Université Paris Nanterre Accéder directement au contenu
Article Dans Une Revue Balisages Année : 2020

Documenting Twitter : challenges and methods to build tweet corpora

Documenter Twitter : défis et méthodes pour la constitution de corpus de tweets

Résumé

In the last few years, the micro-blogging platform Twitter took a central place in the media space. Archiving the messages (or tweets) that are published on this platform is therefore an important challenge for researchers but also for the society itself. However, to be effective, this process needs to take into account some of the specificities of the platform and its contents. In this article, we analyze the existing data collection methods to assess what kind of data they do capture and what kind they do not. We also investigate the temporal evolution of tweets after their publication and propose methods to record such changes. Through the definition of this data collection process, we also question the documentary nature of tweets and the obstacles that limit their study.
La plateforme de micro-blogues Twitter a pris une place centrale dans le paysage médiatique des dernières années. L’archivage des messages (ou tweets) qui y sont publiés présente par conséquent une importance particulière, pour les chercheurs mais aussi pour la société. Cependant, pour être exploitable, leur enregistrement nécessite de prendre en compte un certain nombre de spécificités de la plateforme et des contenus qui y circulent. Dans cet article, nous revenons sur les méthodes de collecte existantes, afin de déterminer les types de données qu’elles permettent effectivement de capturer et ceux qui y échappent. Nous examinons par ailleurs l’évolution temporelle des tweets après leur publication et proposons des méthodes susceptibles de l’enregistrer. À travers la définition de ce processus de collecte, la nature documentaire des tweets et les freins à leur étude sont également interrogés.
Fichier principal
Vignette du fichier
balisages_1_2_segault.pdf (496.25 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02540323 , version 1 (14-04-2020)

Licence

Paternité - Partage selon les Conditions Initiales

Identifiants

Citer

Antonin Segault. Documenter Twitter : défis et méthodes pour la constitution de corpus de tweets. Balisages, 2020, 1, ⟨10.35562/balisages.280⟩. ⟨hal-02540323⟩
134 Consultations
112 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More