Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales - Structuration, Analyse et Modélisation de documents Vidéo et Audio
Conference Papers Year : 2024

Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales

Abstract

In the context of speech disorders, one of the therapist task is to asses the speech intelligibility of a patient. Automatic systems can help in that task but in most cases, they are trained in specific controlled environments with clean conditions that do not reflect a healthcare environment. In this paper, we develop an automatic system that predict speech intelligibility on head and neck cancer data obtained in clinical conditions. This system relies on speaker embeddings trained using a multi-task methodology to simultaneous predict speech intelligibility and speech disorder severity. It achieves a correlation up to 0.891 on a reading task. Morever, it display promosing results on spontaneous speech, which is a more ecologic task yet understudied but nevertheless essential for a direct deployment in a hospital setting.
Dans le contexte des troubles de la parole, l’une des tâches du thérapeute est de définir l’intelligibilité de la parole du patient. Les systèmes automatiques peuvent aider dans cette tâche, mais dans la plupart des cas, ils sont entraînés dans des environnements spécifiques et contrôlés, avec des conditions propres qui ne reflètent pas un environnement médical. Dans cet article, nous développons un système automatique qui prédit l’intelligibilité de la parole à partir de données provennant de patients ayant un cancer de la tête et du cou obtenues dans des conditions cliniques. Ce système repose sur des représentations de locuteurs entraînées selon une méthodologie multi-tâches pour prédire simultanément l’intelligibilité de la parole et la sévérité des troubles de la parole. Il atteint une corrélation allant jusqu’à 0,891 pour une tâche de lecture. De plus, il affiche des résultats prometteurs sur de la parole spontanée, qui est une tâche plus écologique mais sous-étudiée et pourtant essentielle pour un déploiement direct d’un système automatique dans un environnement hospitalier.
Fichier principal
Vignette du fichier
4611.pdf (258.78 Ko) Télécharger le fichier
Origin Publisher files allowed on an open archive

Dates and versions

hal-04623063 , version 1 (01-07-2024)

Licence

Identifiers

  • HAL Id : hal-04623063 , version 1

Cite

Sebastião Quintas, Mathieu Balaguer, Julie Mauclair, Virginie Woisard, Julien Pinquier. Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales. 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024), Jul 2024, Toulouse, France. pp.102-111. ⟨hal-04623063⟩
210 View
33 Download

Share

More