Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales

In the context of speech disorders, one of the therapist task is to asses the speech intelligibility of a patient. Automatic systems can help in that task but in most cases, they are trained in specific controlled environments with clean conditions that do not reflect a healthcare environment. In this paper, we develop an automatic system that predict speech intelligibility on head and neck cancer data obtained in clinical conditions. This system relies on speaker embeddings trained using a multi-task methodology to simultaneous predict speech intelligibility and speech disorder severity. It achieves a correlation up to 0.891 on a reading task. Morever, it display promosing results on spontaneous speech, which is a more ecologic task yet understudied but nevertheless essential for a direct deployment in a hospital setting.

Dans le contexte des troubles de la parole, l’une des tâches du thérapeute est de définir l’intelligibilité de la parole du patient. Les systèmes automatiques peuvent aider dans cette tâche, mais dans la plupart des cas, ils sont entraînés dans des environnements spécifiques et contrôlés, avec des conditions propres qui ne reflètent pas un environnement médical. Dans cet article, nous développons un système automatique qui prédit l’intelligibilité de la parole à partir de données provennant de patients ayant un cancer de la tête et du cou obtenues dans des conditions cliniques. Ce système repose sur des représentations de locuteurs entraînées selon une méthodologie multi-tâches pour prédire simultanément l’intelligibilité de la parole et la sévérité des troubles de la parole. Il atteint une corrélation allant jusqu’à 0,891 pour une tâche de lecture. De plus, il affiche des résultats prometteurs sur de la parole spontanée, qui est une tâche plus écologique mais sous-étudiée et pourtant essentielle pour un déploiement direct d’un système automatique dans un environnement hospitalier.

Mots clés

speech intelligibility automatic speech processing speaker embeddings head and neck cancer spontaneous speech

Intelligibilité de la parole Traitement automatique de la parole Représentations de locuteur Cancer de la tête et du cou Parole spontanée

Domaines

Informatique et langage [cs.CL]

Fichier principal

4611.pdf (258.78 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Matthieu Labeau : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-04623063

Soumis le : lundi 1 juillet 2024-11:42:05

Dernière modification le : vendredi 5 juillet 2024-12:17:37

Dates et versions

hal-04623063 , version 1 (01-07-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04623063 , version 1

Citer

Sebastião Quintas, Mathieu Balaguer, Julie Mauclair, Virginie Woisard, Julien Pinquier. Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales. 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024), Jul 2024, Toulouse, France. pp.102-111. ⟨hal-04623063⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS OCTOGONE UT1-CAPITOLE IRIT IRIT-SAMOVA TALN-RECITAL IRIT-SI TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP JEP-TALN-RECITAL2024

275 Consultations

42 Téléchargements