Aller au contenu principal
logo
Accueil
ouverture_bib
user_account

User account menu

  • Les bibliothèques du réseau
  • Mon compte
    • Connexion
    • J'active mon compte
    • Je me préinscris
main_menu

Main navigation

  • Catalogue
    • Livres
    • Jeux et jouets
    • Livres numériques
    • Lire autrement
    • Presse et magazines
    • Films et séries
    • Musiques
  • Agenda
  • Dossiers documentaires
  • Patrimoine
  • Offres en ligne
  1. Accueil
  2. Détails
Caractérisation automatique du rythme de la parole : application aux cancers des voies aéro-digestives supérieures et à la maladie de Parkinson
Vaysse, Robin
Thèse
Automatic characterization of speech rhythm : application to head and neck cancers and Parkinson's disease
Résumé Prosody is an essential element of speech. It is a means of conveying emphasis, meaning, speech structure, or emotion. One of the main purposes of prosody is to segment speech utterances into shorter linguistic units and organize them in a coherent way for the listener. The three organizing principles of prosody are: intonation, stress and rhythm. Speech rhythm can be defined as the recurrence of stressed syllables and their temporal organization in relation to unstressed syllables. It plays a key role in the temporal structuring of the speech stream from the speaker's point of view, and also helps to facilitate the comprehension of the message for the listener. Rhythm is therefore a central element in the study of prosody. In this thesis, we were interested in the impact that certain pathologies can have on the production of speech rhythm. More specifically, we studied two types of pathologies: Parkinson's disease, and patients with cancer of the oral cavity or oropharynx who have undergone medical treatment. Our main objective was to propose an automatic modeling of the pathological speech rhythm. Thanks to this modeling, we wanted to highlight the rhythmic regularities at different prosodic levels, in order to characterize the speech production strategies used by people suffering from these two pathologies. After having established the theoretical framework of rhythm in which we place ourselves, we were able to carry out a state of the art of the various existing automatic models of rhythm. Among the studied automatic models, we have selected those whose implementation is the closest to our theoretical presuppositions. We then tested these methods on a slam corpus in order to select the methodologies that best model the rhythmic hierarchy of speech. The modeling we have chosen is based on the analysis of slow modulations (lower than 10 Hz) of the speech signal amplitude. This method, called the Envelope Modulation Spectrum (EMS), allows us to characterize the segmentation strategy of the speakers' speech. Thus, we observed in our corpus of pathological speech that people with strong disorders of syllable articulation tend to favor a very regular prosodic structuring. On the contrary, a person with no apparent articulation disorders presents a less regular prosodic structuring. We therefore assume that patients with poor intelligibility due to articulation disorders focus more on a very regular structuring of their speech with word group durations of equivalent lengths. We then modeled the patients' intelligibility by focusing only on purely rhythmic cues from the EMS. However, after analysis of the results, the rhythmic indices most correlated with the reference intelligibility score estimated by speech therapist were in fact strongly dependent on the speech rate. We therefore proposed new rhythmic features that are independent of speech rate. Using these new parameters, we were able to propose a two-dimensional representation of our pathological speech corpus. This representation based on the main levels of regularities of the EMS allowed us to characterize and group individuals with particular speech segmentation strategies. The EMS is thus a relevant modeling of speech rhythm that allows us to effectively characterize speech rhythm through a representation of the regularity of prosodic levels at different levels of hierarchy. La prosodie est un élément essentiel de la parole. Elle constitue un moyen de transmettre l'emphase, le sens, la structure du discours ou encore les émotions. L'un des buts principaux de la prosodie est de segmenter les énoncés de parole en unités linguistiques plus courtes et de les organiser de manière cohérente pour l'auditeur. Les trois principes organisateurs de la prosodie sont : l'intonation, l'accentuation et le rythme. Le rythme de la parole peut être défini comme la récurrence de syllabes accentuées et leur organisation temporelle par rapport aux syllabes inaccentuées. Il joue un rôle primordial dans la structuration temporelle du flot de parole du point de vue du locuteur, et participe également à faciliter la compréhension du message pour l'auditeur. Le rythme est donc un élément central dans l'étude de la prosodie. Dans cette thèse, nous nous sommes intéressés à l'impact que certaines pathologies peuvent avoir sur la production du rythme de la parole. Plus particulièrement, nous avons étudié deux types de pathologies : la maladie de Parkinson, ainsi que les patients atteints d'un cancer de la cavité buccale ou de l'oropharynx ayant subi un traitement médical. Notre objectif principal a été de proposer une modélisation automatique du rythme de la parole pathologique. Grâce à cette modélisation, nous avons voulu mettre en évidence les régularités rythmiques à différents niveaux prosodiques, dans le but de pouvoir caractériser les stratégies de production de parole misent en jeu chez des personnes atteintes de ces deux pathologies. Après avoir posé le cadre théorique du rythme dans lequel nous nous plaçons, nous avons pû réaliser un état de l'art des différentes modélisations automatiques du rythmes existantes. Parmi les modélisations automatiques étudiées, nous avons sélectionné celles dont l'implémentation se rapproche au mieux de nos présupposés théoriques. Nous avons alors testé ces méthodes sur un corpus de slam dans le but de sélectionner les méthodologies qui modélisent au mieux la hiérarchie rythmique de la parole. La modélisation que nous avons retenu se base sur l'analyse des modulations lentes (inférieures à 10 Hz) de l'amplitude du signal de parole. Cette méthode appelée le spectre de modulation d'enveloppe (EMS) permet de caractériser la stratégie de segmentation de la parole des locuteurs. Ainsi, nous avons pu observer dans notre corpus de parole pathologique que les personnes présentant de forts troubles de l'articulation des syllabes ont tendance à favoriser une structuration prosodique très régulière. Au contraire, une personne sans troubles apparents de l'articulation présente une structuration prosodique moins régulière. Nous supposons donc que les patients dont l'intelligibilité est faible à cause de troubles articulatoires se focalisent davantage sur une structuration très régulière de leur parole avec des durées de groupes de mots de longueurs équivalentes. Nous avons par la suite modélisé l'intelligibilité des patients en nous focalisant uniquement sur des indices purement rythmiques issus de l'EMS. Cependant, après analyse des résultats, les indices rythmiques les plus corrélés au score d'intelligibilité de référence estimés par des médecins ORL étaient en réalité fortement dépendants du débit de parole. Nous avons donc proposé de nouvelles caractéristiques du rythme indépendantes du débit de parole. A l'aide de ces nouveaux paramètres, nous avons pu proposer une représentation en deux dimensions de notre corpus de parole pathologique. Cette représentation basée sur les niveaux principaux de régularités de l'EMS nous a permis de caractériser caractériser et de regrouper les personnes avec des stratégies de segmentation de la parole particulières. L'EMS est donc une modélisation pertinente du rythme de la parole qui permet de caractériser efficacement le rythme de la parole au travers d'une représentation de la régularité des niveaux prosodiques à différents niveaux de hiérarchie.
Thèse
CCSD
-
2023-03-21
https://theses.hal.science/tel-04198849v1/document
https://theses.hal.science/tel-04198849v1/file/2023TOU30062b.pdf
Infos complémentaires
  • Identifiant HAL : 2023TOU30062
  • thesis advisor :
    Jérome Farinas
    Corine Astesano
    ,
    degree committee member :
    Cécile Fougeron [Président]
    François Pellegrino [Rapporteur]
    Elisabeth Delais-Roussarie [Rapporteur]
    Virginie Woisard
  • associated name :
    École doctorale Mathématiques, informatique et télécommunications (Toulouse)
  • Langue originale :
    français
  • Date de la thèse : 2023-03-21
  • Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences
  • Institution :
    Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio
    Institut de recherche en informatique de Toulouse
    Université Toulouse Capitole
    Université de Toulouse
    Université Toulouse - Jean Jaurès
    Université Toulouse III - Paul Sabatier
    Centre National de la Recherche Scientifique
    Institut National Polytechnique (Toulouse)
    Toulouse Mind & Brain Institut
  • Accès : Distributed under a Creative Commons Attribution 4.0 International License
Sujets
  • Prosodie
    Parole pathologique
    Rythme
    Modélisation automatique
    Modulations d'amplitude
  • Prosody
    Pathological speech
    Rythm

FAQ

Liens FAQ
Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?
Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?
Les horaires d'ouverture changent-ils pendant les vacances scolaires ?
Combien de temps faut-il arriver avant le début d'une animation ?

Autres informations et mentions légales

Logo Tech'Advantage

Body

Tech'Advantage
Syrtis

532 avenue Napoléon Bonaparte
92500 RUEIL-MALMAISON
01 56 84 02 00
Contact
Body

Informations générales

  • Mentions légales
  • Accessibilité : non conforme
  • Données personnelles
Body

Réseaux sociaux

  • LinkedIn
  • X