Aller au contenu principal
logo
Accueil
ouverture_bib
user_account

User account menu

  • Les bibliothèques du réseau
  • Mon compte
    • Connexion
    • J'active mon compte
    • Je me préinscris
main_menu

Main navigation

  • Catalogue
    • Livres
    • Jeux et jouets
    • Livres numériques
    • Lire autrement
    • Presse et magazines
    • Films et séries
    • Musiques
  • Agenda
  • Dossiers documentaires
  • Patrimoine
  • Offres en ligne
  1. Accueil
  2. Détails
Prédiction et caractérisation des biais textuels basés sur le discours
Devatine, Nicolas
Thèse
Discourse-driven prediction and characterization of textual bias
Résumé In an expanding information-based society, where public opinion is influenced by a plurality of sources and discourses, assessing the presence and extent of textual bias is of paramount importance. Therefore, the research undertaken in this thesis revolves around the detection and characterization of such biases, by placing a particular focus on political biases in news articles. What distinguishes this research from prior work on the subject lies in its shift beyond mere lexical analysis of documents. Instead, it integrates argumentative and rhetorical dimensions by considering the structure of the documents. To do so, we draw upon methodologies derived from the field of discourse analysis in Natural Language Processing (NLP). We latently induce a document structure by relying on elementary discourse units, which are sub-components of sentences and constitute the smallest textual unit capable of expressing a coherent proposition or idea. From an extensive set of experiments on the prediction of political leanings in news articles, we not only reveal the effectiveness of the proposed discourse-driven method, but also highlight several noteworthy findings that hold potential implications for further research. However, the ambition of this thesis goes beyond simply predicting biases, we aim to characterize them by getting some insights into the model's decisions. We therefore delve into the growing field of explainability in NLP, by making a particular focus on model-agnostic and perturbation-based explanation methods for text classification. While such methods have previously demonstrated their effectiveness across a wide range of tasks, they are not without their limitations, especially in terms of their computational cost and their ability to process long documents. To address these shortcomings, we propose a series of new strategies based on different levels of granularity. These include the development of explanation methods centered on discourse units, on specific vocabularies of interest, or on the document structure induced by the model. Following on from the experiments carried out on the prediction of political leanings in news articles, we evaluate both quantitatively and qualitatively the explanations generated for this task using our approach and demonstrate the benefits of the proposed strategies over existing methods. Thus, this work introduces a new perspective to the analysis of textual biases in NLP by proposing an integrated discourse-driven method for both predicting and characterizing biases. Dans une société de l'information en pleine expansion, où l'opinion publique est influencée par une pluralité de sources et de discours, l'étude de la présence et de l'étendue des biais dans les textes se révèle être d'une importance capitale. Ainsi, la recherche menée dans cette thèse s'articule autour de la détection et de la caractérisation de ces biais, en mettant un accent particulier sur les biais politiques dans les articles de presse. Ce qui distingue notre étude des travaux existants sur le sujet est que nous allons au-delà de la simple analyse lexicale des documents. En effet, nous intégrons également les dimensions argumentatives et rhétoriques en prenant en compte la structure du texte. Pour ce faire, nous nous appuyons sur des méthodes dérivées du domaine de l'analyse du discours en Traitement Automatique des Langues (TAL). Nous induisons de manière latente une structure du document basée sur les unités élémentaires de discours, qui sont des sous-composants des phrases et qui constituent les plus petites unités textuelles capables d'exprimer une proposition ou une idée cohérente. À partir d'un ensemble d'expériences sur la prédiction des biais politiques dans les articles de presse, nous démontrons à la fois l'efficacité de la méthode proposée basée sur le discours et soulignons également plusieurs résultats notables ayant de potentielles implications pour de futures recherches. Cependant, l'ambition de cette thèse dépasse la simple prédiction des biais, nous cherchons aussi à les caractériser en examinant les décisions du modèle. Nous nous intéressons ainsi au domaine de l'explicabilité en TAL, en nous concentrant plus particulièrement sur les méthodes d'explication agnostiques au modèle et basées sur des perturbations pour la classification de texte. Bien que ces méthodes aient démontré leur efficacité sur un grand nombre de tâches, elles présentent certaines limites, notamment en ce qui concerne leur coût de calcul et leur capacité à traiter les documents longs. Afin de remédier à ces problèmes, nous proposons plusieurs nouvelles stratégies basées sur différents niveaux de granularité, parmi lesquelles le développement de méthodes d'explication basées sur les unités discursives, sur des vocabulaires spécifiques d'intérêt ou sur la structure du document induite par le modèle. Dans la continuité des expériences menées sur la prédiction des biais politiques dans les articles de presse, nous évaluons quantitativement et qualitativement les explications générées à l'aide de notre approche pour cette tâche et démontrons les bénéfices des stratégies proposées par rapport aux méthodes existantes. Ainsi, ce travail apporte une nouvelle perspective à l'analyse des biais textuels en TAL en proposant une méthode intégrée basée sur le discours permettant à la fois de prédire et de caractériser les biais.
Thèse
CCSD
-
2023-10-23
https://theses.hal.science/tel-04405331v1/document
https://theses.hal.science/tel-04405331v1/file/2023TOU30202.pdf
Infos complémentaires
  • Identifiant HAL : 2023TOU30202
  • thesis advisor :
    Philippe Muller
    Chloé Braud
    ,
    degree committee member :
    Rufin VanRullen [Président]
    Karën Fort [Rapporteur]
    Alexandre Allauzen [Rapporteur]
    Maxime Amblard
  • associated name :
    École doctorale Mathématiques, informatique et télécommunications (Toulouse)
  • Langue originale :
    français
  • Date de la thèse : 2023-10-23
  • Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences
  • Institution :
    MEthodes et ingénierie des Langues, des Ontologies et du DIscours
    Université Toulouse III - Paul Sabatier
    Institut de recherche en informatique de Toulouse
    Université Toulouse Capitole
    Université de Toulouse
    Université Toulouse - Jean Jaurès
    Centre National de la Recherche Scientifique
    Institut National Polytechnique (Toulouse)
    Toulouse Mind & Brain Institut
  • Accès : Distributed under a Creative Commons Attribution 4.0 International License
Sujets
  • Traitement automatique des langues
    Biais textuels
    Discours
    Analyse sémantique
  • Natural language processing
    Textual bias
    Discourse
    Semantic analysis

FAQ

Liens FAQ
Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?
Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?
Les horaires d'ouverture changent-ils pendant les vacances scolaires ?
Combien de temps faut-il arriver avant le début d'une animation ?

Autres informations et mentions légales

Logo Tech'Advantage

Body

Tech'Advantage
Syrtis

532 avenue Napoléon Bonaparte
92500 RUEIL-MALMAISON
01 56 84 02 00
Contact
Body

Informations générales

  • Mentions légales
  • Accessibilité : non conforme
  • Données personnelles
Body

Réseaux sociaux

  • LinkedIn
  • X