Vérification informatique des faits et détection de la désinformation
Improving Trust in Fact-Checking Systems with Synthetic Training Data and Explanations
Résumé
In the era of social networks, the propagation of fake news is increasingly frequent. In the last decade, numerous events were affected by misinformation. Whether we think of the last US election, or the COVID crisis, there is little doubt about the influence of such dishonest communication. Therefore, organisms do their best to counter them. Their efforts aim at reducing fake news amount by fact-checking claims published on social medias. Traditional methods rely on humans to manually annotate each claim, for example in a politician's speech. However, this method is not adaptable to the vast amounts of data found on social media, nor to crisis times when there can be sudden increases in social media posts. Therefore, a preferred solution is computational fact checking. In this domain, the best solutions are Machine Learning based. Usually, given a claim, a model retrieves relevant evidence from a corpus. Then, a predictor model assesses the veracity of the claim based on the evidence. In this thesis, we investigate how to support information mitigators, such as fact-checkers, in their work. We focus on two main aspects that are clear bottlenecks for the adoption of computational solutions in practice. The first aspect is the manual effort to bootstrap and refine the systems. The second aspect is to make systems more interpretable. Bootstrapping a fact-checking system, with a supervised learning approach, requires a lot of training data. As manual annotation is expensive and slow, it is not adaptable to new domains, neither to crisis situations. In such context, governments or companies cannot afford to wait until a new training set is manually defined, as this may be too long. The solution we propose is to generate such datasets. Synthetic datasets are increasingly popular for model fine-tuning or training. In fact-checking, little research has been done on synthetic datasets construction from tabular evidence. In our work, TENET, we propose to handle this issue by generating claims from structured evidence sources. In UNOWN, we switch to the multi-modal setting to perform claim generation using both the tabular and the textual modalities. We provide generated examples as training data to fact-checking systems. The systems trained with our data showcase a label-prediction accuracy comparable to the same system trained with human-created training examples. Another matter with computational fact-checking is explainability. Fact-checking systems are explainable when users can understand their decisions thanks to a justification. From a claim, state of the art models predicts a label without any justification on how they reached their conclusion. Users, in a misinformation context, can be eager to know why the text they are reading is labelled as ‘refutes'. In this scenario, current black-box models fail short. In our work, we leverage two state of the art xAI approaches to interpret decision taken by models. We show that xAI techniques permit to identify relevant evidence with high accuracy. This thesis thoroughly explores Synthetic Dataset generation and Explainability of Fact-checking systems' topics. The systems we propose ease the building of supervised models in low resource domains and ease the understanding of predictions by the users.
À l'ère des réseaux sociaux, la propagation de fausses informations est de plus en plus fréquente. Au cours de la dernière décennie, de nombreux événements ont été affectés par la désinformation. Par conséquent, les organismes font de leur mieux pour les contrer. Leurs efforts visent à réduire la quantité de fausses informations en vérifiant les faits des affirmations publiées sur les réseaux sociaux. Les méthodes traditionnelles reposent sur des humains pour annoter manuellement chaque affirmation. Cependant, cette méthode n'est pas adaptable aux vastes quantités de données présentes sur les réseaux sociaux, ni aux périodes de crise où il peut y avoir une augmentation soudaine des publications. Par conséquent, une solution privilégiée est la vérification automatique de faits. Dans ce domaine, les meilleures solutions sont basées sur l'apprentissage automatique. En général, partant d'une affirmation, un modèle trouve des preuves pertinentes dans un corpus. Ensuite, un modèle prédictif évalue la véracité de l'affirmation sur la base des preuves. Dans cette thèse, nous étudions comment soutenir les fact-checkers dans leur travail. Nous nous concentrons sur deux aspects principaux qui constituent des goulots d'étranglement pour l'adoption des solutions automatisées en pratique. Le premier aspect est l'effort manuel nécessaire pour créer un système. Le deuxième aspect est de rendre les systèmes plus interprétables. Créer un système de vérification des faits, avec une approche d'apprentissage supervisé, nécessite beaucoup de données d'entraînement. Comme l'annotation manuelle est coûteuse et lente, elle n'est pas adaptable aux nouveaux domaines, ni aux situations de crise. Dans un tel contexte, les gouvernements ou les entreprises ne peuvent se permettre d'attendre qu'un nouveau jeu de données d'entraînement soit défini manuellement, car cela pourrait prendre trop de temps. La solution que nous proposons est de générer de tels jeux de données. Les jeux de données synthétiques sont de plus en plus populaires pour le fine-tuning ou l'entraînement des modèles. Dans la vérification des faits, peu de recherches ont été faites sur la construction de jeux de données synthétiques à partir de preuves tabulaires. Avec notre système TENET, nous proposons de traiter ce problème en générant des affirmations à partir de sources de preuves structurées. Avec UNOWN, nous passons à un cadre multi-modal pour générer des affirmations en utilisant à la fois des données structurées et non structurées. Nous entraînons les systèmes de vérification des faits à partir d'exemples générés. Les systèmes entraînés avec nos données démontrent une capacité de prédiction comparable à celle d'un même système entraîné avec des exemples écrits par des humains. Un autre problème de la vérification automatique de faits est l'explicabilité. Les systèmes de vérification des faits sont explicables lorsque les utilisateurs peuvent comprendre leurs décisions grâce à une justification. À partir d'une affirmation, les modèles de l'état de l'art prédisent une étiquette pour un texte, sans aucune justification sur la manière dont ils sont parvenus à leur conclusion. Les utilisateurs, dans un contexte de désinformation, peuvent être désireux de savoir pourquoi le texte qu'ils lisent est étiqueté comme « faux ». Dans ce scénario, les modèles actuels de type « boîte noire » échouent. Dans notre travail, nous exploitons deux approches d'explicabilité (xAI) de pointe pour interpréter les décisions prises par les modèles. Nous montrons que les techniques d'explicabilité permettent d'identifier des preuves pertinentes avec une grande précision. Cette thèse explore en profondeur la génération de jeux de données synthétiques et l'explicabilité des systèmes de vérification de faits. Les systèmes que nous proposons facilitent la construction de modèles supervisés dans des domaines à faibles ressources, et facilitent la compréhension des prédictions par les utilisateurs.
Infos complémentaires
-
Identifiant HAL : 2024SORUS566
-
degree committee member :
-
Langue originale :anglais
-
Date de la thèse : 2024-12-05
-
Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences , Domaine : Computer Science [cs]/Computation and Language [cs.CL] , Domaine : Computer Science [cs]/Machine Learning [cs.LG]
-
Institution :
-
Accès : Distributed under a Creative Commons Attribution 4.0 International License
FAQ
Liens FAQ