Aller au contenu principal
logo
Accueil
ouverture_bib
user_account

User account menu

  • Les bibliothèques du réseau
  • Mon compte
    • Connexion
    • J'active mon compte
    • Je me préinscris
main_menu

Main navigation

  • Catalogue
    • Livres
    • Jeux et jouets
    • Livres numériques
    • Lire autrement
    • Presse et magazines
    • Films et séries
    • Musiques
  • Agenda
  • Dossiers documentaires
  • Patrimoine
  • Offres en ligne
  1. Accueil
  2. Détails
S'informer sur les médias sociaux via l'élaboration d'information synthétique
Dusart, Alexis
Thèse
Getting information from social media through the elaboration of synthetic information
Résumé Social media are full of information, which can be useful, of interest. However, the large amount of data present can require the reader to make a tedious effort to access the relevant information. A synthesis of this information appears useful or even necessary for the user to be informed. In this work, we focus on the development of summaries from the social media Twitter. The state of the art of automatic summarization today uses neural language models, as do many Natural Language Processing (NLP) tasks. However, these models are not used for automatic tweet stream summarization. This can be explained by : (i) the difficulty to create training sets of sufficient size and adequate for these models, (ii) the size of the text to be summarized, which does not allow the models to be applied directly as in the case of usual summarization. In this work, our contributions are as follows : - We propose two collections of tweets that can be used for training neural models. The first one, containing more than 80 million tweets, is built with a method that is also part of our contributions, involving little human effort. The second, not subject to the problem of tweets deletion, is an adaptation of a dataset originally used for information filtering. - We present a model for automatic tweet stream summarization based on a neural language model. We add the frequency of the stream tokens to represent the stream context of tweets. - Finally, in order to better understand the mechanisms involved in summarization and to enable the development of future, more efficient summarization methods, we explore pre-established state-of-the-art representations for automatic summarization of tweet streams. Les médias sociaux regorgent d'informations qui peuvent être utiles et d'intérêt. Cependant, la trop grande quantité de données présentes peut demander au lecteur un effort fastidieux afin d'accéder à l'information pertinente. Une synthèse de cette information apparaît utile voir nécessaire pour l'utilisateur afin de s'informer sans être submergé. Nous nous penchons ainsi dans ces travaux sur l'élaboration de résumés à partir du média social Twitter. L'état de l'art du résumé automatique utilise aujourd'hui des modèles de langue neuronaux, comme beaucoup de tâches du Traitement Automatique des Langues (TAL). Cependant, ces modèles ne sont pas utilisés pour le résumé automatique de flux de tweets. Ceci peut être expliqué par : (i) la difficulté de créer des jeux d'apprentissage de taille suffisante et adéquats pour ces modèles, (ii) la taille du texte à résumer, qui ne permet pas d'appliquer directement les modèles comme dans le cas de résumé classique. Dans ces travaux, nos contributions sont les suivantes : - Nous proposons deux corpus de tweets pouvant être utilisés pour l'apprentissage des modèles neuronaux. Le premier, de plus de 80 millions de tweets, est construit avec une méthode faisant également partie de nos contributions, mettant en œuvre peu d'efforts humains. Le second, non soumis au problème de la suppression de tweets, est une adaptation d'un jeu de données utilisé à l'origine pour le filtrage d'information. - Nous présentons un modèle de résumé automatique de flux de tweets basé sur un modèle de langue neuronal. Nous ajoutons la fréquence des tokens du flux pour représenter le contexte flux de tweets. - Enfin, afin de mieux comprendre les mécanismes mis en place lors du résumé et de permettre le développement de futures méthodes de résumé plus efficaces, nous explorons les représentations pré-établies de l'état de l'art pour le résumé automatique de flux de tweets.
Thèse
CCSD
-
2022-12-16
https://theses.hal.science/tel-04047847v1/document
https://theses.hal.science/tel-04047847v1/file/2022TOU30222a.pdf
Infos complémentaires
  • Identifiant HAL : 2022TOU30222
  • thesis advisor :
    Gilles Hubert
    Karen Pinel-Sauvagnat
    ,
    degree committee member :
    Mohand Boughanem [Président]
    Jacques Savoy [Rapporteur]
    Catherine Berrut [Rapporteur]
    Laure Soulier
  • associated name :
    École doctorale Mathématiques, informatique et télécommunications (Toulouse)
  • Langue originale :
    français
  • Date de la thèse : 2022-12-16
  • Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences
  • Institution :
    Recherche d’Information et Synthèse d’Information
    Université Toulouse III - Paul Sabatier
    Institut de recherche en informatique de Toulouse
    Université Toulouse Capitole
    Université de Toulouse
    Université Toulouse - Jean Jaurès
    Centre National de la Recherche Scientifique
    Institut National Polytechnique (Toulouse)
    Toulouse Mind & Brain Institut
  • Accès : Distributed under a Creative Commons Attribution 4.0 International License
Sujets
  • S'informer
    Médias sociaux
    Information synthétique
  • Get information
    Social media
    Synthetic information

FAQ

Liens FAQ
Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?
Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?
Les horaires d'ouverture changent-ils pendant les vacances scolaires ?
Combien de temps faut-il arriver avant le début d'une animation ?

Autres informations et mentions légales

Logo Tech'Advantage

Body

Tech'Advantage
Syrtis

532 avenue Napoléon Bonaparte
92500 RUEIL-MALMAISON
01 56 84 02 00
Contact
Body

Informations générales

  • Mentions légales
  • Accessibilité : non conforme
  • Données personnelles
Body

Réseaux sociaux

  • LinkedIn
  • X