Aller au contenu principal
logo
Accueil
ouverture_bib
user_account

User account menu

  • Les bibliothèques du réseau
  • Mon compte
    • Connexion
    • J'active mon compte
    • Je me préinscris
main_menu

Main navigation

  • Catalogue
    • Livres
    • Jeux et jouets
    • Livres numériques
    • Lire autrement
    • Presse et magazines
    • Films et séries
    • Musiques
  • Agenda
  • Dossiers documentaires
  • Patrimoine
  • Offres en ligne
  1. Accueil
  2. Détails
Rôle de l'(auto-)attention pour les architectures cognitives et pour la vision par ordinateur
Vaishnav, Mohit
Thèse
Exploring the role of (self-)attention in cognitive and computer vision architecture
Résumé A fundamental mechanism of cognition needed to perform complex reasoning tasks is the ability to selectively process information (attention) and retain information in an accessible state (memory). We systematically analyze the role of both these components, starting with Transformer-based self-attention as a model of attention and later extending the architecture with memory. The Transformer is the latest and seemingly most powerful class of neural architecture, and it has brought a paradigm shift in the field of artificial intelligence. It has replaced recurrence and convolution networks with self-attention as the de-facto architectural choice for most AI applications. We first study the computational mechanisms involved in a Synthetic Visual Reasoning Test (SVRT) challenge, analyzing the ability of popular computer vision architecture (ResNet) of different depths trained on different dataset sizes. It led to a novel, finer taxonomy for the twenty-three SVRT tasks consistent with the broadly accepted same-different (SD) and spatial-relation (SR) classes of reasoning tasks in literature. Next, we study the role of self-attention incorporated with ResNet50 in solving the SVRT challenge. Inspired by the two types of visual attention systems, we modeled self-attention to be used as feature-based and spatial attention to enrich the feature maps of a feedforward network. We evaluated the ability of these attention networks to solve the SVRT challenge and found the resulting architectures to be much more efficient at solving the hardest of these visual reasoning tasks. The novel taxonomy obtained earlier is also partially explained by the relative improvement of the two attention networks and leads to testable predictions regarding the attentional needs of SVRT tasks. At last, we develop a novel cognitive architecture integrating attention and memory. We propose a Guided Attention Model for (visual) Reasoning (GAMR), motivated by the theory of active vision. GAMR has similar working mechanisms as that of the brain that solves complex visual reasoning tasks via sequences of attention shifts to select and route the task-relevant visual information into memory. This shift of attention is implemented with the help of a attention module guided by an internally generated query. We demonstrate that GAMR is sample-efficient, robust, and compositional compared to either of the feedforward, attention or memory-based architectures. In addition, GAMR is shown to be capable of zero-shot generalization on completely novel reasoning tasks. Overall, our work analyzes the role of (self-)attention in cognitive and computer vision architecture by their ability to solve complex visual reasoning tasks needing attention as a key component to efficiently solve reasoning tasks. Un mécanisme fondamental de la cognition, nécessaire à l'exécution de tâches de raisonnement complexes, est la capacité de traiter sélectivement les informations (attention) et de les conserver dans un état accessible (mémoire). Nous analysons systématiquement le rôle de ces deux composantes, en commençant par l'auto-attention basée sur le modèle d'attention le plus populaire: Transformer, et en étendant ensuite l'architecture à la mémoire. Transformer est aujourd'hui la dernière classe d'architecture neuronale et est au coeur des démonstrations les plus fascinante du Deep Learning, il a apporté un changement de paradigme dans le domaine de l'intelligence artificielle. Il a remplacé les réseaux de récurrence et de convolution par l'auto-attention comme choix architectural de facto pour la plupart des applications de l'IA. Nous étudions d'abord les mécanismes de calcul impliqués dans un test de raisonnement visuel synthétique (SVRT), en analysant la capacité d'une architecture de vision par ordinateur populaire (ResNet) de différentes profondeurs et entraînée sur des ensembles de données de différentes tailles. Cela a conduit à une nouvelle taxonomie plus fine pour les vingt-trois tâches de SVRT, cohérente avec les classes de tâches de raisonnement - identiques-différentes (SD) et de relations spatiales (SR) - largement acceptées dans la littérature. Ensuite, nous étudions le rôle de l'auto-attention incorporée à ResNet50 dans la résolution du défi SVRT. Inspirés par les deux types de systèmes d'attention visuelle, nous avons modélisé l'auto-attention pour qu'elle soit utilisée comme une attention basée sur les caractéristiques et sur une attention spatiale pour enrichir les cartes de caractéristiques d'un réseau feedforward. Nous avons évalué la capacité de ces réseaux d'attention à résoudre le défi SVRT et avons constaté que les architectures résultantes étaient beaucoup plus efficaces pour résoudre la plus difficile de ces tâches de raisonnement visuel. La nouvelle taxonomie obtenue précédemment s'explique aussi partiellement par l'amélioration relative des deux réseaux d'attention et conduit à des prédictions testables concernant les besoins attentionnels des tâches SVRT. Enfin, nous développons une nouvelle architecture cognitive intégrant l'auto-attention et la mémoire. Nous proposons Guided Attention Model for (visual) Reasoning (GAMR), motivé par la théorie de la vision active. Le GAMR a des mécanismes de fonctionnement similaires à ceux du cerveau qui résout des tâches complexes de raisonnement visuel par des séquences de changements d'attention pour sélectionner et acheminer en mémoire les informations visuelles pertinentes pour la tâche. Ce changement d'attention est mis en œuvre à l'aide d'un module d'auto-attention guidé par une requête générée en interne. Nous démontrons que GAMR est efficace, robuste et compositionnel par rapport à l'une ou l'autre des architectures basées sur le feedforward, l'attention ou la mémoire. De plus, GAMR est capable de généraliser à des tâches de raisonnement complètement nouvelles. Dans l'ensemble, notre travail analyse le rôle de l'auto-attention dans l'architecture cognitive et de vision par ordinateur par leur capacité à résoudre des tâches complexes de raisonnement visuel nécessitant de l'attention comme composant clé pour résoudre efficacement les tâches de raisonnement.
Thèse
CCSD
-
2023-04-13
https://theses.hal.science/tel-04354304v1/document
https://theses.hal.science/tel-04354304v1/file/2023TOU30139.pdf
Infos complémentaires
  • Identifiant HAL : 2023TOU30139
  • thesis advisor :
    Nicholas Asher
    Thomas Serre
    ,
    degree committee member :
    Timothée Masquelier [Président]
    Jonathan Cohen [Rapporteur]
    Hugues Talbot [Rapporteur]
    Jessica B. Hamrick
  • associated name :
    École doctorale Mathématiques, informatique et télécommunications (Toulouse)
  • Langue originale :
    anglais
  • Date de la thèse : 2023-04-13
  • Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences
  • Institution :
    Institut de recherche en informatique de Toulouse
    MEthodes et ingénierie des Langues, des Ontologies et du DIscours
    Université Toulouse III - Paul Sabatier
    Université Toulouse Capitole
    Université de Toulouse
    Université Toulouse - Jean Jaurès
    Centre National de la Recherche Scientifique
    Institut National Polytechnique (Toulouse)
    Toulouse Mind & Brain Institut
  • Accès : Distributed under a Creative Commons Attribution 4.0 International License
Sujets
  • Neuroscience inspired
    Auto-attention multi-tête
    Intelligence Artificielle
    Raisonnement visuel
    Routines visuelles
    Mémoire externe
  • Neuroscience inspired
    Multi-head self-attention
    Artificial Intelligence
    Visual reasoning
    Visual routines
    External memory

FAQ

Liens FAQ
Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?
Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?
Les horaires d'ouverture changent-ils pendant les vacances scolaires ?
Combien de temps faut-il arriver avant le début d'une animation ?

Autres informations et mentions légales

Logo Tech'Advantage

Body

Tech'Advantage
Syrtis

532 avenue Napoléon Bonaparte
92500 RUEIL-MALMAISON
01 56 84 02 00
Contact
Body

Informations générales

  • Mentions légales
  • Accessibilité : non conforme
  • Données personnelles
Body

Réseaux sociaux

  • LinkedIn
  • X