Détails | Portail de démonstration Syrtis

Rôle de l'(auto-)attention pour les architectures cognitives et pour la vision par ordinateur

Vaishnav, Mohit

Thèse

Exploring the role of (self-)attention in cognitive and computer vision architecture

Résumé

A fundamental mechanism of cognition needed to perform complex reasoning tasks is the ability to selectively process information (attention) and retain information in an accessible state (memory). We systematically analyze the role of both these components, starting with Transformer-based self-attention as a model of attention and later extending the architecture with memory. The Transformer is the latest and seemingly most powerful class of neural architecture, and it has brought a paradigm shift in the field of artificial intelligence. It has replaced recurrence and convolution networks with self-attention as the de-facto architectural choice for most AI applications. We first study the computational mechanisms involved in a Synthetic Visual Reasoning Test (SVRT) challenge, analyzing the ability of popular computer vision architecture (ResNet) of different depths trained on different dataset sizes. It led to a novel, finer taxonomy for the twenty-three SVRT tasks consistent with the broadly accepted same-different (SD) and spatial-relation (SR) classes of reasoning tasks in literature. Next, we study the role of self-attention incorporated with ResNet50 in solving the SVRT challenge. Inspired by the two types of visual attention systems, we modeled self-attention to be used as feature-based and spatial attention to enrich the feature maps of a feedforward network. We evaluated the ability of these attention networks to solve the SVRT challenge and found the resulting architectures to be much more efficient at solving the hardest of these visual reasoning tasks. The novel taxonomy obtained earlier is also partially explained by the relative improvement of the two attention networks and leads to testable predictions regarding the attentional needs of SVRT tasks. At last, we develop a novel cognitive architecture integrating attention and memory. We propose a Guided Attention Model for (visual) Reasoning (GAMR), motivated by the theory of active vision. GAMR has similar working mechanisms as that of the brain that solves complex visual reasoning tasks via sequences of attention shifts to select and route the task-relevant visual information into memory. This shift of attention is implemented with the help of a attention module guided by an internally generated query. We demonstrate that GAMR is sample-efficient, robust, and compositional compared to either of the feedforward, attention or memory-based architectures. In addition, GAMR is shown to be capable of zero-shot generalization on completely novel reasoning tasks. Overall, our work analyzes the role of (self-)attention in cognitive and computer vision architecture by their ability to solve complex visual reasoning tasks needing attention as a key component to efficiently solve reasoning tasks. Un mécanisme fondamental de la cognition, nécessaire à l'exécution de tâches de raisonnement complexes, est la capacité de traiter sélectivement les informations (attention) et de les conserver dans un état accessible (mémoire). Nous analysons systématiquement le rôle de ces deux composantes, en commençant par l'auto-attention basée sur le modèle d'attention le plus populaire: Transformer, et en étendant ensuite l'architecture à la mémoire. Transformer est aujourd'hui la dernière classe d'architecture neuronale et est au coeur des démonstrations les plus fascinante du Deep Learning, il a apporté un changement de paradigme dans le domaine de l'intelligence artificielle. Il a remplacé les réseaux de récurrence et de convolution par l'auto-attention comme choix architectural de facto pour la plupart des applications de l'IA. Nous étudions d'abord les mécanismes de calcul impliqués dans un test de raisonnement visuel synthétique (SVRT), en analysant la capacité d'une architecture de vision par ordinateur populaire (ResNet) de différentes profondeurs et entraînée sur des ensembles de données de différentes tailles. Cela a conduit à une nouvelle taxonomie plus fine pour les vingt-trois tâches de SVRT, cohérente avec les classes de tâches de raisonnement - identiques-différentes (SD) et de relations spatiales (SR) - largement acceptées dans la littérature. Ensuite, nous étudions le rôle de l'auto-attention incorporée à ResNet50 dans la résolution du défi SVRT. Inspirés par les deux types de systèmes d'attention visuelle, nous avons modélisé l'auto-attention pour qu'elle soit utilisée comme une attention basée sur les caractéristiques et sur une attention spatiale pour enrichir les cartes de caractéristiques d'un réseau feedforward. Nous avons évalué la capacité de ces réseaux d'attention à résoudre le défi SVRT et avons constaté que les architectures résultantes étaient beaucoup plus efficaces pour résoudre la plus difficile de ces tâches de raisonnement visuel. La nouvelle taxonomie obtenue précédemment s'explique aussi partiellement par l'amélioration relative des deux réseaux d'attention et conduit à des prédictions testables concernant les besoins attentionnels des tâches SVRT. Enfin, nous développons une nouvelle architecture cognitive intégrant l'auto-attention et la mémoire. Nous proposons Guided Attention Model for (visual) Reasoning (GAMR), motivé par la théorie de la vision active. Le GAMR a des mécanismes de fonctionnement similaires à ceux du cerveau qui résout des tâches complexes de raisonnement visuel par des séquences de changements d'attention pour sélectionner et acheminer en mémoire les informations visuelles pertinentes pour la tâche. Ce changement d'attention est mis en œuvre à l'aide d'un module d'auto-attention guidé par une requête générée en interne. Nous démontrons que GAMR est efficace, robuste et compositionnel par rapport à l'une ou l'autre des architectures basées sur le feedforward, l'attention ou la mémoire. De plus, GAMR est capable de généraliser à des tâches de raisonnement complètement nouvelles. Dans l'ensemble, notre travail analyse le rôle de l'auto-attention dans l'architecture cognitive et de vision par ordinateur par leur capacité à résoudre des tâches complexes de raisonnement visuel nécessitant de l'attention comme composant clé pour résoudre efficacement les tâches de raisonnement.

Thèse

CCSD

2023-04-13

https://theses.hal.science/tel-04354304v1/document

https://theses.hal.science/tel-04354304v1/file/2023TOU30139.pdf

Infos complémentaires

Identifiant HAL :
2023TOU30139
thesis advisor :

Nicholas Asher

Thomas Serre

,
degree committee member :

Timothée Masquelier [Président]

Jonathan Cohen [Rapporteur]

Hugues Talbot [Rapporteur]

Jessica B. Hamrick
associated name :

École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Langue originale :

anglais
Date de la thèse :
2023-04-13
Informations sur la thèse :
Domaine : Humanities and Social Sciences/Library and information sciences
Institution :

Institut de recherche en informatique de Toulouse

MEthodes et ingénierie des Langues, des Ontologies et du DIscours

Université Toulouse III - Paul Sabatier

Université Toulouse Capitole

Université de Toulouse

Université Toulouse - Jean Jaurès

Centre National de la Recherche Scientifique

Institut National Polytechnique (Toulouse)

Toulouse Mind & Brain Institut
Accès :
Distributed under a Creative Commons Attribution 4.0 International License

Sujets

FAQ

Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?

Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?

Les horaires d'ouverture changent-ils pendant les vacances scolaires ?

Combien de temps faut-il arriver avant le début d'une animation ?