Déchiffrer le langage visuel du cerveau : reconstruction d'images naturelles à l'aide de modèles génératifs profonds à partir de signaux IRMf
Deciphering the Brain’s Visual Language : Natural Image Reconstruction using Deep Generative Models from fMRI Signals
Résumé
The great minds of humanity were always curious about the nature of mind, brain, and consciousness. Through physical and thought experiments, they tried to tackle challenging questions about visual perception. As neuroimaging techniques were developed, neural encoding and decoding techniques provided profound understanding about how we process visual information. Advancements in Artificial Intelligence and Deep Learning areas have also influenced neuroscientific research. With the emergence of deep generative models like Variational Autoencoders (VAE), Generative Adversarial Networks (GAN) and Latent Diffusion Models (LDM), researchers also used these models in neural decoding tasks such as visual reconstruction of perceived stimuli from neuroimaging data. The current thesis provides two frameworks in the above-mentioned area of reconstructing perceived stimuli from neuroimaging data, particularly fMRI data, using deep generative models. These frameworks focus on different aspects of the visual reconstruction task than their predecessors, and hence they may bring valuable outcomes for the studies that will follow. The first study of the thesis (described in Chapter 2) utilizes a particular generative model called IC-GAN to capture both semantic and realistic aspects of the visual reconstruction. The second study (mentioned in Chapter 3) brings new perspective on visual reconstruction by fusing decoded information from different modalities (e.g. text and image) using recent latent diffusion models. These studies become state-of-the-art in their benchmarks by exhibiting high-fidelity reconstructions of different attributes of the stimuli. In both of our studies, we propose region-of-interest (ROI) analyses to understand the functional properties of specific visual regions using our neural decoding models. Statistical relations between ROIs and decoded latent features show that while early visual areas carry more information about low-level features (which focus on layout and orientation of objects), higher visual areas are more informative about high-level semantic features. We also observed that generated ROI-optimal images, using these visual reconstruction frameworks, are able to capture functional selectivity properties of the ROIs that have been examined in many prior studies in neuroscientific research. Our thesis attempts to bring valuable insights for future studies in neural decoding, visual reconstruction, and neuroscientific exploration using deep learning models by providing the results of two visual reconstruction frameworks and ROI analyses. The findings and contributions of the thesis may help researchers working in cognitive neuroscience and have implications for brain-computer-interface applications.
Les grands esprits de l'humanité ont toujours été curieux de la nature de l'esprit, du cerveau et de la conscience. Par le biais d'expériences physiques et mentales, ils ont tenté de répondre à des questions difficiles sur la perception visuelle. Avec le développement des techniques de neuro-imagerie, les techniques de codage et de décodage neuronaux ont permis de mieux comprendre la manière dont nous traitons les informations visuelles. Les progrès réalisés dans les domaines de l'intelligence artificielle et de l'apprentissage profond ont également influencé la recherche en neuroscience. Avec l'émergence de modèles génératifs profonds tels que les autoencodeurs variationnels (VAE), les réseaux adversariaux génératifs (GAN) et les modèles de diffusion latente (LDM), les chercheurs ont également utilisé ces modèles dans des tâches de décodage neuronal telles que la reconstruction visuelle des stimuli perçus à partir de données de neuro-imagerie. La présente thèse fournit deux bases théoriques dans le domaine de la reconstruction des stimuli perçus à partir de données de neuro-imagerie, en particulier les données IRMf, en utilisant des modèles génératifs profonds. Ces bases théoriques se concentrent sur des aspects différents de la tâche de reconstruction visuelle que leurs prédécesseurs, et donc ils peuvent apporter des résultats précieux pour les études qui suivront. La première étude dans la thèse (décrite au chapitre 2) utilise un modèle génératif particulier appelé IC-GAN pour capturer les aspects sémantiques et réalistes de la reconstruction visuelle. La seconde étude (décrite au chapitre 3) apporte une nouvelle perspective sur la reconstruction visuelle en fusionnant les informations décodées à partir de différentes modalités (par exemple, le texte et l'image) en utilisant des modèles de diffusion latente récents. Ces études sont à la pointe de la technologie dans leurs domaines de référence en présentant des reconstructions très fidèles des différents attributs des stimuli. Dans nos deux études, nous proposons des analyses de régions d'intérêt (ROI) pour comprendre les propriétés fonctionnelles de régions visuelles spécifiques en utilisant nos modèles de décodage neuronal. Les relations statistiques entre les régions d'intérêt et les caractéristiques latentes décodées montrent que les zones visuelles précoces contiennent plus d'informations sur les caractéristiques de bas niveau (qui se concentrent sur la disposition et l'orientation des objets), tandis que les zones visuelles supérieures sont plus informatives sur les caractéristiques sémantiques de haut niveau. Nous avons également observé que les images optimales de ROI générées à l'aide de nos techniques de reconstruction visuelle sont capables de capturer les propriétés de sélectivité fonctionnelle des ROI qui ont été examinées dans de nombreuses études antérieures dans le domaine de la recherche neuroscientifique. Notre thèse tente d'apporter des informations précieuses pour les études futures sur le décodage neuronal, la reconstruction visuelle et l'exploration neuroscientifique à l'aide de modèles d'apprentissage profond en fournissant les résultats de deux bases théoriques de reconstruction visuelle et d'analyses de ROI. Les résultats et les contributions de la thèse peuvent aider les chercheurs travaillant dans le domaine des neurosciences cognitives et avoir des implications pour les applications d'interface cerveau-ordinateur.
Infos complémentaires
-
Identifiant HAL : 2024TLSES073
-
-
Langue originale :anglais
-
Date de la thèse : 2024-04-30
-
Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences , Domaine : Cognitive science/Neuroscience , Domaine : Computer Science [cs]/Artificial Intelligence [cs.AI]
-
Accès : Distributed under a Creative Commons Attribution 4.0 International License
FAQ
Liens FAQ