Aller au contenu principal
logo
Accueil
ouverture_bib
user_account

User account menu

  • Les bibliothèques du réseau
  • Mon compte
    • Connexion
    • J'active mon compte
    • Je me préinscris
main_menu

Main navigation

  • Catalogue
    • Livres
    • Jeux et jouets
    • Livres numériques
    • Lire autrement
    • Presse et magazines
    • Films et séries
    • Musiques
  • Agenda
  • Dossiers documentaires
  • Patrimoine
  • Offres en ligne
  1. Accueil
  2. Détails
Protocoles de routage basés sur l'apprentissage par renforcement pour l'optimisation de la durée de vie et de l'énergie des réseaux de capteurs sans fil
Obi, Elvis
Thèse
Reinforcement learning based lifetime and energy optimization routing protocols for wireless sensor
Résumé The sensor nodes' energy-efficient utilization is a major challenge in the design of Wireless Sensor Networks (WSNs). This is because the network lifetime is determined by the sensor nodes' limited energy sources whose replacement or recharging is almost impossible due to the mostly deployment of the sensor nodes in harsh environments. An effective way to prolong the network lifetime is by designing an energy-efficient routing protocol for WSNs using artificial intelligence such as Reinforcement Learning (RL) that can learn the network dynamics of WSNs. From the literature, the majority of the RL-based energy-efficient routing protocols for WSNs are distributed in nature. Though, the distributed RL-based routing protocol enables the wireless sensors to adaptively adjust to the dynamic changing nature of the WSNs environment which leads to reduced computational complexity and learning process time. However, the distributed RL-based routing protocols are limited to finding the global optimal routing paths. This leads to degradation in network lifetime and energy consumption. A centralized RL-based energy-efficient routing protocol can alleviate the challenge of finding the global optimal routing paths due to the global view of the WSNs. This thesis has three contributions which are presented in the sequel. First, this thesis presents the design of a Lifetime-Aware Centralized Q-Routing Protocol (LACQRP) for WSNs to maximize the network lifetime. This is achieved by implementing Q-learning on the sink of the WSN, which also acts as a controller that has global knowledge of the network topology. The sink generates all possible distance-based Minimum Spanning Trees (MSTs) which form the set of Routing Tables (RTs) for a WSN with 100 sensor nodes. The maximization of the network lifetime is achieved by the controller learning the RT(s) that minimizes the maximum of the sensor nodes' consumption energies. LACQRP learns the optimal RT(s) that maximize the network lifetime and has a better convergence rate, network lifetime, and average energy consumption performance when compared with some distributed RL-based routing protocols for lifetime optimization, which are RL-Based Routing (RLBR) and RL for Lifetime Optimization (R2LTO). Although LACQRP extends the network lifetime, the computation time increases exponentially with the number of sensor nodes. Second, this thesis also proposes a method called Centralized Routing Protocol for Lifetime Optimization with GA and Q-learning (CRPLOGAQL) to reduce the computation time of LACQRP. This is achieved by replacing the All-MSTs algorithm of LACQRP with the proposed GA-based MSTs. CRPLOGAQL provides a suboptimal routing with reduced computation time when compared with LACQRP. However, for the centralized RL-based routing protocols with large state space and action space, the baseline Q-learning used to implement these protocols suffers from degradation in the network lifetime and network energy consumption due to the large number of learning episodes required to learn the optimal RT(s). Finally, in this thesis, an efficient model-free RL-based technique called Least-Square Policy Iteration (LSPI) is used to optimize the network lifetime and energy consumption for WSNs to overcome the limitation of Q-learning. The resulting designed protocol is called a Centralized Routing Protocol for Lifetime and Energy Optimization with GA and LSPI (CRPLEOGALSPI). CRPLEOGALSPI has improved performance in network lifetime and network energy consumption when compared with CRPLOGAQL. This is because CRPLEOGALSPI chooses an RT in a given state considering all possible RTs and it's not sensitive to the learning rate. L'optimisation énergétique des nœuds capteurs dans les Réseaux de Capteurs Sans Fil (RCSF) constitue un enjeu d'une importance primordiale. En effet, les nœuds capteurs font face à des ressources énergétiques limitées et sont principalement déployés dans des environnements complexes, ce qui confère une importance cruciale à la durée de vie du réseau étant donné qu'il est impossible de les remplacer ou de les recharger. Pour résoudre cette problématique, il est envisageable de concevoir des protocoles de routage économes en énergie qui exploitent l'Apprentissage par Renforcement (AR). La plupart des protocoles de routage RCSF basés sur l'AR sont distribués et s'adaptent aux environnements dynamiques, ce qui réduit la complexité et le temps d'apprentissage. Toutefois, ils peinent à trouver des routes optimales à l'échelle globale, ce qui entraîne une diminution de la durée de vie du réseau et de la consommation d'énergie. Un protocole centralisé basé sur l'AR permet de relever ce défi en profitant d'une vision globale des RCSF. Cette thèse présente trois contributions majeures. Tout d'abord, un protocole de routage, basé sur l'algorithme Q-learning, centralisé conscient de la durée de vie (LACQRP) est proposé pour maximiser la durée de vie du réseau. Q-learning est mis en œuvre au niveau de la passerelle possédant une connaissance globale du réseau. En générant tous les arbres couvrants de poids minimum basés sur la distance (All-MST), qui représentent l'ensemble des tables de routage (RT) pour un RCSF composé de 100 nœuds de capteurs, et en apprenant les RT qui minimisent la consommation d'énergie maximale des nœuds, LACQRP atteint une durée de vie optimale du réseau avec de meilleures performances que les protocoles de routage basés sur l'AR distribués tels que le Routage Basé sur l'AR (RLBR) et l'AR pour l'Optimisation de la Durée de Vie (R2LTO). Cependant, le temps de calcul de LACQRP augmente de manière exponentielle avec le nombre de nœuds capteurs. Ensuite, une méthode appelée Protocole de Routage Centralisé pour l'Optimisation de la Durée de Vie avec l'AR et un Algorithme Génétique (CRPLOGAQL) est proposée pour réduire le temps de calcul de LACQRP. En remplaçant All-MSTs de LACQRP par des arbres couvrants de poids minimal basés sur un algorithme génétique (GA), CRPLOGAQL parvient à un routage sous-optimal avec un temps de calcul réduit. Néanmoins, les protocoles centralisés basés sur l'AR avec des espaces d'états et d'actions importants utilisant Q-learning de référence entraînent une réduction de la durée de vie du réseau et une augmentation de la consommation d'énergie en raison de l'apprentissage approfondi nécessaire pour déterminer les RT optimaux. Enfin, une technique efficace d'AR sans modèle appelée Itération de Politique par Moindres Carrés (LSPI) est utilisée pour optimiser la durée de vie du réseau et la consommation d'énergie dans les RCSF, surmontant ainsi les limites de Q-learning. Le protocole résultant, appelé Protocole de Routage Centralisé pour l'Optimisation de la Durée de Vie et de l'Énergie avec l'AR, l'Algorithme Génétique et LSPI (CRPLEOGALSPI), surpasse CRPLOGAQL en prenant en compte tous les RT possibles dans un état donné, indépendamment du taux d'apprentissage.
Thèse
CCSD
-
2023-07-10
https://theses.hal.science/tel-04203121v1/document
https://theses.hal.science/tel-04203121v1/file/2023TOU30105b.pdf
Infos complémentaires
  • Identifiant HAL : 2023TOU30105
  • thesis advisor :
    Zoubir Mammeri
    Jacques Jorda
    ,
    degree committee member :
    Thierry Gayraud [Président]
    Samia Bouzefrane [Rapporteur]
    Pascal Lorenz [Rapporteur]
    Abderrezak Rachedi
    Aliyu Danjuma usman
  • associated name :
    École doctorale Mathématiques, informatique et télécommunications (Toulouse)
  • Langue originale :
    français
  • Date de la thèse : 2023-07-10
  • Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences
  • Institution :
    Temps Réel dans les Réseaux et Systèmes
    Institut de recherche en informatique de Toulouse
    Université Toulouse Capitole
    Université de Toulouse
    Université Toulouse - Jean Jaurès
    Université Toulouse III - Paul Sabatier
    Centre National de la Recherche Scientifique
    Institut National Polytechnique (Toulouse)
    Toulouse Mind & Brain Institut
  • Accès : Distributed under a Creative Commons Attribution 4.0 International License
Sujets
  • Apprentissage par Renforcement
    Durée de vie du réseau
    Réseaux de capteurs sans fil
    Consommation d'énergie
    Routage
    Optimisation du chemin
  • Reinforcement Learning
    Network lifetime
    Wireless sensor networks
    Energy consumption
    Routing
    Path optimization

FAQ

Liens FAQ
Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?
Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?
Les horaires d'ouverture changent-ils pendant les vacances scolaires ?
Combien de temps faut-il arriver avant le début d'une animation ?

Autres informations et mentions légales

Logo Tech'Advantage

Body

Tech'Advantage
Syrtis

532 avenue Napoléon Bonaparte
92500 RUEIL-MALMAISON
01 56 84 02 00
Contact
Body

Informations générales

  • Mentions légales
  • Accessibilité : non conforme
  • Données personnelles
Body

Réseaux sociaux

  • LinkedIn
  • X