Détails | Portail de démonstration Syrtis

Protocoles de routage basés sur l'apprentissage par renforcement pour l'optimisation de la durée de vie et de l'énergie des réseaux de capteurs sans fil

author: Obi, Elvis

Se connecter pour gérer mes listes

Type de support matériel: Thèse

Reinforcement learning based lifetime and energy optimization routing protocols for wireless sensor

Résumé

The sensor nodes' energy-efficient utilization is a major challenge in the design of Wireless Sensor Networks (WSNs). This is because the network lifetime is determined by the sensor nodes' limited energy sources whose replacement or recharging is almost impossible due to the mostly deployment of the sensor nodes in harsh environments. An effective way to prolong the network lifetime is by designing an energy-efficient routing protocol for WSNs using artificial intelligence such as Reinforcement Learning (RL) that can learn the network dynamics of WSNs. From the literature, the majority of the RL-based energy-efficient routing protocols for WSNs are distributed in nature. Though, the distributed RL-based routing protocol enables the wireless sensors to adaptively adjust to the dynamic changing nature of the WSNs environment which leads to reduced computational complexity and learning process time. However, the distributed RL-based routing protocols are limited to finding the global optimal routing paths. This leads to degradation in network lifetime and energy consumption. A centralized RL-based energy-efficient routing protocol can alleviate the challenge of finding the global optimal routing paths due to the global view of the WSNs. This thesis has three contributions which are presented in the sequel. First, this thesis presents the design of a Lifetime-Aware Centralized Q-Routing Protocol (LACQRP) for WSNs to maximize the network lifetime. This is achieved by implementing Q-learning on the sink of the WSN, which also acts as a controller that has global knowledge of the network topology. The sink generates all possible distance-based Minimum Spanning Trees (MSTs) which form the set of Routing Tables (RTs) for a WSN with 100 sensor nodes. The maximization of the network lifetime is achieved by the controller learning the RT(s) that minimizes the maximum of the sensor nodes' consumption energies. LACQRP learns the optimal RT(s) that maximize the network lifetime and has a better convergence rate, network lifetime, and average energy consumption performance when compared with some distributed RL-based routing protocols for lifetime optimization, which are RL-Based Routing (RLBR) and RL for Lifetime Optimization (R2LTO). Although LACQRP extends the network lifetime, the computation time increases exponentially with the number of sensor nodes. Second, this thesis also proposes a method called Centralized Routing Protocol for Lifetime Optimization with GA and Q-learning (CRPLOGAQL) to reduce the computation time of LACQRP. This is achieved by replacing the All-MSTs algorithm of LACQRP with the proposed GA-based MSTs. CRPLOGAQL provides a suboptimal routing with reduced computation time when compared with LACQRP. However, for the centralized RL-based routing protocols with large state space and action space, the baseline Q-learning used to implement these protocols suffers from degradation in the network lifetime and network energy consumption due to the large number of learning episodes required to learn the optimal RT(s). Finally, in this thesis, an efficient model-free RL-based technique called Least-Square Policy Iteration (LSPI) is used to optimize the network lifetime and energy consumption for WSNs to overcome the limitation of Q-learning. The resulting designed protocol is called a Centralized Routing Protocol for Lifetime and Energy Optimization with GA and LSPI (CRPLEOGALSPI). CRPLEOGALSPI has improved performance in network lifetime and network energy consumption when compared with CRPLOGAQL. This is because CRPLEOGALSPI chooses an RT in a given state considering all possible RTs and it's not sensitive to the learning rate.
L'optimisation énergétique des nœuds capteurs dans les Réseaux de Capteurs Sans Fil (RCSF) constitue un enjeu d'une importance primordiale. En effet, les nœuds capteurs font face à des ressources énergétiques limitées et sont principalement déployés dans des environnements complexes, ce qui confère une importance cruciale à la durée de vie du réseau étant donné qu'il est impossible de les remplacer ou de les recharger. Pour résoudre cette problématique, il est envisageable de concevoir des protocoles de routage économes en énergie qui exploitent l'Apprentissage par Renforcement (AR). La plupart des protocoles de routage RCSF basés sur l'AR sont distribués et s'adaptent aux environnements dynamiques, ce qui réduit la complexité et le temps d'apprentissage. Toutefois, ils peinent à trouver des routes optimales à l'échelle globale, ce qui entraîne une diminution de la durée de vie du réseau et de la consommation d'énergie. Un protocole centralisé basé sur l'AR permet de relever ce défi en profitant d'une vision globale des RCSF. Cette thèse présente trois contributions majeures. Tout d'abord, un protocole de routage, basé sur l'algorithme Q-learning, centralisé conscient de la durée de vie (LACQRP) est proposé pour maximiser la durée de vie du réseau. Q-learning est mis en œuvre au niveau de la passerelle possédant une connaissance globale du réseau. En générant tous les arbres couvrants de poids minimum basés sur la distance (All-MST), qui représentent l'ensemble des tables de routage (RT) pour un RCSF composé de 100 nœuds de capteurs, et en apprenant les RT qui minimisent la consommation d'énergie maximale des nœuds, LACQRP atteint une durée de vie optimale du réseau avec de meilleures performances que les protocoles de routage basés sur l'AR distribués tels que le Routage Basé sur l'AR (RLBR) et l'AR pour l'Optimisation de la Durée de Vie (R2LTO). Cependant, le temps de calcul de LACQRP augmente de manière exponentielle avec le nombre de nœuds capteurs. Ensuite, une méthode appelée Protocole de Routage Centralisé pour l'Optimisation de la Durée de Vie avec l'AR et un Algorithme Génétique (CRPLOGAQL) est proposée pour réduire le temps de calcul de LACQRP. En remplaçant All-MSTs de LACQRP par des arbres couvrants de poids minimal basés sur un algorithme génétique (GA), CRPLOGAQL parvient à un routage sous-optimal avec un temps de calcul réduit. Néanmoins, les protocoles centralisés basés sur l'AR avec des espaces d'états et d'actions importants utilisant Q-learning de référence entraînent une réduction de la durée de vie du réseau et une augmentation de la consommation d'énergie en raison de l'apprentissage approfondi nécessaire pour déterminer les RT optimaux. Enfin, une technique efficace d'AR sans modèle appelée Itération de Politique par Moindres Carrés (LSPI) est utilisée pour optimiser la durée de vie du réseau et la consommation d'énergie dans les RCSF, surmontant ainsi les limites de Q-learning. Le protocole résultant, appelé Protocole de Routage Centralisé pour l'Optimisation de la Durée de Vie et de l'Énergie avec l'AR, l'Algorithme Génétique et LSPI (CRPLEOGALSPI), surpasse CRPLOGAQL en prenant en compte tous les RT possibles dans un état donné, indépendamment du taux d'apprentissage.

Type de support matériel: Thèse

CCSD

2023-07-10

https://theses.hal.science/tel-04203121v1/document

https://theses.hal.science/tel-04203121v1/file/2023TOU30105b.pdf

Infos complémentaires

Identifiant HAL :

2023TOU30105
thesis advisor :

Zoubir Mammeri

Jacques Jorda,
degree committee member :

Thierry Gayraud [Président]

Samia Bouzefrane [Rapporteur]

Pascal Lorenz [Rapporteur]

Abderrezak Rachedi

Aliyu Danjuma usman
associated name :

École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Langue originale :

français
Date de la thèse :

2023-07-10
Informations sur la thèse :

Domaine : Humanities and Social Sciences/Library and information sciences
Institution :

Temps Réel dans les Réseaux et Systèmes

Institut de recherche en informatique de Toulouse

Université Toulouse Capitole

Université de Toulouse

Université Toulouse - Jean Jaurès

Université Toulouse III - Paul Sabatier

Centre National de la Recherche Scientifique

Institut National Polytechnique (Toulouse)

Toulouse Mind & Brain Institut
Accès :

Distributed under a Creative Commons Attribution 4.0 International License

Sujets

Mots-clé

Apprentissage par Renforcement

Durée de vie du réseau

Réseaux de capteurs sans fil

Consommation d'énergie

Routage

Optimisation du chemin
Mots-clé

Reinforcement Learning

Network lifetime

Wireless sensor networks

Energy consumption

Routing

Path optimization

FAQ

Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?

Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?

Les horaires d'ouverture changent-ils pendant les vacances scolaires ?

Combien de temps faut-il arriver avant le début d'une animation ?