Retour aux articles
  • 05.03.2021

Qu’est ce que le Reinforcement Learning ?

Qu’est ce que le Reinforcement Learning ?

Qu'est ce que le Reinforcement Learning ?

Le reinforcement learning ou l'apprentissage par renforcement (RL) est la science de la prise de décision. Il s'agit d'apprendre le comportement optimal dans un environnement pour obtenir une récompense maximale. Ce comportement optimal s'acquiert par des interactions avec l'environnement et l'observation de ses réactions.

En l'absence d'un superviseur, l'apprenant doit découvrir de manière autonome la séquence d'actions qui maximise la récompense. Ce processus de découverte s'apparente à une recherche par essais et erreurs. La qualité des actions est mesurée non seulement par la récompense immédiate qu'elles rapportent, mais aussi par la récompense différée qu'elles pourraient rapporter. Comme il peut apprendre les actions qui aboutissent à un succès éventuel dans un environnement invisible sans l'aide d'un superviseur, l'apprentissage par renforcement est un algorithme très puissant.

Comment fonctionne le Reinforcement learning ?

Le problème du reinforcement learning implique qu'un agent explore un environnement inconnu pour atteindre un objectif. Le RL est basé sur l'hypothèse que tous les objectifs peuvent être décrits par la maximisation de la récompense cumulative attendue. L'agent doit apprendre à sentir et à perturber l'état de l'environnement en utilisant ses actions pour obtenir une récompense maximale. Le framework formel du reinforcement learning emprunte au problème du contrôle optimal des processus de décision de Markov (PDM).

Les principaux éléments d'un système de reinforcement learning sont les suivants :

  • L'agent ou l'apprenant
  • L'environnement avec lequel l'agent interagit
  • La politique que l'agent suit pour prendre des mesures
  • Le signal de récompense que l'agent observe lors de ses actions

Une abstraction utile du signal de récompense (reward signal) est la fonction de valeur, qui capture fidèlement la "bonté" d'un état. Alors que le signal de récompense représente l'avantage immédiat d'être dans un certain état, la fonction de valeur capture la récompense cumulative qui est censée être perçue à partir de cet état, en allant vers l'avenir. L'objectif d'un algorithme RL est de découvrir la politique d'action qui maximise la valeur moyenne qu'il peut extraire de chaque état du système.

Les algorithmes RL peuvent être classés en deux grandes catégories : les algorithmes sans modèle et les algorithmes basés sur un modèle. 

Les algorithmes sans modèle ne construisent pas un modèle explicite de l'environnement, ou plus rigoureusement, le PDM. Ils sont plus proches des algorithmes d'essai et d'erreur qui font des expériences avec l'environnement en utilisant des actions et en déduisent directement la politique optimale. Les algorithmes sans modèle sont soit basés sur la valeur, soit sur la politique. Les algorithmes basés sur la valeur considèrent que la politique optimale est le résultat direct de l'estimation précise de la fonction de valeur de chaque état. En utilisant une relation récursive décrite par l'équation de Bellman, l'agent interagit avec l'environnement pour échantillonner les trajectoires des états et des récompenses. Si les trajectoires sont suffisantes, la fonction de valeur du PDM peut être estimée. Une fois la fonction de valeur connue, la découverte de la politique optimale consiste simplement à agir avec avidité par rapport à la fonction de valeur à chaque état du processus. Certains algorithmes populaires basés sur la valeur sont le SARSA et le Q-learning. 

Les algorithmes basés sur les politiques, d'autre part, estiment directement la politique optimale sans modéliser la fonction de valeur. En paramétrant la politique directement à l'aide de poids apprenants, ils transforment le problème d'apprentissage en un problème d'optimisation explicite. 

Comme les algorithmes basés sur la valeur, l'agent échantillonne les trajectoires des états et des récompenses, toutefois, ces informations sont utilisées pour améliorer explicitement la politique en maximisant la fonction de valeur moyenne dans tous les états. 

Les approches basées sur les politiques souffrent d'une variance élevée qui se manifeste par des instabilités pendant le processus de formation. Les approches basées sur les valeurs, bien que plus stables, ne sont pas adaptées à la modélisation d'espaces d'action continue.  L'un des algorithmes de LR les plus puissants, appelé algorithme actor-critic, est construit en combinant les approches basées sur les valeurs et les politiques. Dans cet algorithme, la politique (acteur) et la fonction de valeur (critique) sont toutes deux paramétrées pour permettre une utilisation efficace des données de formation avec une convergence stable.

Les algorithmes de reinforcement learning basés sur un modèle construisent un modèle de l'environnement en échantillonnant les états, en prenant des mesures et en observant les récompenses. Pour chaque état et chaque action possible, le modèle prédit la récompense attendue et l'état futur attendu. Alors que le premier est un problème de régression, le second est un problème d'estimation de la densité. Étant donné un modèle de l'environnement, l'agent RL peut planifier ses actions sans interagir directement avec l'environnement. C'est comme une expérience de pensée qu'un humain pourrait mener lorsqu'il essaie de résoudre un problème. Lorsque le processus de planification est entrelacé avec le processus d'estimation de la politique, la capacité de l'agent RL à apprendre.

Reinforcement Learning : Les avantages

Le reinforcement learning est applicable à un large éventail de problèmes complexes qui ne peuvent être résolus avec d'autres algorithmes de machine learning. Le RL est plus proche de l'intelligence générale artificielle (AGI), car elle possède la capacité de rechercher un objectif à long terme tout en explorant diverses possibilités de manière autonome. 

Quelques-uns des avantages du reinforcement learning :

Se concentre sur le problème dans son ensemble 

Les algorithmes classiques de machine learning sont conçus pour exceller dans des sous-tâches spécifiques, sans avoir une notion de la situation globale. Le reinforcement learning ne divise pas le problème en sous-problèmes, il travaille directement à maximiser la récompense à long terme. Le reinforcement learning a un but évident, comprend l'objectif et est capable d'échanger des récompenses à court terme contre des avantages à long terme.

Ne nécessite pas d'étape de collecte de données distincte

En reinforcement learning, les données de formation sont obtenues par l'interaction directe de l'agent avec l'environnement. Les données de formation sont l'expérience de l'agent, et non une collecte séparée de données qui doivent être introduites dans l'algorithme. Cela réduit considérablement la charge de travail du superviseur chargé du processus de formation.

Travaille dans des environnements dynamiques et incertains :

Les algorithmes de reinforcement learning sont intrinsèquement adaptatifs et conçus pour répondre aux changements de l'environnement. Dans le LR, le temps compte et l'expérience que l'agent recueille n'est pas distribuée de manière indépendante et identique, contrairement aux algorithmes de machine learning classiques. Comme la dimension du temps est profondément enfouie dans la mécanique de la réalité virtuelle, l'apprentissage est intrinsèquement adaptatif.

Reinforcement Learning VS Supervised Learning (apprentissage supervisé)

Le supervised learning est un paradigme du machine learning qui exige qu'un superviseur bien informé crée un ensemble de données étiquetées et l'intègre à l'algorithme d'apprentissage. Le superviseur est responsable de la collecte de ces données de formation. La fonction principale d'un algorithme d'apprentissage supervisé est d'extrapoler et de généraliser, de faire des prédictions pour des exemples qui ne sont pas inclus dans l'ensemble de données de formation.

La RL est un paradigme distinct du machine learning. Le reinforcement learning n'a pas besoin d'un superviseur ou d'un ensemble de données pré-étiquetées, au contraire, il acquiert des données de formation sous forme d'expérience en interagissant avec l'environnement et en observant sa réaction. Cette différence cruciale rend le reinforcement learning possible dans des environnements complexes où il n'est pas pratique de conserver séparément des données de formation étiquetées qui sont représentatives de toutes les situations que l'agent pourrait rencontrer. La seule approche susceptible de fonctionner dans ces situations est celle où la génération des données de formation est autonome et intégrée dans l'algorithme d'apprentissage lui-même, tout comme le reinforcement learning.

Comme le reinforcement learning n'exige pas de superviseur, il est important de souligner que le LR n'est pas la même chose que l'apprentissage non supervisé, un autre paradigme du machine learning. Dans l'apprentissage non supervisé, les données de formation ne sont pas étiquetées, et l'objectif est de découvrir la structure cachée dans les données. La connaissance de cette structure cachée permet au modèle de regrouper des exemples similaires ou d'estimer la fonction de distribution qui a généré les exemples. La découverte de cette structure cachée ne résout pas le problème du reinforcement learning, qui est de maximiser la récompense à la fin d'une trajectoire. Cependant, la connaissance d'une structure cachée dans l'expérience de l'agent peut aider à accélérer le processus d'apprentissage.

Un défi unique aux algorithmes RL est le compromis entre l'exploration et l'exploitation. Ce compromis ne se pose pas dans l'apprentissage machine, qu'il soit supervisé ou non. Un agent RL doit trouver un équilibre délicat entre l'exploitation de son expérience passée et l'exploration des états inconnus de l'environnement. Le bon équilibre conduirait l'agent à découvrir la politique optimale qui lui rapporterait le plus de bénéfices. Si l'agent continue à exploiter uniquement l'expérience passée, il risque de rester bloqué dans un minimum local et de produire une politique sous-optimale. D'autre part, si l'agent continue à explorer sans exploiter, il risque de ne jamais trouver une bonne politique.

Quel est l'avenir du Reinforcement Learning ?

Ces dernières années, des progrès significatifs ont été réalisés dans le domaine du deep reinforcement learning. Le deep reinforcement learning utilise les réseaux neuronaux profonds pour modéliser la fonction de valeur (basé sur la valeur) ou la politique de l'agent (basé sur la politique) ou les deux (acteur-critique). Avant le succès généralisé des réseaux neuronaux profonds, des caractéristiques complexes devaient être conçues pour former un algorithme RL. Cela signifiait une capacité d'apprentissage réduite, limitant la portée du RL à des environnements simples. Avec le deep learning, les modèles peuvent être construits en utilisant des millions de poids entraînables, libérant l'utilisateur de la fastidieuse ingénierie des fonctionnalités. Les caractéristiques pertinentes sont générées automatiquement pendant le processus de formation, ce qui permet à l'agent d'apprendre des politiques optimales dans des environnements complexes.