Retour aux articles
  • 22.03.2021

Qu’est ce que l’apprentissage auto-supervisé ?

Qu’est ce que l’apprentissage auto-supervisé ?

L'apprentissage supervisé (supervised learning) est un ensemble populaire de techniques de machine learning qui fonctionnent efficacement pour effectuer des tâches de régression et de classification. Cependant, la construction de modèles d'apprentissage supervisé nécessite un étiquetage manuel des données, ce qui est lent, coûteux et source d'erreurs. Cela ralentit la construction de modèles et limite les applications du machine learning.

 

L'apprentissage auto-supervisé (self supervised learning) est proposé pour utiliser des données non étiquetées avec les bons côtés de l'apprentissage supervisé. La production d'un ensemble de données avec de bonnes étiquettes est coûteuse, alors que des données non étiquetées sont générées en permanence. L'idée principale de l'apprentissage auto-supervisé est de générer des étiquettes à partir de données non étiquetées, selon la structure ou les caractéristiques des données elles-mêmes, puis de s'entraîner sur ces données non supervisées de manière supervisée. L'apprentissage auto-supervisé est très utilisé dans l'apprentissage des représentations pour qu'un modèle apprenne les caractéristiques latentes des données. Cette technique est souvent utilisée en computer vision, dans du traitement vidéo et la robotique.

 

 

Self supervised learning vs supervised/unsupervised learning 

Apprentissage auto-supervisé vs apprentissage semi-supervisé

L'apprentissage semi-supervisé utilise des données de formation étiquetées manuellement pour l'apprentissage supervisé et des approches d'apprentissage non supervisé pour les données non étiquetées afin de générer un modèle qui exploite les étiquettes existantes, mais qui construit un modèle capable de faire des prédictions au-delà des données étiquetées. L'apprentissage auto-supervisé repose entièrement sur des données dépourvues d'étiquettes générées manuellement.

Apprentissage auto-supervisé vs apprentissage supervisé 

La caractéristique commune de l'apprentissage supervisé et de l'apprentissage auto-supervisé est que les deux méthodes construisent des modèles d'apprentissage à partir d'ensembles de données d'entraînement avec leurs étiquettes. Cependant, l'apprentissage auto-supervisé ne nécessite pas l'ajout manuel d'étiquettes puisqu'il les génère lui-même. 

Apprentissage auto-supervisé vs apprentissage non supervisé 

L'apprentissage auto-supervisé est similaire à l'apprentissage non supervisé car les deux techniques fonctionnent avec des ensembles de données qui n'ont pas d'étiquettes ajoutées manuellement. L'apprentissage auto-supervisé est traité comme un sous-ensemble de l'apprentissage non supervisé. Cependant, l'apprentissage non supervisé se concentre sur la mise en grappes, le regroupement et la réduction de la dimensionnalité, tandis que l'apprentissage auto-supervisé vise à tirer des conclusions pour les tâches de régression et de classification.

Approches hybrides vs. apprentissage auto-supervisé

Il existe également des approches hybrides qui combinent des outils d'étiquetage automatique des données avec l'apprentissage supervisé. Dans ces méthodes, les ordinateurs peuvent étiqueter les points de données les plus faciles à étiqueter en se basant sur leurs données d'apprentissage et laisser les points complexes aux humains. Ou bien, ils peuvent étiqueter automatiquement tous les points de données, mais nécessitent l'approbation d'un humain. Dans l'apprentissage auto-supervisé, l'étiquetage automatique des données est intégré au modèle de formation. L'ensemble de données est étiqueté dans le cadre des processus d'apprentissage,il ne demande donc pas l'approbation de l'homme ou n'étiquette que les points de données simples.

Les limites de l’apprentissage auto-supervisé

La construction de modèles peut être plus intense en termes de calcul :

Les modèles d'apprentissage avec étiquettes peuvent être construits beaucoup plus rapidement que les modèles d'apprentissage sans étiquettes. De plus, l'apprentissage auto-supervisé génère de manière autonome des étiquettes pour l'ensemble de données donné, ce qui constitue une tâche supplémentaire. Par conséquent, par rapport à d'autres méthodes d'apprentissage, l'apprentissage auto-supervisé peut demander plus de ressources informatiques.

Des étiquettes inexactes peuvent conduire à des résultats inexacts.

Tu obtiendras toujours les meilleurs résultats lorsque tu disposeras déjà des étiquettes de ton ensemble de données. L'apprentissage auto-supervisé est une solution lorsque tu n'en as pas et que tu dois les générer manuellement. Cependant, cet apprentissage peut aboutir à des étiquettes inexactes lors du traitement, et ces inexactitudes peuvent conduire à des résultats inexacts pour la tâche. La précision de l'étiquetage est un facteur supplémentaire à prendre en compte lors de l'amélioration des modèles auto-supervisés.

Pourquoi utiliser l'apprentissage auto-supervisé ?

Des capacités d'IA améliorées

Aujourd'hui, l'apprentissage autonome est principalement utilisé en computer vision pour des tâches telles que la colorisation, la rotation 3D, le remplissage de profondeur ou le remplissage de contexte. Alors que ces tâches nécessitaient auparavant des exemples étiquetés pour construire des modèles précis, l'apprentissage auto-supervisé peut améliorer les technologies de computer vision ou de reconnaissance vocale en éliminant la nécessité d'exemples.

Évolutivité

L'apprentissage supervisé nécessite des données étiquetées pour prédire les résultats de données inconnues. Cependant, il peut avoir besoin de grands ensembles de données pour construire des modèles appropriés et faire des prédictions précises. Pour les grands ensembles de données de formation, l'étiquetage manuel des données peut être problématique. L'apprentissage auto-supervisé peut automatiser ce processus et gérer cette tâche même avec des quantités massives de données

Comprendre le fonctionnement de l'esprit humain

Les modèles supervisés nécessitent une intervention humaine pour fonctionner correctement. Cependant, ces interventions n'existent pas toujours. On peut alors penser à introduire l'apprentissage par renforcement (reinforcement learning) dans les machines pour qu'elles recommencent depuis le début dans des cas où elles peuvent obtenir un retour immédiat sans conséquences négatives. 

L'apprentissage auto-supervisé intervient à ce stade. Il génère automatiquement des étiquettes sans intervention humaine et permet aux machines de trouver une solution sans aucune interférence. L'apprentissage autosupervisé est une étape vers le fonctionnement de l'intelligence humaine. On se rapproche de la création de modèles dont la pensée est plus proche de celle des humains.