Retour aux articles
  • 22.03.2021

Apprentissage supervisé vs apprentissage non supervisé

Apprentissage supervisé vs apprentissage non supervisé

Quelle est la différence entre l'apprentissage supervisé et l'apprentissage non supervisé. La réponse à cette question repose sur la compréhension de l'essence des algorithmes de machine learning. Sans une distinction claire entre l'apprentissage supervisé et l'apprentissage non supervisé, il est difficile de progresser

 

C'est en fait l'une des premières choses à apprendre lorsqu’on se lance dans le machine learning. On ne peut pas passer à la phase de construction du modèle sans comprendre où se situent les algorithmes tels que la régression linéaire, la régression logistique, le clustering, les réseaux neuronaux, etc.

 

Si on ne connaît pas l'objectif de l'algorithme de machine learning, il est difficile de construire un modèle précis. C'est là qu'intervient l'idée d'apprentissage supervisé et d'apprentissage non supervisé.

 

 

Qu'est-ce que l'apprentissage supervisé (supervised learning) ?

L'apprentissage supervisé est une approche du machine learning qui se définit par l'utilisation d'ensembles de données étiquetées. Ces ensembles de données sont conçus pour former les algorithmes afin qu'ils classent les données ou prédisent les résultats avec précision. En utilisant des entrées et des sorties étiquetées, le modèle peut mesurer sa précision et apprendre au fil du temps.

L'apprentissage supervisé peut être séparé en deux types de problèmes lors de l'exploration de données : 

Apprentissage supervisé : La classification

Les problèmes de classification utilisent un algorithme pour affecter avec précision des données de test à des catégories spécifiques. Les algorithmes d'apprentissage supervisé peuvent être utilisés pour classer les spams dans un dossier distinct de sa boîte de réception par exemple. Les classifieurs linéaires, les machines à vecteurs de support, les arbres de décision et les forêts d'arbres décisionnels sont tous des types courants d'algorithmes de classification.

Apprentissage supervisé : La régression

La régression est un autre type de méthode d'apprentissage supervisé qui utilise un algorithme pour comprendre la relation entre les variables dépendantes et indépendantes. Les modèles de régression sont utiles pour prédire des valeurs numériques sur la base de différents points de données. Les algorithmes de régression sont par exemple la régression linéaire, la régression logistique et la régression polynomiale.

Qu'est-ce que l'apprentissage non supervisé (unsupervised learning) ?

L'apprentissage non supervisé utilise des algorithmes de machine learning pour analyser et regrouper des ensembles de données non étiquetées. Ces algorithmes découvrent des modèles cachés dans les données sans nécessiter d'intervention humaine.

Les modèles d'apprentissage non supervisé sont utilisés pour trois tâches principales : 

Apprentissage non supervisé : Le clustering ou partitionnement de données

Le clustering est une technique d'exploration de données permettant de regrouper des données non étiquetées en fonction de leurs similitudes ou de leurs différences. Cette technique est utile pour la segmentation de marché, la compression d'images, etc.

Apprentissage non supervisé : L’association

L'association est un autre type de méthode d'apprentissage non supervisé qui utilise différentes règles pour trouver des relations entre les variables d'un ensemble de données donné. 

Apprentissage non supervisé : La réduction de la dimensionnalité

La réduction de la dimensionnalité est une technique d'apprentissage utilisée lorsque le nombre de caractéristiques (ou de dimensions) dans un ensemble de données donné est trop élevé. Elle réduit le nombre d'entrées de données à une taille gérable tout en préservant l'intégrité des données. Cette technique est souvent utilisée au stade du prétraitement des données, par exemple lorsque des auto-codeurs éliminent le bruit des données visuelles pour améliorer la qualité des images.

Pourquoi l'apprentissage supervisé ?

  • L'apprentissage supervisé permet de collecter des données ou de produire une sortie de données à partir de l'expérience précédente.
  • Il aide à optimiser les critères de performance en utilisant l'expérience
  • L'apprentissage supervisé aide à résoudre divers types de problèmes de calcul.

Pourquoi l'apprentissage non supervisé ?

  • L'apprentissage automatique non supervisé trouve toutes sortes de modèles inconnus dans les données.
  • Les méthodes non supervisées aident à trouver des caractéristiques qui peuvent être utiles pour la catégorisation.
  • Il a lieu en temps réel, donc toutes les données d'entrée sont analysées et étiquetées en présence des apprenants.
  • Il est plus facile d'obtenir des données non étiquetées à partir d'un ordinateur que des données étiquetées, qui nécessitent une intervention manuelle.

Apprentissage supervisé ou apprentissage non supervisé ?

Dans le développement, un grand nombre de facteurs influent sur le choix de l'approche en machine learning la mieux adaptée à une tâche donnée. Et, comme chaque problème en machine learning est différent, décider de la technique à utiliser est un processus complexe.

Il faut :

Évaluer les données :

Sont-elles étiquetées/non étiquetées ? Existe-t-il des connaissances d'experts pour soutenir un étiquetage supplémentaire ? Cela aidera à déterminer si une approche d'apprentissage supervisé, non supervisé, semi-supervisé, auto-supervisé ou renforcé (reinforcement learning) doit être utilisée.

Définir l'objectif :

Le problème est-il récurrent et défini ? Ou bien, l'algorithme devra-t-il prédire de nouveaux problèmes ?

Passer en revue les algorithmes disponibles susceptibles de convenir au problème en ce qui concerne la dimensionnalité (nombre d'éléments, d'attributs ou de caractéristiques). Les algorithmes candidats doivent être adaptés au volume global des données et à leur structure.

Étudier les applications réussies du type d'algorithme sur des problèmes similaires.