Machine Learning non supervisé & Cybersécurité

Les cybercriminels d'aujourd'hui sont devenus encore plus dangereux en raison de la variété des outils disponibles en ligne comme les serveurs proxy, les botnets et les scripts automatisés. Ils n'ont pas qu'une seule méthode pour lancer une cyber-attaque, et ils peuvent cacher leur identité en imitant l'activité réelle de l'utilisateur, en utilisant des dispositifs d'usurpation, etc. Dans un jeu à enjeux aussi élevés où la cybercriminalité coûte aux entreprises environ 2 000 milliards de dollars par an, la cybersécurité doit absolument améliorer ses performances grâce au machine learning non supervisé.

En entreprise, la cybersécurité se concentre principalement sur deux aspects :

Comment contrer les attaques qui ont déjà eu lieu sur le système ou celles qui sont un type familier de cyber-attaques, et mettre en œuvre des mesures préventives contre ces attaques ?

Comment identifier et contrer les attaques qui sont totalement nouvelles et jamais vues auparavant.

Si les entreprises peuvent s'attaquer au premier aspect en utilisant les méthodes traditionnelles de cybersécurité, il n'existe pas de solutions pour faire face au second scénario. Et le second scénario devient de plus en plus important alors que les cyber-attaques évoluent et deviennent plus imprévisibles. C'est là qu'intervient l'apprentissage automatique non supervisé (ou machine learning non supervisé).

Voici comment le machine learning et la manière dont différents types de formation, comme la formation supervisée, non supervisée et semi supervisée, sont utilisés dans le contexte de la cybersécurité.

Les différents types de Machine Learning dans le contexte de la cybersécurité

Le Machine Learning supervisé

Le machine learning supervisé est la méthode la plus courante en machine learning. Pour comprendre ce type, imaginez un enfant qui doit tout apprendre explicitement par un seul parent. Cet enfant sera excellent pour répéter et utiliser les informations que le parent lui a déjà enseignées mais ne sera pas capable d'apprendre quoi que ce soit par lui-même. Malheureusement, cet enfant sera généralement mauvais, et ne sera bon que dans certaines situations. C'est le même cas avec un algorithme de machine learning supervisé. Ici, l'algorithme apprend à partir d'un ensemble de données (dataset) où les données sont étiquetées et fait des prédictions sur de nouvelles données basées sur cet ensemble de données.

Cette méthode serait généralement satisfaisante, mais ce n'est pas le cas dans un domaine dynamique et en constante évolution comme la cybersécurité, où le machine learning supervisé ne peut pas suivre. Les pirates ne se contentent pas de s'en tenir aux sujets que l'algorithme a appris. Cela signifie qu'un algorithme de machine learning supervisé serait capable d'identifier les cyber-attaques qu'il a été formé à identifier. Cependant, si des attaques sont nouvelles, l'algorithme échoue totalement. Dans ce cas, les ingénieurs en machine learning devront recycler l'algorithme avec les données Il est possible qu'il y ait encore plus de nouvelles attaques créées avant qu'il n'en ait pris connaissance. C'est là que les algorithmes non supervisés entrent en jeu.

Machine Learning non supervisé

L'algorithme de machine learning non supervisé est l'enfant qui n'a pas besoin de beaucoup d'instructions et qui peut apprendre des informations par lui-même. Cet enfant n'est pas limité par le fait qu'on lui enseigne seulement une chose spécifique, mais il apprend de tout ce qui lui tombe sous la main en explorant et en comprenant l'information. Cet enfant est donc bon dans de nombreux types de situations car il peut s'attaquer aux problèmes lorsqu'ils surviennent. C'est également le cas avec un algorithme de machine learning non supervisé. Ici, l'algorithme est laissé sans surveillance pour trouver la structure sous-jacente dans les données afin d'en apprendre toujours plus sur la nouvelle situation.

Cet algorithme est beaucoup plus adapté à la cybersécurité. Il peut traiter de nombreux types de cyber-attaques, qu'il les ait déjà vues ou non, car il n'essaie pas d'identifier une cyber-attaque sur la base de ce qu'il a déjà appris. Il identifie plutôt les anomalies du système qui se produisent lors d'une cyber-attaque. Cela signifie donc qu'un algorithme de machine learning non supervisé créera une base de référence pour le système où tout fonctionne normalement. Ensuite, si un comportement suspect se produit dans le système, comme une augmentation soudaine du transfert de données dans le réseau ou le transfert d'un fichier qui ne se produit pas habituellement, ce type de comportement sera signalé comme anormal et signe d'une cyber-attaque.

Le machine learning non supervisé est la meilleure option pour identifier les cyber-attaques de type "zero-day" basées sur l'IoT. De nombreux dispositifs IoT sont connectés au cloud et peuvent être utilisés à de multiples fins, y compris pour des cyber-attaques de type "zero-day". Ces attaques exploitent toute vulnérabilité qui existe dans le système, et n'ont donc pas de modèle ou de contexte défini.

Machine Learning semi-supervisé

Comme son nom l'indique, l'algorithme de machine learning semi-supervisé est l'enfant qui apprend à la fois de son parent et de lui-même. Ce type de machine learning représente le meilleur des deux mondes, où il s'agit d'une combinaison de machine learning supervisé et non supervisé. Cet algorithme utilise une petite quantité de données étiquetées comme l'e machine learning supervisé et une plus grande quantité de données non étiquetées comme le machine learning non supervisé pour entraîner les algorithmes. Les données étiquetées peuvent être utilisées pour entraîner partiellement l'algorithme de machine learning, et cet algorithme partiellement entraîné trouve également des informations de manière organique.

Un algorithme de machine learning semi-supervisé pourrait bien être la combinaison parfaite pour la cybersécurité. Cet algorithme pourrait utiliser l'apprentissage non supervisé pour identifier toute anomalie dans le système qui se produit lors d'une cyber-attaque spécifique et ensuite étiqueter cette cyber-attaque comme une menace qu'il peut identifier à l'aide de machine learning supervisé, si elle se reproduit dans le futur. De cette façon, un algorithme de machine learning semi-supervisé incarne les avantages des deux types, il peut être constamment à l'affût de toute perturbation et de tout écart de la norme dans le système et disposent simultanément d'une disposition permettant d'identifier rapidement les cyber-attaques qui ont déjà eu lieu auparavant et de les éliminer.

Ce type de machine learning est totalement basé sur des performances réactionnaires. Comme les données ne sont pas étiquetées au préalable, l'algorithme de machine learning non supervisé ne peut réagir que lorsque l'attaque se produit et ne peut mettre en œuvre aucune méthode proactive.

Alors que les cyber-attaques deviennent de plus en plus créatives avec les différents outils et technologies à leur disposition, la cyberdéfense doit également s’améliorer. Le machine learning non supervisé peut s'avérer inestimable car il peut identifier des anomalies dans le système pour signaler de multiples types de cyber-attaques, quel que soit leur degré d'avancement.

Retrouvez les tendances en Machine Learning pour 2021.

Voir nos offres en Data Science !