Retour aux articles
  • 17.05.2023

Qu’est ce que Airbyte ?

Qu’est ce que Airbyte ?

Qu’est ce que Airbyte ?

Airbyte est une solution d'intégration de données open-source, qui propose des connecteurs préconstruits à partir d'une API ou d'une interface utilisateur. Les entreprises peuvent également personnaliser les connecteurs pour automatiser leurs pipelines de données en quelques minutes, en plus de générer des pipelines dans les langues de leur choix. Elles n'ont pas à se préoccuper de l'orchestration, de la planification ou de la surveillance d'un changement.

Les entreprises peuvent héberger elles-mêmes Airbyte, ce qui élimine tout risque d'intervention par des tiers. Des services tels que les schémas normalisés optionnels permettent aux ingénieurs d'opter pour des données brutes afin d'entreprendre leurs propres activités de normalisation. De même, les analystes peuvent commencer à utiliser les données immédiatement en optant pour un module similaire. Les API intégrées déployées par le logiciel permettent aux utilisateurs d'obtenir des notifications personnalisées sans délai inutile. Il suffit aux entreprises d'authentifier leurs conteneurs Docker et leurs sources pour accéder aux connecteurs capables de s'adapter aux changements et aux schémas liés aux API.

Comment fonctionne Airbyte ?

Les connecteurs Airbyte peuvent être sélectionnés à partir d'une liste de plus de 100 connecteurs préconstruits pour les sources de données et les destinations, ou vous pouvez développer vos propres connecteurs. Un connecteur Airbyte exécute son propre conteneur Docker, ce qui, à première vue, peut sembler être une caractéristique subtile, mais qui présente un avantage majeur en termes d'architecture.  Chaque source est un conteneur individuel que chaque connecteur est en fait un programme de migration de données autonome, que vous pouvez surveiller, actualiser et programmer.

Vous pouvez écrire un connecteur de source dans le langage de votre choix ou profiter du Connector-Development Kit (CDK) d'Airbyte en Python, C#/.NET ou TypeScript/Javascript. Le CDK d'Airbyte génère 75 % du code nécessaire à l'écriture des connexions sources et vous pouvez personnaliser des éléments tels que le multithreading, les fonctions réutilisables et les détails de connexion. La mise en œuvre est normalisée, de sorte que vous pouvez rapidement écrire des connecteurs pour les API HTTP, les bases de données et d'autres sources personnalisées. Une fois le développement terminé, un générateur de code permet d'emballer le connecteur et d'exécuter la suite de tests.

Airbyte utilise un système architecturé comme un CLI. L'interface d'application d'Airbyte est basée sur le web et l'interface utilisateur est construite au-dessus de la CLI. Le CLI est un framework puissant mais familier pour les flux de données. Lorsque vous exécutez un travail, la source d'entrée et la sortie des données sont structurées dans un flux de messagerie standard. Si vous connaissez les systèmes Unix, il s'agit de stdin et stdout, ce qui permet une structure standard éprouvée pour les flux de données. C'est ainsi qu'Airbyte crée un pipeline de flux de données cohérent pour synchroniser votre source et votre destination.

Pourquoi les ETL open-source sont-ils importants ?

La décision d'Airbyte d'ouvrir sa plateforme signifie qu'elle peut mettre les connecteurs de données à la disposition du plus grand nombre. Les connecteurs de données ou connecteurs ETL sont le composant de configuration du système qui gère la connexion entre les sources de données et les destinations. Aujourd'hui, les données sources peuvent provenir de n'importe quel système, qu'il s'agisse de bases de données internes, de sources de données externes, de produits SaaS ou d'API. Construire et maintenir des connecteurs dans un produit à code source fermé est assez restrictif et coûteux à maintenir, car au fil du temps, les API des sources de données changent, les schémas changent et les versions des bases de données changent. 

En réalité, la seule façon de moderniser ETL pour la multitude de sources de données précieuses était de le "banaliser". La libération de l'ETL est accélérée par la libération de la création de connecteurs de sources de données. Airbyte a créé le Connector Development KIT (CDK), qui permet aux utilisateurs de créer leurs propres connecteurs personnalisés. Le CDK dispose d'un cadre normalisé, de sorte que les équipes de développement peuvent facilement en assurer la maintenance.

Pourquoi les entreprises se tournent-elles vers Airbyte ?

Les entreprises sont confrontées à un problème récurrent. Leurs plateformes ETL (extraction, transformation et chargement) existantes sont généralement difficiles à maintenir.

La plupart d'entre elles nécessitent beaucoup de code personnalisé et, par conséquent, beaucoup de développeurs, simplement pour créer quelques pipelines.

Des connecteurs internes sont construits dans de nombreuses entreprises. Le problème est que la maintenance des connecteurs personnalisés a un coût. Les ETL se concentrent sur leurs résultats, limitant le nombre de connecteurs offerts, même si cela crée des lacunes dans la solution pour les entreprises qui utilisent leurs plateformes.

Les ETL existants ont un modèle de tarification basé sur le volume, ce qui peut finir par coûter des milliers d'euros à une entreprise si l'un de ses employés réplique accidentellement une grande base de données. Alors que les problèmes de sécurité atteignent des sommets, le manque de visibilité des entreprises sur les systèmes de l'ETL suscite le doute et la méfiance.

Face à la persistance de ces problèmes, les entreprises recherchent des solutions moins coûteuses qui leur permettent d'évoluer sans avoir à construire et à maintenir les mêmes types de pipelines que ceux que les solutions ETL sont censées couvrir.