La data science est le domaine d'étude qui combine la programmation, les mathématiques et les statistiques afin d'extraire des insights à partir de données. Les data scientists appliquent des algorithmes de machine learning aux nombres, textes, images, vidéos, sons et autres pour produire des systèmes d'intelligence artificielle (IA) permettant d'effectuer des tâches qui requièrent habituellement l'intelligence humaine. En retour, ces systèmes génèrent des informations que les analystes peuvent traduire et utiliser en valeur commerciale tangible.
De plus en plus d'entreprises prennent conscience de l'importance de la data science, de l'IA et du machine learning.
Voici quelques skills à avoir en 2021 pour démarrer en data science :
Les principes de base
Une compréhension de base des mathématiques va t’aider à comprendre le fonctionnement des algorithmes.
Cela implique l'algèbre linéaire, le calcul, la permutation et combinaisons, et l'algorithme du gradient.
Langage de programmation
Les deux langages de programmation les plus populaires sont R et Python. En choisissant un de ses langages de programmation (Python étant le favori) tu peux commencer à t’entraîner avec les outils et les bibliothèques d'Analytics. Les concepts de base de la programmation et la compréhension des structures de données sont très importants.
Probabilité et statistiques
Les statistiques sont l'épine dorsale de l'industrie des données. Voici les compétences demandées en probabilité et statistiques :
Probabilité : Espace des probabilités, Variable aléatoire, Attente, Variance et covariance, Distributions des probabilités
Statistiques : Statistiques descriptives, inférence statistique, statistiques différentielles, statistiques associatives
Analyse des données
Comprendre les données et trouver des modèles et des corrélations entre les données est la partie la plus importante du travail du data scientist. Cela vous donnera une idée du domaine et de l'algorithme à choisir.
En Python, les outils d'analyse de données comme Pandas et Numpy sont très populaires.
Dataviz
La visualisation des données (Dataviz) est importante pour montrer les modèles sous une forme visuelle en utilisant divers tableaux et graphiques pour montrer le comportement des données.
Les différentes techniques de visualisation des données comprennent le graphique linéaire, le Boxplot, l'histogramme, le Scatter plot (nuage de points), le diagramme à barres et la carte thermique.
Machine Learning
Le Machine Learning est un vaste sujet et le cœur de la data science et de l'intelligence artificielle.
Voici une liste de skills à apprendre :
- Algorithmes supervisés et non supervisés
- Algorithmes de classification et de régression
- Regroupement, réduction de la dimension, recommandation et association
- Techniques d'évaluation des modèles, sous-équipement et suréquipement
Les algorithmes :
- Classification : Naive Bayes, Régression logistique, Arbres de décision, Méthode des k plus proches voisins (K-Nearest Neighbors), Machines à vecteurs de soutien, XGBoost
- Régression : Régression linéaire, arbres de décision, Méthode des k plus proches voisins
- Algorithmes non supervisés : K-means, Analyse en composantes principales, Algorithme apriori, Système de recommandation de filtrage collaboratif et basé sur le contenu.
La data science et le machine learning sont des domaines très vastes.Après avoir compris les bases, tu peux commencer à travailler sur des projets en améliorant progressivement tes compétences.
L'ensemble des skills demandés à un data scientist diffère d'une entreprise à l'autre.
Les principaux métiers dans le domaine de la science des données sont Data Scientist, machine learning engineer, data analyst, data engineer et BI (business analyst).