Les statistiques sont un élément essentiel de la data science. Les concepts statistiques fournissent des informations significatives sur les données afin d'effectuer une analyse quantitative de celles-ci. La construction de modèles utilise des techniques statistiques comme la régression, la classification, l'analyse des séries chronologiques et le test d'hypothèse. Les data scientists effectuent de nombreux tests et interprètent les résultats à l'aide de ces techniques statistiques. Il est donc essentiel pour les spécialistes des données d'avoir de bonnes bases en statistiques.
Quelques concepts statistiques à connaître en data science
Statistiques descriptives
Elle est utilisée pour décrire les caractéristiques de base des données qui fournissent un résumé de l'ensemble de données donné qui peut représenter la population entière ou un échantillon de la population. Elle est dérivée de calculs qui incluent :
- La moyenne : C'est la valeur centrale qui est communément appelée moyenne arithmétique.
- Le mode : Il s'agit de la valeur qui apparaît le plus souvent dans un ensemble de données.
- La médiane : C'est la valeur centrale de l'ensemble ordonné qui le divise exactement en deux.
Corrélation
C’est l'une des principales techniques statistiques permettant de mesurer la relation entre deux variables. Le coefficient de corrélation indique la force de la relation linéaire entre deux variables.
- Un coefficient de corrélation supérieur à zéro indique une relation positive.
- Un coefficient de corrélation inférieur à zéro indique une relation négative.
- Un coefficient de corrélation nul indique qu'il n'y a pas de relation entre les deux variables.
Variabilité
La variabilité comprend les paramètres suivants :
- Écart-type : C'est une statistique qui calcule la dispersion d'un ensemble de données par rapport à sa moyenne.
- Variance : Il s'agit d'une mesure statistique de l'écart entre les nombres d'un ensemble de données. C’est la différence par rapport à la moyenne. Une grande variance indique que les chiffres sont très éloignés de la moyenne ou de la valeur moyenne. Une faible variance indique que les chiffres sont plus proches des valeurs moyennes. Une variance nulle indique que les valeurs sont identiques à l'ensemble donné.
- Plage : Il s'agit de la différence entre la plus grande et la plus petite valeur d'un ensemble de données.
- Percentile : Il s'agit de la mesure utilisée en statistique qui indique la valeur en dessous de laquelle se situe le pourcentage donné d'observations dans l'ensemble de données.
- Quartile : Il est défini comme la valeur qui divise les points de données en quarts.
- Intervalle interquartile : Il mesure la moitié médiane des données. C’est en fait la moitié intermédiaire de l'ensemble de données.
Régression
C'est une méthode qui est utilisée pour déterminer la relation entre une ou plusieurs variables indépendantes et une variable dépendante. La régression est principalement de deux types :
- La régression linéaire : Elle est utilisée pour ajuster le modèle de régression qui explique la relation entre une variable prédictive numérique et une ou plusieurs variables prédictives.
- La régression logistique : Elle est utilisée pour ajuster un modèle de régression qui explique la relation entre la variable de réponse binaire et une ou plusieurs variables prédictives.
Distribution des probabilités
Elle spécifie la probabilité de tous les événements possibles. En termes simples, un événement fait référence au résultat d'une expérience. Les événements sont de deux types : dépendants et indépendants.
Événement indépendant : On dit que l'événement est indépendant lorsqu'il n'est pas affecté par les événements précédents. Mais ce résultat est totalement indépendant du premier essai.
Événement dépendant : L'événement est dit dépendant lorsque l'occurrence de l'événement dépend des événements précédents.
La probabilité d'événements indépendants est calculée en multipliant simplement la probabilité de chaque événement et celle d'un événement dépendant est calculée par la probabilité conditionnelle.
Distribution normale
La loi normale est utilisée pour définir la fonction de densité de probabilité d'une variable aléatoire continue dans un système. La distribution normale standard à deux paramètres : la moyenne et l'écart-type. Lorsque la distribution des variables aléatoires est inconnue, on utilise la distribution normale. Le théorème de la limite centrale justifie l'utilisation de la distribution normale dans de tels cas.
Biais
En termes statistiques, il s'agit du moment où un modèle est représentatif d'une population complète. Il faut le minimiser pour obtenir le résultat souhaité.
Les trois types de biais les plus courants sont les suivants :
- Biais de sélection : C'est un phénomène de sélection d'un groupe de données pour l'analyse statistique, la sélection de telle sorte que les données ne sont pas aléatoires résultant en des données non représentatives de l'ensemble de la population.
- Biais de confirmation : il se produit lorsque la personne qui effectue l'analyse statistique a une hypothèse prédéfinie.
- Biais d'intervalle de temps : il est causé intentionnellement en spécifiant une certaine plage de temps pour favoriser un résultat particulier.
En dehors de ceux-ci, il existe d'autres sujets de statistiques pour la data science, comme :
- Le théorème de la limite centrale
- Compromis biais/variance
- Test d'hypothèse
- Relation entre les variables
- Covariance