Les statistiques sont un élément essentiel de la data science. Les concepts statistiques fournissent des informations significatives sur les données afin d'effectuer une analyse quantitative de celles-ci. La construction de modèles utilise des techniques statistiques comme la régression, la classification, l'analyse des séries chronologiques et le test d'hypothèse. Les data scientists effectuent de nombreux tests et interprètent les résultats à l'aide de ces techniques statistiques. Il est donc essentiel pour les spécialistes des données d'avoir de bonnes bases en statistiques.
Elle est utilisée pour décrire les caractéristiques de base des données qui fournissent un résumé de l'ensemble de données donné qui peut représenter la population entière ou un échantillon de la population. Elle est dérivée de calculs qui incluent :
C’est l'une des principales techniques statistiques permettant de mesurer la relation entre deux variables. Le coefficient de corrélation indique la force de la relation linéaire entre deux variables.
La variabilité comprend les paramètres suivants :
C'est une méthode qui est utilisée pour déterminer la relation entre une ou plusieurs variables indépendantes et une variable dépendante. La régression est principalement de deux types :
Elle spécifie la probabilité de tous les événements possibles. En termes simples, un événement fait référence au résultat d'une expérience. Les événements sont de deux types : dépendants et indépendants.
Événement indépendant : On dit que l'événement est indépendant lorsqu'il n'est pas affecté par les événements précédents. Mais ce résultat est totalement indépendant du premier essai.
Événement dépendant : L'événement est dit dépendant lorsque l'occurrence de l'événement dépend des événements précédents.
La probabilité d'événements indépendants est calculée en multipliant simplement la probabilité de chaque événement et celle d'un événement dépendant est calculée par la probabilité conditionnelle.
La loi normale est utilisée pour définir la fonction de densité de probabilité d'une variable aléatoire continue dans un système. La distribution normale standard à deux paramètres : la moyenne et l'écart-type. Lorsque la distribution des variables aléatoires est inconnue, on utilise la distribution normale. Le théorème de la limite centrale justifie l'utilisation de la distribution normale dans de tels cas.
En termes statistiques, il s'agit du moment où un modèle est représentatif d'une population complète. Il faut le minimiser pour obtenir le résultat souhaité.
Les trois types de biais les plus courants sont les suivants :
En dehors de ceux-ci, il existe d'autres sujets de statistiques pour la data science, comme :