Auteur du futur

  • Sharding : définition, utilisation, avantages et inconvénients

    Le mot « sharding » signifie « éclater » en anglais. Dans le domaine de la data, le sharding est une méthode qui permet de partitionner un ensemble de données venant d’une même base de données. On fractionne ainsi notre base de données en plusieurs sous-ensembles de données également appelées « datasets ». ​

    Lire la suite
  • 4 types de biais statistique à éviter dans vos analyses

    Le biais statistique peut être défini comme tout ce qui conduit à une différence systématique entre les vrais paramètres d’une population et les statistiques utilisées pour estimer ces paramètres. Il existe une longue liste de types de biais de statistique.

    Lire la suite
  • Comment insérer des lignes ou colonnes sur Excel ?

    Lorsque vous utilisez Microsoft Excel pour votre activité, vous êtes amené(e) à réorganiser votre feuille de calcul. Vous devez savoir comment insérer, mais également supprimer, des lignes ou des colonnes dans votre feuille de calcul Excel.

    Lire la suite
  • Deep Learning avec Python : découvrez les fondamentaux

    Il est fort probable que vous utilisiez des applications qui font appel à des modèles de Deep Learning dans votre quotidien. En effet, traduction, ocr, reconnaissance faciale… Diverses de vos applications intègrent l’apprentissage profond.

    Lire la suite
  • Scikit-Learn : Découvrez la librairie Python dédié au Machine Learning

    Si vous étudiez des données et que vous souhaitez en tirer de l’information, vous devrez souvent traiter les données, les modifier et surtout construire des modèles capables d’apprendre des schémas dans vos données pour une problématique choisie. Beaucoup de librairies open source permettent aujourd’hui de le faire, mais la plus connue d’entre elles est sûrement Scikit-Learn.

    Lire la suite
  • Hyperparamètres : Qu’est-ce que c’est ? À quoi ça sert ?

    Les modèles d’apprentissage automatique sont des outils puissants pour résoudre des problèmes complexes, qu’il s’agisse de prédire les tendances boursières ou de diagnostiquer des maladies. Toutefois, pour tirer le meilleur parti de ces modèles, il faut comprendre le rôle des hyperparamètres et savoir comment les optimiser pour obtenir de meilleures performances.

    Lire la suite
  • Fonction ELIF sur Python : Ce qu’il faut retenir

    Le test d’expressions conditionnelles est la base même de la programmation. Si la structure if then else (si alors sinon) est inhérente à la plupart des langages, Python manipule une autre forme de condition : if elif else… Qu’en est-il au juste ?

    Lire la suite
  • Optimisation bayésienne : Définition et fonctionnement

    Pour définir un modèle prédictif, les datas scientists font appel à de multiples observations. Mais si l’étude de ces observations permet d’aboutir à un résultat optimal, les experts de la data disposent souvent de peu de temps pour analyser l’ensemble des hypothèses. Alors comment trouver le bon modèle en un minimum de temps ? C’est à cet instant qu’intervient l’optimisation bayésienne. De quoi s’agit-il ? Comment cela fonctionne-t-il ? Les réponses sont ici.

    Lire la suite
  • XAI ou eXplainable Artificial Intelligence : Qu’est-ce que c’est

    Un des grands défis de l’apprentissage automatique est de produire des systèmes capables d’expliquer leurs décisions et leurs actions aux utilisateurs humains. C’est ainsi que l’explicabilité des Intelligences artificielles ( XAI ) est devenue un des challenges du Machine Learning et fait désormais partie intégrante du métier des Data Scientists qui sont appelés à convaincre les utilisateurs de l’acceptabilité du raisonnement de leurs modèles.

    Lire la suite
  • Generative Adversarial Networks ou GAN : Qu’est-ce que c’est ?

    Les réseaux antagonistes génératifs représentent une avancée majeure dans le domaine de l’Intelligence artificielle et du Deep Learning. Aussi appelés GANs, Generative Adversarial Networks, ce sont des modèles d’apprentissage automatique non supervisés qui utilisent deux réseaux de neurones pour générer de nouvelles données réalistes. Qu’est-ce que les réseaux antagonistes génératifs exactement ? Quel est leur fonctionnement ? Quelles sont les applications des GANs ? Découvrez toutes les réponses dans cet article.

    Lire la suite
  • Machine Learning & Clustering : Focus sur l’algorithme CAH

    Le clustering est une discipline particulière du Machine Learning ayant pour objectif de séparer vos données en groupes homogènes ayant des caractéristiques communes. C’est un domaine très apprécié en marketing, par exemple, où l’on cherche souvent à segmenter les bases clients pour détecter des comportements particuliers.

    Lire la suite
  • Modèle SARIMAX : Qu’est-ce que c’est ? Comment l’appliquer aux séries temporelles ?

    L’analyse des séries temporelles est une méthodologie cruciale dans de nombreux domaines, tels que la finance, l’économie, la météorologie et la biologie.

    Lire la suite