McKinsey présente Kedro, son premier outil Open Source

Kedro est le premier outil open source du cabinet de conseil McKinsey

Page GitHub du projet Kedro

Kedro est le premier outil open source développé par une division du cabinet de conseil McKinsey. Il a été créé pour être utilisé par les data scientists et les ingénieurs. C'est une bibliothèque de codes pouvant être utilisée pour créer des données et des tubes, les éléments constitutifs d'un projet d'apprentissage automatique.

McKinsey & Company est une société américaine de conseil en gestion mondiale. Effectue des analyses qualitatives et quantitatives pour évaluer les décisions de gestion dans les secteurs public et privé. Ses clients comprennent 80% des plus grandes entreprises du monde.

Premier outil open source

La société n'avait encore jamais publié l'un des outils développés en interne sous une licence open source. En fait, Kedro est né en tant que logiciel propriétaire. Cependant, lorsque la relation avec l'entreprise a pris fin, les clients n'avaient plus accès au programme.

Le nom Kedro dérive de le mot grec pour centre ou noyau. Il a été choisi car cet outil open source fournit un code crucial pour la production de projets d'analyse avancés.

Kedro présente deux avantages principaux:

  • Il permet aux équipes de collaborer plus facilement en structurant le code analytique de manière uniforme.
  • Il permet à tous les composants de passer de manière transparente à toutes les étapes d'un projet.

Ceci comprend

  • Consolidation des sources de données,
  • Nettoyage des données
  • Création de fonctionnalités
  • Introduisez les données dans des modèles d'apprentissage automatique pour une analyse explicative ou prédictive.

Kedro aussi aide à fournir un code prêt à l'emploi. Cela le rend vraiment utile pour les scientifiques des données qui ne sont généralement pas des experts en création de logiciels.

Pourquoi Kedro est-il utile?

Les outils open source comme Kedro permettent réduisez de quelques semaines le temps de transformation d'un prototype en code de production. Les analystes peuvent passer moins de temps à coder et plus de temps à dépanner leurs clients.

Kedro aide les équipes à créer des canaux de données modulaires, testés, reproductibles dans n'importe quel environnement et versionnés, permettant aux utilisateurs d'accéder aux états de données précédents. Ce même code peut être transmis d'un ordinateur portable de développeur unique à un projet d'entreprise utilisant le cloud computing. Il peut également être utilisé avec toutes les industries, modèles et sources de données.

McKinsey a déjà utilisé Kedro sur plus de 50 projets à ce jour. Selon un dirigeant, les clients aiment particulièrement la visualisation des tuyaux. Ils voient immédiatement les différentes étapes de transformation, les types de modèles impliqués et peuvent retracer les résultats jusqu'à la source de données brutes.

McKinsey pas la première entreprise non directement liée à la technologie qui publie des outils open source. Uber et Airbnb l'avaient déjà fait.

Fonctionnalités et installation de Kendro

Kedro est un outil de développement de flux de travail pour la création de canaux de données robustes, évolutifs, déployables, reproductibles et versionnés.

Quelles sont les principales caractéristiques de Kedro?

1. Modèle de projet et normes de codage

  • Un modèle de projet standard facile à utiliser
  • Paramètres pour les informations d'identification, l'enregistrement, le téléchargement des données et Jupyter Notebooks / Lab.
  • Développement piloté par les tests à l'aide de pytest
  • Intégration de Sphinx pour produire du code bien documenté

2. Extraction des données et gestion des versions

  • Séparation de la couche informatique de la couche de gestion des données, y compris la prise en charge de différents formats de données et options de stockage.
  • Versions pour vos ensembles de données et modèles d'apprentissage automatique

3. Modularité et abstraction des tuyaux

  • Prise en charge des fonctions Python pures, des nœuds, pour diviser de gros morceaux de code en petites sections indépendantes.
  • Résolution automatique des dépendances entre les nœuds

4. Extensibilité des fonctionnalités

  • Un système de plugins qui injecte des commandes dans l'interface de ligne de commande (CLI) de Kedro: Kedro-Airflow, ce qui facilite le prototypage de votre pipeline de données dans Kedro avant de le déployer sur Airflow, un planificateur de flux de travail. Kedro-Docker, un outil d'emballage et d'expédition de projets Kedro en conteneurs
  • Kedro peut être déployé localement, sur site et dans le cloud (AWS, Azure et GCP) ou en clusters (EMR, Azure HDinsight, GCP et Databricks).

Nous pouvons installer Kedro sur notre distribution Linux pré-référencée en faisant:

sudo apt install python3-pip
pip install kedro

Pour actualiser:
pip3 install kedro -U

On peut voir la documentation avec:
kedro docs
Plus d'informations peuvent être trouvées sur la page du projet


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.