McKinsey presenta Kedro, la seva primera eina de codi obert

Kedro és la primera eina de codi obert de la consultora McKinsey

Pàgina en GitHub de el projecte Kedro

Kedro és la primera eina de codi obert desenvolupada per una divisió de la consultora McKinsey. Es va crear per a ser usada per científics i enginyers de dades. és una llibreria de codi que pot ser usada per a crear dades i canonades, Els components bàsics d'un projecte d'aprenentatge automàtic.

McKinsey & Company és una empresa nord-americana de consultoria de gestió a nivell mundial. Realitza anàlisis qualitatives i quantitatives per avaluar les decisions de gestió en els sectors públic i privat. Els seus clients inclouen a el 80% de les corporacions més grans de el món.

Primera eina de codi obert

L'empresa mai abans havia publicat una de les eines desenvolupades internament sota una llicència de codi obert. De fet, Kedro va néixer com a programari propietari. No obstant això, quan la relació amb l'empresa acabava, els clients ja no tenien accés a el programa.

El nom Kedro deriva de la paraula grega per centre o nucli. Es va triar perquè aquesta eina de codi obert proporciona un codi crucial per produir projectes d'anàlisi avançats.

Kedro té dos avantatges principals:

  • Permet als equips col·laborar més fàcilment estructurant el codi analític de forma uniforme.
  • Permet que tots els components flueixin sense problemes en totes les etapes d'un projecte.

això inclou

  • Consolidació de fonts de dades,
  • Neteja de dades
  • Creació de característiques
  • Alimentació de les dades en models d'aprenentatge automàtic per a anàlisi explicatius o predictius.

Kedro també ajuda a lliurar codi a punt per ser utilitzat. Això ho fa realment útil per als científics de dades que no solen ser experts en creació de programari.

Per què és útil Kedro?

Eines de codi obert com Kedro permeten reduir en setmanes el temps necessari per transformar un prototip en codi de producció. Els analistes poden dedicar menys temps a el codi i més temps a resoldre els problemes dels seus clients.

Kedro ajuda als equips a crear canals de dades modulars, provats, reproduïbles en qualsevol entorn i versionats, el que permet als usuaris accedir a estats de dades anteriors. Aquest mateix codi pot passar des de l'ordinador portàtil d'un sol desenvolupador a un projecte de nivell empresarial que utilitzi la informàtica en núvol. També pot utilitzar-se amb totes les indústries, models i fonts de dades.

McKinsey ja va utilitzar Kedro en més de 50 projectes fins a la data. Segons un executiu, als clients els agrada especialment la visualització de les canonades. Ells veuen immediatament les diferents etapes de transformació, els tipus de models implicats i poden rastrejar els resultats fins a la font de dades sense processar.

McKinsey no és la primera empresa no directament relacionada amb la tecnologia que publica eines de codi obert. Ja ho havien fet Uber i Airbnb.

Característiques i instal·lació de Kendro

Kedro és una eina de desenvolupament de fluxos de treball per la creació de canals de dades robustos, escalables, desplegables, reproduïbles i versionats.

Quines són les principals característiques de Kedro?

1. Plantilla de projecte i estàndards de codificació

  • Una plantilla de projecte estàndard i fàcil d'usar
  • Configuració per credencials, registre, càrrega de dades i Jupyter Notebooks / Lab.
  • Desenvolupament basat en proves utilitzant pytest
  • Integració de Sphinx per produir un codi ben documentat

2. Extracció i versionat de dades

  • Separació de la capa de computació de la capa de maneig de dades, incloent suport per a diferents formats de dades i opcions d'emmagatzematge.
  • Versions per als seus conjunts de dades i models d'aprenentatge de màquines

3. Modularitat i abstracció de canonades

  • Suport per a funcions Python pures, nodes, per dividir grans trossos de codi en petites seccions independents.
  • Resolució automàtica de dependències entre nodes

4. Extensibilitat de les característiques

  • Un sistema de connectors que injecta comandaments en la interfície de línia d'ordres (CLI) de Kedro: Kedro-Airflow, cosa que facilita la creació de prototips del seu canal de dades en Kedro abans de desplegar-lo en Airflow, un programador de fluxos de treball . Kedro-Docker, una eina per a l'embalatge i enviament de projectes Kedro en contenidors
  • Kedro pot desplegar-se localment, a les instal·lacions i en el núvol (AWS, Azure i GCP) o en clústers (EMR, Azure HDinsight, GCP i Databricks).

Podem instal·lar Kedro en la nostra distribució Linux prerefida fent:

sudo apt install python3-pip
pip install kedro

Per actualitzar:
pip3 install kedro -U

Podem veure la documentació amb:
kedro docs
Trobem més informació a la pàgina de el projecte


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.