McKinsey introduceert Kedro, de eerste open source-tool

Kedro is de eerste open source tool van adviesbureau McKinsey

Kedro-project GitHub-pagina

Kedro is de eerste open source-tool die is ontwikkeld door een divisie van adviesbureau McKinsey. Het is gemaakt om te worden gebruikt door datawetenschappers en ingenieurs. Is een codebibliotheek die kan worden gebruikt om gegevens en leidingen te maken, de bouwstenen van een machine learning-project.

McKinsey & Company is een Amerikaans internationaal managementadviesbureau. Voert kwalitatieve en kwantitatieve analyses uit om managementbeslissingen in de publieke en private sector te evalueren. Tot zijn cliënten behoren 80% van 's werelds grootste bedrijven.

Eerste open source tool

Het bedrijf had nog nooit een van de in eigen huis ontwikkelde tools uitgebracht onder een open source-licentie. In feite werd Kedro geboren als eigen software. Toen de relatie met het bedrijf eindigde, hadden klanten echter geen toegang meer tot het programma.

De naam Kedro is afgeleid van het Griekse woord voor centrum of kern​ Er is voor gekozen omdat deze open source-tool cruciale code biedt voor het produceren van geavanceerde analyseprojecten.

Kedro heeft twee belangrijke voordelen:

  • Het stelt teams in staat om gemakkelijker samen te werken door analytische code op een uniforme manier te structureren.
  • Het laat alle componenten naadloos door alle fasen van een project stromen.

Dit omvat

  • Consolidatie van databronnen,
  • Data-opschoning
  • Feature Creation
  • Voer de gegevens in machine learning-modellen voor verklarende of voorspellende analyse.

Kedro ook helpt bij het leveren van kant-en-klare code​ Dit maakt het erg handig voor datawetenschappers die meestal geen experts zijn in het maken van software.

Waarom is Kedro nuttig?

Open source-tools zoals Kedro staan ​​dit toe verkort de tijd die nodig is om een ​​prototype in productiecode om te zetten met weken. Analisten kunnen minder tijd besteden aan coderen en meer tijd besteden aan het oplossen van problemen met hun klanten.

Kedro helpt teams bij het creëren van modulaire datakanalen, getest, reproduceerbaar in elke omgeving en voorzien van versiebeheer, waardoor gebruikers toegang hebben tot eerdere datastatussen. Diezelfde code kan van de laptop van een enkele ontwikkelaar naar een enterprise-grade project gaan met behulp van cloud computing. Het kan ook worden gebruikt met alle branches, modellen en databronnen.

McKinsey heeft Kedro tot nu toe al op meer dan 50 projecten gebruikt. Volgens een leidinggevende houden klanten vooral van de visualisatie van de leidingen. Ze zien onmiddellijk de verschillende stadia van transformatie, de typen modellen die erbij betrokken zijn en kunnen de resultaten herleiden tot de onbewerkte gegevensbron.

McKinsey niet het eerste bedrijf dat niet direct gerelateerd is aan technologie die open source tools publiceert. Uber en Airbnb hadden het al gedaan.

Kendro-functies en installatie

Kedro is een tool voor het ontwikkelen van workflows voor het creëren van robuuste, schaalbare, inzetbare, reproduceerbare en geversioneerde datakanalen.

Wat zijn de belangrijkste kenmerken van Kedro?

1. Projecttemplate en coderingsnormen

  • Een gebruiksvriendelijke standaard projectsjabloon
  • Instellingen voor inloggegevens, registratie, gegevensupload en Jupyter Notebooks / Lab.
  • Testgestuurd ontwikkelen met pytest
  • Sphinx-integratie om goed gedocumenteerde code te produceren

2. Gegevensextractie en versiebeheer

  • Scheiding van de computerlaag van de gegevensbeheerlaag, inclusief ondersteuning voor verschillende gegevensformaten en opslagopties.
  • Versies voor uw datasets en machine learning-modellen

3. Modulariteit en abstractie van leidingen

  • Ondersteuning voor pure Python-functies, knooppunten, om grote brokken code in kleine onafhankelijke secties te verdelen.
  • Automatische oplossing van afhankelijkheden tussen knooppunten

4. Uitbreidbaarheid van functies

  • Een plug-insysteem dat opdrachten injecteert in Kedro's opdrachtregelinterface (CLI): Kedro-Airflow, waardoor het gemakkelijk wordt om een ​​prototype te maken van uw datapijplijn in Kedro voordat u deze implementeert in Airflow, een workflowplanner. Kedro-Docker, een tool voor het verpakken en verzenden van Kedro-projecten in containers
  • Kedro kan lokaal, op locatie en in de cloud (AWS, Azure en GCP) of in clusters (EMR, Azure HDinsight, GCP en Databricks) worden geïmplementeerd.

We kunnen Kedro installeren op onze pre-verwezen Linux-distributie door het volgende te doen:

sudo apt install python3-pip
pip install kedro

Actualiseren:
pip3 install kedro -U

We kunnen de documentatie zien met:
kedro docs
Meer informatie is te vinden op de projectpagina


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: AB Internet Networks 2008 SL
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.