McKinsey představuje Kedro, svůj první nástroj s otevřeným zdrojovým kódem

Kedro je první open source nástroj od poradenské firmy McKinsey

Stránka projektu Kedro na GitHubu

Kedro je první nástroj s otevřeným zdrojovým kódem vyvinutý divizí poradenské firmy McKinsey. Byl vytvořen pro použití datovými vědci a inženýry. Je knihovna kódů, kterou lze použít k vytváření dat a kanálů, stavební kameny projektu strojového učení.

McKinsey & Company je americká globální poradenská společnost v oblasti řízení. Provádí kvalitativní a kvantitativní analýzy za účelem vyhodnocení rozhodnutí managementu ve veřejném a soukromém sektoru. Mezi jeho klienty patří 80% největších světových společností.

První open source nástroj

Společnost nikdy předtím neuvedla jeden z nástrojů vyvinutých interně na základě licence open source. Kedro se ve skutečnosti narodil jako proprietární software. Když však vztah se společností skončil, zákazníci již k programu neměli přístup.

Jméno Kedro je odvozeno od řecké slovo pro střed nebo jádro. Bylo vybráno proto, že tento nástroj s otevřeným zdrojovým kódem poskytuje zásadní kód pro vytváření projektů pokročilé analýzy.

Kedro má dvě hlavní výhody:

  • Umožňuje týmům snadnější spolupráci strukturováním analytického kódu jednotným způsobem.
  • Umožňuje všem komponentám plynule procházet všemi fázemi projektu.

To zahrnuje

  • Konsolidace zdrojů dat,
  • Očištění dat
  • Vytváření funkcí
  • Vložte data do modelů strojového učení pro vysvětlující nebo prediktivní analýzu.

Kedro taky pomáhá doručovat kód připravený k použití. Díky tomu je opravdu užitečný pro datové vědce, kteří obvykle nejsou odborníky na tvorbu softwaru.

Proč je Kedro užitečný?

Nástroje open source, jako je Kedro, umožňují zkrátit čas potřebný na přeměnu prototypu na produkční kód o týdny. Analytici mohou trávit méně času kódováním a více času odstraňováním problémů se svými zákazníky.

Kedro pomáhá týmům vytvářet modulární datové kanály, testované, reprodukovatelné v jakémkoli prostředí a verze, což umožňuje uživatelům přístup k předchozím datovým stavům. Stejný kód může přejít z notebooku jednoho vývojáře na projekt podnikové úrovně pomocí cloud computingu. Lze jej také použít ve všech průmyslových odvětvích, modelech a zdrojích dat.

Společnost McKinsey dosud použila Kedro na více než 50 projektech. Podle jednoho výkonného ředitele se zákazníkům líbí zejména vizualizace potrubí. Okamžitě vidí různé fáze transformace, typy zapojených modelů a mohou výsledky sledovat zpět ke zdroji nezpracovaných dat.

McKinsey není první společností, která přímo nesouvisí s technologií který vydává nástroje s otevřeným zdrojovým kódem. Uber a Airbnb to už udělali.

Funkce a instalace Kendro

Kedro je nástroj pro vývoj pracovního toku pro vytvoření robustních, škálovatelných, nasaditelných, reprodukovatelných a verzovaných datových kanálů.

Jaké jsou hlavní charakteristiky Kedra?

1. Šablony projektu a standardy kódování

  • Snadno použitelná standardní šablona projektu
  • Nastavení pověření, registrace, nahrávání dat a notebooků / laboratoře Jupyter.
  • Testovaný vývoj pomocí pytest
  • Integrace sfingy k vytvoření dobře zdokumentovaného kódu

2. Extrakce dat a verzování

  • Oddělení výpočetní vrstvy od vrstvy pro správu dat, včetně podpory různých formátů dat a možností ukládání.
  • Verze pro vaše datové sady a modely strojového učení

3. Modularita a odběr potrubí

  • Podpora čistých funkcí Pythonu, uzlů, pro rozdělení velkých částí kódu na malé nezávislé sekce.
  • Automatické rozlišení závislostí mezi uzly

4. Rozšiřitelnost funkcí

  • Systém zásuvných modulů, který vkládá příkazy do rozhraní příkazového řádku (CLI) společnosti Kedro: Kedro-Airflow, což usnadňuje prototypování vašeho datového kanálu v Kedro před jeho nasazením do Airflow, plánovače pracovních postupů. Kedro-Docker, nástroj pro balení a přepravu projektů Kedro v kontejnerech
  • Kedro lze nasadit lokálně, v prostorách a v cloudu (AWS, Azure a GCP) nebo v klastrech (EMR, Azure HDinsight, GCP a Databricks).

Můžeme nainstalovat Kedro na naši předem odkazovanou distribuci Linuxu provedením:

sudo apt install python3-pip
pip install kedro

Aktualizovat:
pip3 install kedro -U

Můžeme vidět dokumentaci s:
kedro docs
Více informací naleznete na na stránce projektu


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.