McKinsey predstavuje Kedro, prvý nástroj s otvoreným zdrojom

Kedro je prvý nástroj s otvoreným zdrojom od poradenskej spoločnosti McKinsey

Stránka projektu Kedro na GitHub

Kedro je prvý nástroj s otvoreným zdrojovým kódom vyvinutý divíziou konzultačnej spoločnosti McKinsey. Bol vytvorený na použitie dátovými vedcami a inžiniermi. Je a knižnica kódov, ktorá sa dá použiť na vytvorenie údajov a potrubí, stavebné kamene projektu strojového učenia.

McKinsey & Company je americká globálna manažérska poradenská spoločnosť. Vykonáva kvalitatívne a kvantitatívne analýzy na vyhodnotenie rozhodnutí manažmentu vo verejnom a súkromnom sektore. Medzi jeho klientov patrí 80% najväčších korporácií na svete.

Prvý nástroj s otvoreným zdrojom

Spoločnosť nikdy predtým neuvoľnila jeden z nástrojov vyvinutých interne na základe licencie open source. Kedro sa v skutočnosti narodil ako proprietárny softvér. Keď sa však vzťah so spoločnosťou skončil, zákazníci už nemali prístup k programu.

Názov Kedro je odvodený od grécke slovo pre stred alebo jadro. Bol vybraný preto, lebo tento nástroj s otvoreným zdrojom poskytuje rozhodujúci kód na vytváranie projektov pokročilých analýz.

Kedro má dve hlavné výhody:

  • Umožňuje tímom ľahšiu spoluprácu štruktúrovanou jednotnou štruktúrou analytického kódu.
  • Umožňuje všetkým komponentom bezproblémový tok cez všetky fázy projektu.

To zahŕňa

  • Konsolidácia zdrojov údajov,
  • Čistenie údajov
  • Tvorba funkcií
  • Vložte údaje do modelov strojového učenia na účely vysvetľujúcej alebo prediktívnej analýzy.

Kedro tiez pomáha doručovať kód pripravený na použitie. Vďaka tomu je skutočne užitočný pre dátových vedcov, ktorí zvyčajne nie sú odborníkmi na tvorbu softvéru.

Prečo je Kedro užitočný?

Nástroje otvoreného zdroja, ako je Kedro, umožňujú skrátiť čas potrebný na transformáciu prototypu do produkčného kódu o týždne. Analytici môžu tráviť menej času programovaním a viac času riešením problémov so svojimi zákazníkmi.

Kedro pomáha tímom vytvárať modulárne dátové kanály, testované, reprodukovateľné v akomkoľvek prostredí a s verziou, ktoré umožňujú používateľom prístup k predchádzajúcim stavom údajov. Ten istý kód je možné preniesť z prenosného počítača jedného vývojára na projekt podnikovej úrovne pomocou cloudových výpočtov. Môže sa tiež použiť so všetkými priemyselnými odvetviami, modelmi a zdrojmi údajov.

McKinsey doteraz použila Kedro na viac ako 50 projektoch. Podľa jedného manažéra sa zákazníkom páči najmä vizualizácia potrubí. Okamžite vidia rôzne fázy transformácie, typy použitých modelov a môžu výsledky sledovať späť k zdroju nespracovaných údajov.

McKinsey nie je to prvá spoločnosť, ktorá priamo nesúvisí s technológiou ktorá vydáva nástroje s otvoreným zdrojovým kódom. Uber a Airbnb to už dokázali.

Funkcie a inštalácia spoločnosti Kendro

Kedro je nástroj na vývoj pracovného toku pre vytváranie robustných, škálovateľných, nasaditeľných, reprodukovateľných a verzovaných dátových kanálov.

Aké sú hlavné charakteristiky produktu Kedro?

1. Šablóna projektu a štandardy kódovania

  • Ľahko použiteľná štandardná šablóna projektu
  • Nastavenia pre prihlasovacie údaje, registráciu, nahrávanie údajov a notebooky / laboratórium Jupyter.
  • Vývoj riadený testami pomocou pytest
  • Integrácia sfingy na vytvorenie dobre zdokumentovaného kódu

2. Extrakcia dát a vytváranie verzií

  • Oddelenie výpočtovej vrstvy od vrstvy správy údajov vrátane podpory rôznych formátov údajov a možností ukladania.
  • Verzie pre vaše množiny údajov a modely strojového učenia

3. Modularita a odoberanie potrubí

  • Podpora čistých funkcií Pythonu, uzlov, na rozdelenie veľkých častí kódu na malé nezávislé sekcie.
  • Automatické rozlíšenie závislostí medzi uzlami

4. Rozširovateľnosť funkcií

  • Systém doplnkov, ktorý injektuje príkazy do rozhrania príkazového riadku (CLI) spoločnosti Kedro: Kedro-Airflow, vďaka čomu je ľahké prototypovať váš dátový kanál v spoločnosti Kedro pred nasadením do Airflow, plánovača pracovných postupov. Kedro-Docker, nástroj na balenie a prepravu projektov Kedro v kontajneroch
  • Kedro je možné nasadiť lokálne, lokálne a v cloude (AWS, Azure a GCP) alebo v klastroch (EMR, Azure HDinsight, GCP a Databricks).

Môžeme nainštalovať Kedro na našu vopred uvedenú distribúciu Linuxu vykonaním:

sudo apt install python3-pip
pip install kedro

Aktualizácia:
pip3 install kedro -U

Môžeme vidieť dokumentáciu s:
kedro docs
Viac informácií nájdete na stránke projektu


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.