McKinsey esittelee Kedron, sen ensimmäisen avoimen lähdekoodin työkalun

Kedro on ensimmäinen konsulttiyrityksen McKinseyn avoimen lähdekoodin työkalu

Kedro-projektin GitHub-sivu

Kedro on ensimmäinen avoimen lähdekoodin työkalu, jonka konsulttiyritys McKinsey on kehittänyt. Se luotiin datatieteilijöiden ja insinöörien käyttöön. On koodikirjasto, jota voidaan käyttää datan ja putkien luomiseen, koneoppimisprojektin rakennuspalikat.

McKinsey & Company on amerikkalainen globaali liikkeenjohdon konsulttiyritys. Suorittaa laadullisia ja määrällisiä analyyseja arvioidakseen julkisen ja yksityisen sektorin johtamispäätöksiä. Hänen asiakkaisiinsa kuuluu 80% maailman suurimmista yrityksistä.

Ensimmäinen avoimen lähdekoodin työkalu

Yhtiö ei ollut koskaan aiemmin julkaissut yhtä sisäisesti kehitetyistä työkaluista avoimen lähdekoodin lisenssillä. Itse asiassa Kedro syntyi omana ohjelmistona. Kun suhde yritykseen päättyi, asiakkailla ei kuitenkaan ollut enää pääsyä ohjelmaan.

Nimi Kedro on peräisin kreikan sana keskusta tai ydin. Se valittiin, koska tämä avoimen lähdekoodin työkalu tarjoaa tärkeän koodin edistyneiden analyysiprojektien tuottamiseen.

Kedrolla on kaksi pääetua:

  • Sen avulla tiimit voivat tehdä yhteistyötä helpommin jäsentämällä analyyttisen koodin yhtenäisellä tavalla.
  • Sen avulla kaikki komponentit voivat kulkea saumattomasti projektin kaikissa vaiheissa.

Tähän sisältyy

  • Tietolähteiden yhdistäminen
  • Tietojen puhdistus
  • Ominaisuuden luominen
  • Syötä tiedot koneoppimismalleihin selittävää tai ennakoivaa analyysiä varten.

Myös Kedro auttaa toimittamaan käyttövalmiita koodeja. Tämä tekee siitä todella hyödyllisen datatieteilijöille, jotka eivät yleensä ole ohjelmistojen luomisen asiantuntijoita.

Miksi Kedro on hyödyllinen?

Avoimen lähdekoodin työkalut, kuten Kedro, sallivat vähentää prototyypin muuntamiseen tuotantokoodiksi viikkoa viikoilla. Analyytikot voivat käyttää vähemmän aikaa koodaamiseen ja enemmän aikaa asiakkaidensa vianetsintään.

Kedro auttaa tiimejä luomaan modulaarisia datakanavia, testattuja, toistettavia missä tahansa ympäristössä ja versioituna, jolloin käyttäjät voivat käyttää aiempia tietotiloja. Sama koodi voi siirtyä yhden kehittäjän kannettavasta yritystason projektiin pilvipalvelua käyttämällä. Sitä voidaan käyttää myös kaikilla toimialoilla, malleissa ja tietolähteissä.

McKinsey on jo käyttänyt Kedroa yli 50 projektissa tähän mennessä. Erään johtajan mukaan asiakkaat pitävät erityisesti putkien visualisoinneista. He näkevät välittömästi muutoksen eri vaiheet, mukana olevat mallityypit ja voivat jäljittää tulokset takaisin raakatietolähteeseen.

McKinsey ei ensimmäinen yritys, joka ei ole suoraan yhteydessä tekniikkaan joka julkaisee avoimen lähdekoodin työkaluja. Uber ja Airbnb olivat jo tehneet sen.

Kendron ominaisuudet ja asennus

Kedro on työnkulun kehittämistyökalu vankkojen, skaalautuvien, käyttöönotettavien, toistettavien ja versioitujen tietokanavien luominen.

Mitkä ovat Kedron pääominaisuudet?

1. Projektimalli ja koodausstandardit

  • Helppokäyttöinen, vakio projektimalli
  • Asetukset tunnistetiedoille, rekisteröinnille, tietojen lataamiselle ja Jupyter Notebooks / Lab -laitteelle.
  • Testiohjattu kehitys käyttäen pytest-testiä
  • Sphinx-integraatio tuottaa hyvin dokumentoitua koodia

2. Tietojen poiminta ja versiointi

  • Laskentakerroksen erottaminen tiedonhallintakerroksesta, mukaan lukien tuki erilaisille tietomuotoille ja tallennusvaihtoehdoille.
  • Versiot tietojoukoille ja koneoppimismalleille

3. Putkien modulaarisuus ja vedenotto

  • Puhtaiden Python-toimintojen, solmujen tuki suurten koodipalojen jakamiseksi pieniksi itsenäisiksi osioiksi.
  • Solmujen välisten riippuvuuksien automaattinen ratkaisu

4. Ominaisuuksien laajentaminen

  • Laajennusjärjestelmä, joka ruiskuttaa komentoja Kedron komentoriviliittymään (CLI): Kedro-Airflow, mikä helpottaa dataputken prototyyppien valmistamista Kedrossa ennen sen käyttöönottoa Airflow-työnkulun ajoittajaan. Kedro-Docker, työkalu Kedro-projektien pakkaamiseen ja lähettämiseen kontteihin
  • Kedro voidaan ottaa käyttöön paikallisesti, toimitiloissa ja pilvessä (AWS, Azure ja GCP) tai klustereissa (EMR, Azure HDinsight, GCP ja Databricks).

Voimme asentaa Kedron ennalta viitattuun Linux-jakeluun seuraavasti:

sudo apt install python3-pip
pip install kedro

Todellistaa:
pip3 install kedro -U

Voimme nähdä asiakirjat:
kedro docs
Lisätietoja löytyy osoitteesta projektisivulla


Artikkelin sisältö noudattaa periaatteita toimituksellinen etiikka. Ilmoita virheestä napsauttamalla täällä.

Ole ensimmäinen kommentti

Jätä kommentti

Sähköpostiosoitettasi ei julkaista.

*

*

  1. Vastaa tiedoista: AB Internet Networks 2008 SL
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.