McKinsey iepazīstina ar Kedro, tā pirmo atvērtā koda rīku

Kedro ir pirmais konsultāciju firmas McKinsey atvērtā pirmkoda rīks

Kedro projekta GitHub lapa

Kedro ir pirmais atvērtā koda rīks, ko izstrādājusi konsultāciju firmas McKinsey nodaļa. Tas tika izveidots, lai to izmantotu datu zinātnieki un inženieri. Ir kodu bibliotēka, kuru var izmantot, lai izveidotu datus un caurules, mašīnmācīšanās projekta pamatelementi.

McKinsey & Company ir amerikāņu globāla vadības konsultāciju kompānija. Veic kvalitatīvu un kvantitatīvu analīzi, lai novērtētu vadības lēmumus publiskajā un privātajā sektorā. Viņa klientu vidū ir 80% pasaules lielāko korporāciju.

Pirmais atvērtā koda rīks

Uzņēmums nekad iepriekš nebija izlaidis vienu no iekšpusē izstrādātajiem rīkiem ar atvērtā pirmkoda licenci. Faktiski Kedro ir dzimis kā patentēta programmatūra. Tomēr, kad attiecības ar uzņēmumu beidzās, klientiem vairs nebija piekļuves programmai.

Nosaukums Kedro cēlies no grieķu vārds apzīmē centru vai kodolu. Tas tika izvēlēts tāpēc, ka šis atvērtā pirmkoda rīks nodrošina izšķirošu kodu uzlabotu analīzes projektu veidošanai.

Kedro ir divas galvenās priekšrocības:

  • Tas ļauj komandām vieglāk sadarboties, vienotā veidā strukturējot analītisko kodu.
  • Tas ļauj visām sastāvdaļām vienmērīgi plūst visos projekta posmos.

Tas ietver

  • Datu avotu konsolidācija,
  • Datu tīrīšana
  • Funkciju izveide
  • Ievietojiet datus mašīnmācīšanās modeļos skaidrojošai vai prognozējošai analīzei.

Arī Kedro palīdz piegādāt lietošanai gatavu kodu. Tas padara to patiešām noderīgu datu zinātniekiem, kuri parasti nav programmatūras veidošanas eksperti.

Kāpēc Kedro ir noderīgs?

Atļauj atvērtā koda rīki, piemēram, Kedro par nedēļām samazināt prototipa pārveidošanas par ražošanas kodu laiku. Analītiķi var tērēt mazāk laika kodēšanai un vairāk laika problēmu novēršanai.

Kedro palīdz komandām izveidot modulārus datu kanālus, pārbaudītus, reproducējamus jebkurā vidē un versijas, ļaujot lietotājiem piekļūt iepriekšējiem datu stāvokļiem. Tas pats kods var pāriet no viena izstrādātāja klēpjdatora uz uzņēmuma līmeņa projektu, izmantojot mākoņdatošanu. To var izmantot arī visās nozarēs, modeļos un datu avotos.

Makkinsija līdz šim jau ir izmantojusi Kedro vairāk nekā 50 projektos. Pēc viena izpilddirektora teiktā, klientiem īpaši patīk cauruļu vizualizācija. Viņi uzreiz redz dažādos transformācijas posmus, iesaistīto modeļu veidus un var izsekot rezultātus līdz neapstrādātu datu avotam.

McKinsey nav pirmais uzņēmums, kas nav tieši saistīts ar tehnoloģijām kas publicē atvērtā koda rīkus. Uber un Airbnb to jau bija izdarījuši.

Kendro funkcijas un uzstādīšana

Kedro ir darbplūsmas izstrādes rīks stabilu, mērogojamu, izvietojamu, reproducējamu un versijveidīgu datu kanālu izveide.

Kādas ir Kedro galvenās īpašības?

1. Projekta veidne un kodēšanas standarti

  • Viegli lietojama standarta projekta veidne
  • Akreditācijas datu, reģistrācijas, datu augšupielādes un Jupyter piezīmjdatoru / laboratorijas iestatījumi.
  • Testa virzīta izstrāde, izmantojot pytest
  • Sfinksa integrācija, lai izveidotu labi dokumentētu kodu

2. Datu iegūšana un versiju veidošana

  • Skaitļošanas slāņa nodalīšana no datu pārvaldības slāņa, ieskaitot dažādu datu formātu un uzglabāšanas iespēju atbalstu.
  • Datu kopu un mašīnmācīšanās modeļu versijas

3. Cauruļu modularitāte un abstrakcija

  • Atbalsts tīrām Python funkcijām, mezgliem, lai sadalītu lielus koda gabalus mazās neatkarīgās sadaļās.
  • Automātiska atkarību starp mezgliem izšķiršana

4. Funkciju paplašināmība

  • Spraudņu sistēma, kas injicē komandas Kedro komandrindas saskarnē (CLI): Kedro-Airflow, padarot to vienkāršu datu cauruļvada prototipēšanu Kedro, pirms to ievietojat darbplūsmas plānotājā Airflow. Kedro-Docker, rīks Kedro projektu iesaiņošanai un nosūtīšanai konteineros
  • Kedro var izvietot lokāli, telpās un mākonī (AWS, Azure un GCP) vai kopās (EMR, Azure HDinsight, GCP un Databricks).

Mēs varam instalēt Kedro mūsu iepriekš norādītajā Linux izplatīšanā, rīkojoties šādi:

sudo apt install python3-pip
pip install kedro

Lai aktualizētu:
pip3 install kedro -U

Mēs varam redzēt dokumentāciju ar:
kedro docs
Plašāku informāciju var atrast vietnē projekta lapu


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: AB Internet Networks 2008 SL
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.