Ipinakikilala ng McKinsey ang Kedro, Ang Unang Open Source Tool na Ito

Ang Kedro ay ang unang bukas na tool ng mapagkukunan mula sa kompanya ng pagkonsulta na si McKinsey

Ang pahina ng proyekto ng Kedro GitHub

Ang Kedro ay ang unang bukas na tool ng mapagkukunan na binuo ng isang dibisyon ng kompanya ng pagkonsulta na si McKinsey. Ito ay nilikha upang magamit ng mga siyentipiko ng data at mga inhinyero. Ay isang library ng code na maaaring magamit upang lumikha ng data at mga tubo, ang mga bloke ng gusali ng isang proyekto sa pag-aaral ng makina.

Ang McKinsey & Company ay isang Amerikanong pandaigdigang kumpanya sa pagkonsulta sa pamamahala. Nagsasagawa ng mga pagsusuri sa husay at dami upang suriin ang mga desisyon sa pamamahala sa publiko at pribadong sektor. Ang kanyang mga kliyente ay nagsasama ng 80% ng pinakamalaking mga korporasyon sa buong mundo.

Unang tool na buksan ang mapagkukunan

Ang kumpanya ay hindi pa naglabas ng isa sa mga tool na binuo sa loob ng bahay sa ilalim ng isang bukas na lisensya ng mapagkukunan. Sa katunayan, ipinanganak si Kedro bilang pagmamay-ari na software. Gayunpaman, nang natapos ang ugnayan sa kumpanya, wala nang access ang mga customer sa programa.

Ang pangalang Kedro ay nagmula sa ang salitang Greek para sa gitna o core. Napili ito dahil ang tool na bukas na mapagkukunan na ito ay nagbibigay ng mahalagang code para sa paggawa ng mga advanced na proyekto sa pagtatasa.

Ang Kedro ay may dalawang pangunahing bentahe:

  • Pinapagana ang mga koponan na makipagtulungan nang mas madali sa pamamagitan ng pag-istraktura ng code ng analitikal sa isang pare-pareho na paraan
  • Pinapayagan nitong dumaloy ng walang putol ang lahat ng mga bahagi ng isang proyekto.

Kasama dito

  • Pagsasama-sama ng mga mapagkukunan ng data,
  • Paglilinis ng data
  • Tampok na Paglikha
  • Pakainin ang data sa mga modelo ng pag-aaral ng makina para sa paliwanag o hula ng pagtatasa.

Si Kedro din tumutulong sa paghahatid ng handa nang gamitin na code. Ginagawa nitong talagang kapaki-pakinabang para sa mga siyentipiko ng data na hindi karaniwang eksperto sa paglikha ng software.

Bakit kapaki-pakinabang ang Kedro?

Pinapayagan ng mga open source tool tulad ng Kedro bawasan ang oras na kinakailangan upang mabago ang isang prototype sa produksyon code ng mga linggo. Ang mga analista ay maaaring gumastos ng mas kaunting oras sa pag-coding at mas maraming oras sa pagto-troubleshoot sa kanilang mga customer.

Tinutulungan ng Kedro ang mga koponan na lumikha ng mga modular na channel ng data, nasubukan, maaaring kopyahin sa anumang kapaligiran at na-bersyon, na pinapayagan ang mga gumagamit na mag-access ng nakaraang mga estado ng data. Ang parehong code na iyon ay maaaring mapunta mula sa laptop ng isang nag-develop hanggang sa isang proyekto na antas ng enterprise na gumagamit ng cloud computing. Maaari din itong magamit sa lahat ng mga industriya, modelo at mapagkukunan ng data.

Gumamit na si McKinsey ng Kedro sa higit sa 50 mga proyekto hanggang ngayon. Ayon sa isang ehekutibo, lalo na gusto ng mga customer ang pagpapakita ng mga tubo. Agad nilang nakita ang iba't ibang mga yugto ng pagbabago, ang mga uri ng mga modelo na kasangkot, at maaaring masubaybayan ang mga resulta pabalik sa hilaw na mapagkukunan ng data.

McKinsey hindi ang unang kumpanya na hindi direktang nauugnay sa teknolohiya na naglathala ng mga tool ng bukas na mapagkukunan. Nagawa na ito ng Uber at Airbnb.

Mga Tampok ng Kendro at Pag-install

Ang Kedro ay isang tool sa pagbuo ng daloy ng trabaho para sa ang paglikha ng mga matatag, nasusukat, ma-deploy, maaaring kopyahin at nai-bersyon na mga channel ng data.

Ano ang mga pangunahing katangian ng Kedro?

1. Mga pamantayan sa template ng proyekto at pag-coding

  • Isang madaling gamiting karaniwang template ng proyekto
  • Mga setting para sa mga kredensyal, pagpaparehistro, pag-upload ng data at Jupyter Notebooks / Lab.
  • Pag-unlad na hinimok ng pagsubok gamit ang pytest
  • Pagsasama ng Sphinx upang makabuo ng mahusay na dokumentadong code

2. Pag-bunot ng data at pag-bersyon

  • Ang paghihiwalay ng layer ng computing mula sa layer ng pamamahala ng data, kasama ang suporta para sa iba't ibang mga format ng data at mga pagpipilian sa pag-iimbak.
  • Mga Bersyon para sa iyong mga hanay ng data at mga modelo ng pag-aaral ng makina

3. Modularity at abstraction ng mga tubo

  • Suporta para sa purong pag-andar ng Python, mga node, upang hatiin ang malalaking mga piraso ng code sa maliit na mga independiyenteng seksyon.
  • Awtomatikong paglutas ng mga dependency sa pagitan ng mga node

4. Extensibility ng mga tampok

  • Isang sistema ng plugin na tumuturo sa mga utos sa interface ng command line (CLI) ng Kedro: Kedro-Airflow, na ginagawang madali upang i-prototype ang iyong pipeline ng data sa Kedro bago i-deploy ito sa Airflow, isang tagapag-iskedyul ng daloy ng trabaho. Kedro-Docker, isang tool para sa pag-iimpake at pagpapadala ng mga proyekto ng Kedro sa mga lalagyan
  • Ang Kedro ay maaaring i-deploy nang lokal, sa mga nasasakupang lugar at sa cloud (AWS, Azure at GCP) o sa mga kumpol (EMR, Azure HDinsight, GCP at Databricks).

Maaari naming mai-install ang Kedro sa aming paunang sanggunian na pamamahagi ng Linux sa pamamagitan ng paggawa:

sudo apt install python3-pip
pip install kedro

Upang maisakatuparan:
pip3 install kedro -U

Maaari naming makita ang dokumentasyon sa:
kedro docs
Ang karagdagang impormasyon ay matatagpuan sa ang pahina ng proyekto


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: AB Internet Networks 2008 SL
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.