McKinsey introduce Kedro, primul său instrument open source

Kedro este primul instrument open source de la firma de consultanță McKinsey

Pagina GitHub a proiectului Kedro

Kedro este primul instrument open source dezvoltat de o divizie a firmei de consultanță McKinsey. A fost creat pentru a fi folosit de oamenii de știință și ingineri de date. Este o bibliotecă de coduri care poate fi utilizată pentru a crea date și conducte, elementele de bază ale unui proiect de învățare automată.

McKinsey & Company este o companie americană de consultanță în management global. Efectuează analize calitative și cantitative pentru a evalua deciziile de management din sectoarele public și privat. Printre clienții săi se numără 80% din cele mai mari corporații din lume.

Primul instrument open source

Compania nu lansase niciodată unul dintre instrumentele dezvoltate intern sub licență open source. De fapt, Kedro s-a născut ca software proprietar. Cu toate acestea, când relația cu compania s-a încheiat, clienții nu mai aveau acces la program.

Denumirea Kedro derivă din cuvântul grecesc pentru centru sau miez. A fost ales deoarece acest instrument open source oferă cod crucial pentru producerea de proiecte de analiză avansată.

Kedro are două avantaje principale:

  • Permite echipelor să colaboreze mai ușor structurând codul analitic într-un mod uniform.
  • Permite tuturor componentelor să curgă fără probleme prin toate etapele unui proiect.

Aceasta include

  • Consolidarea surselor de date,
  • Curățarea datelor
  • Crearea caracteristicilor
  • Introduceți datele în modele de învățare automată pentru analize explicative sau predictive.

Și Kedro ajută la livrarea codului gata de utilizare. Acest lucru îl face cu adevărat util pentru oamenii de știință care nu sunt de obicei experți în crearea de software.

De ce este util Kedro?

Instrumentele open source precum Kedro permit reduceți timpul necesar pentru a transforma un prototip în cod de producție cu săptămâni. Analiștii pot petrece mai puțin timp codând și mai mult timp depanând clienții.

Kedro ajută echipele să creeze canale de date modulare, testate, reproductibile în orice mediu și versionate, permițând utilizatorilor să acceseze stările de date anterioare. Același cod poate merge de la laptopul unui singur dezvoltator la un proiect de tip enterprise folosind cloud computing. Poate fi, de asemenea, utilizat cu toate industriile, modelele și sursele de date.

McKinsey a folosit deja Kedro în peste 50 de proiecte până în prezent. Potrivit unui director, clienților le place în special vizualizarea conductelor. Ei văd imediat diferitele etape ale transformării, tipurile de modele implicate și pot urmări rezultatele înapoi la sursa de date brută.

McKinsey nu prima companie care nu are legătură directă cu tehnologia care publică instrumente open source. Uber și Airbnb o făcuseră deja.

Caracteristici și instalare Kendro

Kedro este un instrument de dezvoltare a fluxului de lucru pentru crearea de canale de date robuste, scalabile, implementabile, reproductibile și versionate.

Care sunt principalele caracteristici ale Kedro?

1. Șablon de proiect și standarde de codare

  • Un șablon de proiect standard ușor de utilizat
  • Setări pentru acreditări, înregistrare, încărcare date și Jupyter Notebooks / Lab.
  • Dezvoltare bazată pe test folosind pytest
  • Integrarea Sfinxului pentru a produce cod bine documentat

2. Extragerea și versionarea datelor

  • Separarea stratului de calcul de stratul de gestionare a datelor, inclusiv suport pentru diferite formate de date și opțiuni de stocare.
  • Versiuni pentru seturile de date și modelele de învățare automată

3. Modularitatea și abstractizarea conductelor

  • Suport pentru funcții Python pure, noduri, pentru a împărți bucăți mari de cod în secțiuni independente mici.
  • Rezoluția automată a dependențelor între noduri

4. Extensibilitatea caracteristicilor

  • Un sistem de plugin care injectează comenzi în interfața liniei de comandă (CLI) a Kedro: Kedro-Airflow, ceea ce face mai ușoară prototiparea conductei de date în Kedro înainte de a o implementa în Airflow, un programator de flux de lucru. Kedro-Docker, un instrument pentru ambalarea și expedierea proiectelor Kedro în containere
  • Kedro poate fi implementat local, local și în cloud (AWS, Azure și GCP) sau în clustere (EMR, Azure HDinsight, GCP și Databricks).

Putem instala Kedro pe distribuția Linux pre-referențiată făcând:

sudo apt install python3-pip
pip install kedro

Pentru a actualiza:
pip3 install kedro -U

Putem vedea documentația cu:
kedro docs
Mai multe informații pot fi găsite la pagina proiectului


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: AB Internet Networks 2008 SL
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.