McKinsey presenta Kedro, il suo primo strumento open source

Kedro è il primo strumento open source della società di consulenza McKinsey

Pagina GitHub del progetto Kedro

Kedro è il primo strumento open source sviluppato da una divisione della società di consulenza McKinsey. È stato creato per essere utilizzato da data scientist e ingegneri. È un libreria di codici che può essere utilizzata per creare dati e pipe, gli elementi costitutivi di un progetto di machine learning.

McKinsey & Company è una società americana di consulenza gestionale globale. Esegue analisi qualitative e quantitative per valutare le decisioni di gestione nel settore pubblico e privato. I suoi clienti includono l'80% delle più grandi società del mondo.

Primo strumento open source

L'azienda non aveva mai rilasciato prima uno degli strumenti sviluppati internamente con una licenza open source. Kedro, infatti, è nato come software proprietario. Tuttavia, quando il rapporto con l'azienda è terminato, i clienti non hanno più avuto accesso al programma.

Il nome Kedro deriva da la parola greca per centro o nucleo. È stato scelto perché questo strumento open source fornisce codice cruciale per la produzione di progetti di analisi avanzata.

Kedro ha due vantaggi principali:

  • Consente ai team di collaborare più facilmente strutturando il codice analitico in modo uniforme.
  • Consente a tutti i componenti di scorrere senza problemi attraverso tutte le fasi di un progetto.

Ciò comprende

  • Consolidamento delle fonti di dati,
  • Pulizia dei dati
  • Creazione di funzionalità
  • Inserisci i dati in modelli di machine learning per analisi esplicative o predittive.

Anche Kedro aiuta a fornire codice pronto per l'uso. Questo lo rende davvero utile per i data scientist che di solito non sono esperti nella creazione di software.

Perché è utile Kedro?

Strumenti open source come Kedro consentono ridurre di settimane il tempo necessario per trasformare un prototipo in codice di produzione. Gli analisti possono dedicare meno tempo alla codifica e più tempo alla risoluzione dei problemi dei propri clienti.

Kedro aiuta i team a creare canali di dati modulari, testati, riproducibili in qualsiasi ambiente e con versione, consentendo agli utenti di accedere agli stati dei dati precedenti. Lo stesso codice può essere passato dal laptop di un singolo sviluppatore a un progetto di livello aziendale utilizzando il cloud computing. Può anche essere utilizzato con tutti i settori, modelli e origini dati.

Ad oggi, McKinsey ha già utilizzato Kedro in più di 50 progetti. Secondo un dirigente, ai clienti piace particolarmente la visualizzazione dei tubi. Vedono immediatamente le diverse fasi della trasformazione, i tipi di modelli coinvolti e possono risalire ai risultati all'origine dei dati grezzi.

McKinsey non è la prima azienda non direttamente collegata alla tecnologia che pubblica strumenti open source. Uber e Airbnb l'avevano già fatto.

Caratteristiche e installazione di Kendro

Kedro è uno strumento di sviluppo del flusso di lavoro per la creazione di canali dati robusti, scalabili, distribuibili, riproducibili e con versione.

Quali sono le principali caratteristiche di Kedro?

1. Modello di progetto e standard di codifica

  • Un modello di progetto standard di facile utilizzo
  • Impostazioni per credenziali, registrazione, caricamento dati e Jupyter Notebooks / Lab.
  • Sviluppo basato su test utilizzando pytest
  • Integrazione Sphinx per produrre codice ben documentato

2. Estrazione dei dati e controllo delle versioni

  • Separazione del livello di elaborazione dal livello di gestione dei dati, incluso il supporto per diversi formati di dati e opzioni di archiviazione.
  • Versioni per i tuoi set di dati e modelli di machine learning

3. Modularità e astrazione dei tubi

  • Supporto per funzioni Python pure, nodi, per dividere grandi blocchi di codice in piccole sezioni indipendenti.
  • Risoluzione automatica delle dipendenze tra i nodi

4. Estensibilità delle funzionalità

  • Un sistema di plugin che inietta comandi nell'interfaccia a riga di comando (CLI) di Kedro: Kedro-Airflow, che semplifica la prototipazione della pipeline di dati in Kedro prima di distribuirla ad Airflow, uno scheduler del flusso di lavoro. Kedro-Docker, uno strumento per l'imballaggio e la spedizione di progetti Kedro in container
  • Kedro può essere distribuito localmente, on premise e nel cloud (AWS, Azure e GCP) o in cluster (EMR, Azure HDinsight, GCP e Databricks).

Possiamo installare Kedro sulla nostra distribuzione Linux pre-referenziata facendo:

sudo apt install python3-pip
pip install kedro

Per attualizzare:
pip3 install kedro -U

Possiamo vedere la documentazione con:
kedro docs
Ulteriori informazioni possono essere trovate su la pagina del progetto


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile del trattamento: AB Internet Networks 2008 SL
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.