Lo strumento open source di McKinsey può ora essere installato

Kedro è il primo strumento open source della società di consulenza McKinsey

Pagina GitHub del progetto Kedro

Kedro è il primo strumento open source sviluppato da una divisione della società di consulenza McKinsey. È stato creato per essere utilizzato da data scientist e ingegneri. È un libreria di codici che può essere utilizzata per creare dati e pipe, gli elementi costitutivi di un progetto di machine learning.

McKinsey & Company è una società americana di consulenza gestionale globale. Esegue analisi qualitative e quantitative per valutare le decisioni di gestione nel settore pubblico e privato. I suoi clienti includono l'80% delle più grandi società del mondo.

Primo strumento open source

L'azienda non aveva mai rilasciato prima uno degli strumenti sviluppati internamente con una licenza open source. Kedro, infatti, è nato come software proprietario. Tuttavia, quando il rapporto con l'azienda è terminato, i clienti non hanno più avuto accesso al programma.

Il nome Kedro deriva da la parola greca per centro o nucleo. È stato scelto perché questo strumento open source fornisce codice cruciale per la produzione di progetti di analisi avanzata.

Kedro ha due vantaggi principali:

Consente ai team di collaborare più facilmente strutturando il codice analitico in modo uniforme.
Consente a tutti i componenti di scorrere senza problemi attraverso tutte le fasi di un progetto.

Ciò comprende

Consolidamento delle fonti di dati,
Pulizia dei dati
Creazione di funzionalità
Inserisci i dati in modelli di machine learning per analisi esplicative o predittive.

Anche Kedro aiuta a fornire codice pronto per l'uso. Questo lo rende davvero utile per i data scientist che di solito non sono esperti nella creazione di software.

Perché è utile Kedro?

Strumenti open source come Kedro consentono ridurre di settimane il tempo necessario per trasformare un prototipo in codice di produzione. Gli analisti possono dedicare meno tempo alla codifica e più tempo alla risoluzione dei problemi dei propri clienti.

Kedro aiuta i team a creare canali di dati modulari, testati, riproducibili in qualsiasi ambiente e con versione, consentendo agli utenti di accedere agli stati dei dati precedenti. Lo stesso codice può essere passato dal laptop di un singolo sviluppatore a un progetto di livello aziendale utilizzando il cloud computing. Può anche essere utilizzato con tutti i settori, modelli e origini dati.

Ad oggi, McKinsey ha già utilizzato Kedro in più di 50 progetti. Secondo un dirigente, ai clienti piace particolarmente la visualizzazione dei tubi. Vedono immediatamente le diverse fasi della trasformazione, i tipi di modelli coinvolti e possono risalire ai risultati all'origine dei dati grezzi.

McKinsey non è la prima azienda non direttamente collegata alla tecnologia che pubblica strumenti open source. Uber e Airbnb l'avevano già fatto.

Caratteristiche e installazione di Kendro

Kedro è uno strumento di sviluppo del flusso di lavoro per la creazione di canali dati robusti, scalabili, distribuibili, riproducibili e con versione.

Quali sono le principali caratteristiche di Kedro?

1. Modello di progetto e standard di codifica

Un modello di progetto standard di facile utilizzo
Impostazioni per credenziali, registrazione, caricamento dati e Jupyter Notebooks / Lab.
Sviluppo basato su test utilizzando pytest
Integrazione Sphinx per produrre codice ben documentato

2. Estrazione dei dati e controllo delle versioni

Separazione del livello di elaborazione dal livello di gestione dei dati, incluso il supporto per diversi formati di dati e opzioni di archiviazione.
Versioni per i tuoi set di dati e modelli di machine learning

3. Modularità e astrazione dei tubi

Supporto per funzioni Python pure, nodi, per dividere grandi blocchi di codice in piccole sezioni indipendenti.
Risoluzione automatica delle dipendenze tra i nodi

4. Estensibilità delle funzionalità

Un sistema di plugin che inietta comandi nell'interfaccia a riga di comando (CLI) di Kedro: Kedro-Airflow, che semplifica la prototipazione della pipeline di dati in Kedro prima di distribuirla ad Airflow, uno scheduler del flusso di lavoro. Kedro-Docker, uno strumento per l'imballaggio e la spedizione di progetti Kedro in container
Kedro può essere distribuito localmente, on premise e nel cloud (AWS, Azure e GCP) o in cluster (EMR, Azure HDinsight, GCP e Databricks).

Possiamo installare Kedro sulla nostra distribuzione Linux pre-referenziata facendo:
sudo apt install python3-pip pip install kedro

Per attualizzare:
pip3 install kedro -U

Possiamo vedere la documentazione con:
kedro docs
Ulteriori informazioni possono essere trovate su la pagina del progetto

LinuxAdictos

McKinsey presenta Kedro, il suo primo strumento open source