McKinseys open source-værktøj kan nu installeres

Kedro er det første open source-værktøj fra konsulentfirmaet McKinsey

Kedro projekt GitHub side

Kedro er det første open source-værktøj udviklet af en afdeling af McKinsey-konsulentfirmaet. Det blev skabt til at blive brugt af datavidenskabsmænd og dataingeniører. Er en kodebibliotek, der kan bruges til at skabe data og pipelines, byggestenene i et maskinlæringsprojekt.

McKinsey & Company er et amerikansk globalt ledelseskonsulentfirma. Han udfører kvalitative og kvantitative analyser for at evaluere ledelsesbeslutninger i den offentlige og private sektor. Hans kunder omfatter 80 % af verdens største virksomheder.

Første open source-værktøj

Virksomheden havde aldrig før udgivet et af de internt udviklede værktøjer under en open source-licens. Faktisk blev Kedro født som proprietær software. Men da forholdet til virksomheden sluttede, havde kunderne ikke længere adgang til programmet.

Navnet Kedro stammer fra det græske ord for centrum eller kerne. Det blev valgt, fordi dette open source-værktøj giver afgørende kode til at producere avancerede analyseprojekter.

Kedro har to hovedfordele:

Tillad teams at samarbejde lettere ved at strukturere analysekoden på en ensartet måde.
Det tillader alle komponenter at flyde problemfrit i alle faser af et projekt.

Dette inkluderer

Konsolidering af datakilder,
datarensning
Oprettelse af funktioner
Indføring af data i maskinlæringsmodeller til forklarende eller forudsigelig analyse.

også kedro hjælper med at levere klar til brug kode. Dette gør det virkelig nyttigt for dataforskere, som normalt ikke er eksperter i at bygge software.

Hvorfor er Kedro nyttig?

Open source-værktøjer som Kedro tillader reducere den tid, det tager at omdanne en prototype til produktionskode med uger. Analytikere kan bruge mindre tid på kodning og mere tid på at løse problemer for deres kunder.

Kedro hjælper teams med at bygge datapipelines, der er modulopbyggede, testede, reproducerbare i ethvert miljø og versionerede, hvilket giver brugerne adgang til tidligere datatilstande. Den samme kode kan flyde fra en enkelt udviklers bærbare computer til et projekt på virksomhedsniveau ved hjælp af cloud computing. Det kan også bruges med alle industrier, modeller og datakilder.

McKinsey har allerede brugt Kedro på mere end 50 projekter til dato. Ifølge en leder kan kunderne især lide visualiseringen af rørledningerne. De ser med det samme de forskellige stadier af transformationen, de involverede typer modeller og kan spore resultaterne tilbage til den rå datakilde.

McKinsey Det er ikke den første virksomhed, der ikke er direkte relateret til teknologi som udgiver open source-værktøjer. Uber og Airbnb havde allerede gjort det.

Kendro funktioner og installation

Kedro er et workflow-udviklingsværktøj til skabe robuste, skalerbare, deployerbare, reproducerbare og versionerede datapipelines.

Hvad er hovedtræk ved Kedro?

1. Projektskabelon og kodningsstandarder

En standard, brugervenlig projektskabelon
Indstillinger for legitimationsoplysninger, registrering, dataupload og Jupyter Notebooks/Lab.
Testdrevet udvikling ved hjælp af Pytest
Sphinx integration til at producere veldokumenteret kode

2. Udtræk og versionering af data

Adskillelse af computerlaget fra datastyringslaget, herunder understøttelse af forskellige dataformater og lagringsmuligheder.
Versioner til dine datasæt og maskinlæringsmodeller

3. Modularitet og abstraktion af rørledninger

Understøttelse af rene Python-funktioner, noder, til at opdele store bidder af kode i små, selvstændige sektioner.
Automatisk opløsning af afhængigheder mellem noder

4. Udvidelsesmuligheder af funktioner

Et plugin-system, der injicerer kommandoer i Kedro CLI: Kedro-Airflow, hvilket gør det nemt at prototype din datapipeline i Kedro, før den implementeres til Airflow, en workflow-planlægger. Kedro-Docker, et værktøj til pakning og forsendelse af Kedro-projekter i containere
Kedro kan implementeres lokalt, lokalt og i skyen (AWS, Azure og GCP) eller på klynger (EMR, Azure HDinsight, GCP og Databricks).

Vi kan installere Kedro på vores standard Linux-distribution ved at gøre:
sudo apt install python3-pip pip install kedro

At aktualisere:
pip3 install kedro -U

Vi kan se dokumentationen med:
kedro docs
Vi finder mere information i projektsiden

LinuxAdictos

McKinsey introducerer Kedro, dets første open source-værktøj