McKinsey introducerer Kedro, dets første open source-værktøj

Kedro er det første open source-værktøj fra konsulentfirmaet McKinsey

Kedro projekt GitHub side

Kedro er det første open source-værktøj udviklet af en afdeling af McKinsey-konsulentfirmaet. Det blev skabt til at blive brugt af datavidenskabsmænd og dataingeniører. Er en kodebibliotek, der kan bruges til at skabe data og pipelines, byggestenene i et maskinlæringsprojekt.

McKinsey & Company er et amerikansk globalt ledelseskonsulentfirma. Han udfører kvalitative og kvantitative analyser for at evaluere ledelsesbeslutninger i den offentlige og private sektor. Hans kunder omfatter 80 % af verdens største virksomheder.

Første open source-værktøj

Virksomheden havde aldrig før udgivet et af de internt udviklede værktøjer under en open source-licens. Faktisk blev Kedro født som proprietær software. Men da forholdet til virksomheden sluttede, havde kunderne ikke længere adgang til programmet.

Navnet Kedro stammer fra det græske ord for centrum eller kerne. Det blev valgt, fordi dette open source-værktøj giver afgørende kode til at producere avancerede analyseprojekter.

Kedro har to hovedfordele:

  • Tillad teams at samarbejde lettere ved at strukturere analysekoden på en ensartet måde.
  • Det tillader alle komponenter at flyde problemfrit i alle faser af et projekt.

Dette inkluderer

  • Konsolidering af datakilder,
  • datarensning
  • Oprettelse af funktioner
  • Indføring af data i maskinlæringsmodeller til forklarende eller forudsigelig analyse.

også kedro hjælper med at levere klar til brug kode. Dette gør det virkelig nyttigt for dataforskere, som normalt ikke er eksperter i at bygge software.

Hvorfor er Kedro nyttig?

Open source-værktøjer som Kedro tillader reducere den tid, det tager at omdanne en prototype til produktionskode med uger. Analytikere kan bruge mindre tid på kodning og mere tid på at løse problemer for deres kunder.

Kedro hjælper teams med at bygge datapipelines, der er modulopbyggede, testede, reproducerbare i ethvert miljø og versionerede, hvilket giver brugerne adgang til tidligere datatilstande. Den samme kode kan flyde fra en enkelt udviklers bærbare computer til et projekt på virksomhedsniveau ved hjælp af cloud computing. Det kan også bruges med alle industrier, modeller og datakilder.

McKinsey har allerede brugt Kedro på mere end 50 projekter til dato. Ifølge en leder kan kunderne især lide visualiseringen af ​​rørledningerne. De ser med det samme de forskellige stadier af transformationen, de involverede typer modeller og kan spore resultaterne tilbage til den rå datakilde.

McKinsey Det er ikke den første virksomhed, der ikke er direkte relateret til teknologi som udgiver open source-værktøjer. Uber og Airbnb havde allerede gjort det.

Kendro funktioner og installation

Kedro er et workflow-udviklingsværktøj til skabe robuste, skalerbare, deployerbare, reproducerbare og versionerede datapipelines.

Hvad er hovedtræk ved Kedro?

1. Projektskabelon og kodningsstandarder

  • En standard, brugervenlig projektskabelon
  • Indstillinger for legitimationsoplysninger, registrering, dataupload og Jupyter Notebooks/Lab.
  • Testdrevet udvikling ved hjælp af Pytest
  • Sphinx integration til at producere veldokumenteret kode

2. Udtræk og versionering af data

  • Adskillelse af computerlaget fra datastyringslaget, herunder understøttelse af forskellige dataformater og lagringsmuligheder.
  • Versioner til dine datasæt og maskinlæringsmodeller

3. Modularitet og abstraktion af rørledninger

  • Understøttelse af rene Python-funktioner, noder, til at opdele store bidder af kode i små, selvstændige sektioner.
  • Automatisk opløsning af afhængigheder mellem noder

4. Udvidelsesmuligheder af funktioner

  • Et plugin-system, der injicerer kommandoer i Kedro CLI: Kedro-Airflow, hvilket gør det nemt at prototype din datapipeline i Kedro, før den implementeres til Airflow, en workflow-planlægger. Kedro-Docker, et værktøj til pakning og forsendelse af Kedro-projekter i containere
  • Kedro kan implementeres lokalt, lokalt og i skyen (AWS, Azure og GCP) eller på klynger (EMR, Azure HDinsight, GCP og Databricks).

Vi kan installere Kedro på vores standard Linux-distribution ved at gøre:

sudo apt install python3-pip
pip install kedro

At aktualisere:
pip3 install kedro -U

Vi kan se dokumentationen med:
kedro docs
Vi finder mere information i projektsiden


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for data: AB Internet Networks 2008 SL
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.