Dabar galima įdiegti McKinsey atvirojo kodo įrankį

„Kedro“ yra pirmasis konsultacijų firmos „McKinsey“ atvirojo kodo įrankis

„Kedro“ projekto „GitHub“ puslapis

„Kedro“ yra pirmasis atvirojo kodo įrankis, kurį sukūrė konsultacinės firmos „McKinsey“ padalinys. Jis buvo sukurtas naudoti duomenų mokslininkams ir inžinieriams. Yra kodų biblioteka, kuri gali būti naudojama duomenims ir vamzdžiams kurti, mašininio mokymosi projekto sudedamosios dalys.

„McKinsey & Company“ yra Amerikos pasaulinė vadybos konsultavimo įmonė. Atlieka kokybinę ir kiekybinę analizę, kad būtų galima įvertinti valdymo sprendimus viešajame ir privačiame sektoriuose. Jo klientai yra 80% didžiausių pasaulio korporacijų.

Pirmasis atvirojo kodo įrankis

Bendrovė dar niekada neišleido vieno iš įrankių, sukurtų namuose pagal atvirojo kodo licenciją. Tiesą sakant, Kedro gimė kaip patentuota programinė įranga. Tačiau kai nutrūko santykiai su įmone, klientai nebeturėjo prieigos prie programos.

Pavadinimas Kedro kilo iš graikiškas žodis centras arba šerdis. Jis buvo pasirinktas todėl, kad šis atvirojo kodo įrankis suteikia esminį kodą pažangiems analizės projektams kurti.

„Kedro“ turi du pagrindinius pranašumus:

Tai leidžia komandoms lengviau bendradarbiauti, vienodai struktūrizuojant analitinį kodą.
Tai leidžia visiems komponentams sklandžiai tekėti visais projekto etapais.

Tai įtraukia

Duomenų šaltinių konsolidavimas,
Duomenų valymas
Funkcijų kūrimas
Duomenys pateikiami į mašininio mokymosi modelius, kad būtų galima atlikti aiškinamąją ar numatomąją analizę.

Kedro irgi padeda pateikti paruoštą naudoti kodą. Tai daro tai tikrai naudinga duomenų mokslininkams, kurie paprastai nėra programinės įrangos kūrimo ekspertai.

Kodėl Kedro yra naudinga?

Tokie atviro kodo įrankiai kaip „Kedro“ leidžia savaitėmis sutrumpinkite laiką, kurio reikia prototipui paversti gamybos kodu. Analitikai gali praleisti mažiau laiko koduodami ir daugiau laiko spręsdami savo klientus.

„Kedro“ padeda komandoms sukurti modulinius duomenų kanalus, išbandytus, atkuriamus bet kurioje aplinkoje ir versijas, leidžiančius vartotojams pasiekti ankstesnes duomenų būsenas. Tas pats kodas gali būti perduotas iš vieno kūrėjo nešiojamojo kompiuterio į įmonės lygio projektą, naudojant debesų kompiuteriją. Jis taip pat gali būti naudojamas visose pramonės šakose, modeliuose ir duomenų šaltiniuose.

„McKinsey“ iki šiol jau naudojo „Kedro“ daugiau nei 50 projektų. Pasak vieno vadovo, klientams ypač patinka vizualizuoti vamzdžius. Jie iškart mato skirtingus transformacijos etapus, susijusių modelių tipus ir gali atsekti rezultatus iki neapdorotų duomenų šaltinio.

"McKinsey" tai nėra pirmoji įmonė, tiesiogiai nesusijusi su technologijomis kuri skelbia atvirojo kodo įrankius. „Uber“ ir „Airbnb“ tai jau padarė.

„Kendro“ funkcijos ir diegimas

„Kedro“ yra darbo eigos kūrimo įrankis tvirtų, keičiamų, pritaikomų, atkuriamų ir versijų duomenų kanalų sukūrimas.

Kokios pagrindinės „Kedro“ savybės?

1. Projekto šablonas ir kodavimo standartai

Paprastas naudoti standartinis projekto šablonas
Kredencialų, registracijos, duomenų įkėlimo ir „Jupyter Notebooks / Lab“ nustatymai.
Testais pagrįstas kūrimas naudojant „pytest“
Sfinkso integracija norint sukurti gerai dokumentuotą kodą

2. Duomenų išskyrimas ir versijos

Skaičiavimo sluoksnio atskyrimas nuo duomenų valdymo sluoksnio, įskaitant įvairių duomenų formatų ir saugojimo parinkčių palaikymą.
Duomenų rinkinių ir mašininio mokymosi modelių versijos

3. Vamzdžių moduliškumas ir ištraukimas

Parama grynoms „Python“ funkcijoms, mazgams, norint suskaidyti didelius kodo gabalus į mažas nepriklausomas sekcijas.
Automatinis priklausomybių tarp mazgų sprendimas

4. Funkcijų išplėtimas

Įskiepių sistema, įvedanti komandas į „Kedro“ komandinės eilutės sąsają (CLI): „Kedro-Airflow“, leidžianti lengvai prototipuoti savo duomenų perdavimo liniją Kedro prieš diegiant ją į „Airflow“, darbo eigos planuoklį. „Kedro-Docker“ - įrankis, skirtas „Kedro“ projektams pakuoti ir gabenti į konteinerius
„Kedro“ galima diegti vietoje, patalpose ir debesyje (AWS, „Azure“ ir GCP) arba grupėse (EMR, „Azure HDinsight“, GCP ir „Databricks“).

Mes galime įdiegti „Kedro“ iš anksto nurodytame „Linux“ paskirstyme atlikdami šiuos veiksmus:
sudo apt install python3-pip pip install kedro

Norėdami suaktyvinti:
pip3 install kedro -U

Mes galime pamatyti dokumentus su:
kedro docs
Daugiau informacijos galite rasti projekto puslapyje

LinuxAdictos

„McKinsey“ pristato savo pirmąjį atvirojo kodo įrankį „Kedro“