McKinsey przedstawia Kedro, swoje pierwsze narzędzie Open Source

Kedro to pierwsze narzędzie open source firmy konsultingowej McKinsey

Strona projektu Kedro w serwisie GitHub

Kedro to pierwsze narzędzie open source opracowane przez oddział firmy konsultingowej McKinsey. Został stworzony do użytku przez naukowców i inżynierów danych. Jest Biblioteka kodu, której można użyć do tworzenia danych i potoków, elementy składowe projektu uczenia maszynowego.

McKinsey & Company to amerykańska firma zajmująca się doradztwem w zakresie zarządzania o zasięgu globalnym. Wykonuje analizy jakościowe i ilościowe w celu oceny decyzji zarządczych w sektorze publicznym i prywatnym. Wśród jego klientów jest 80% największych światowych korporacji.

Pierwsze narzędzie open source

Firma nigdy wcześniej nie udostępniła jednego z narzędzi opracowanych wewnętrznie na licencji open source. W rzeczywistości Kedro narodził się jako oprogramowanie własnościowe. Jednak po zakończeniu relacji z firmą klienci nie mieli już dostępu do programu.

Nazwa Kedro pochodzi od greckie słowo oznaczające środek lub rdzeń. Zostało wybrane, ponieważ to narzędzie open source zapewnia kluczowy kod do tworzenia zaawansowanych projektów analitycznych.

Kedro ma dwie główne zalety:

  • Umożliwia zespołom łatwiejszą współpracę poprzez ustrukturyzowanie kodu analitycznego w jednolity sposób.
  • Pozwala wszystkim komponentom na płynny przepływ przez wszystkie etapy projektu.

Obejmuje to

  • Konsolidacja źródeł danych,
  • Oczyszczanie danych
  • Tworzenie funkcji
  • Wprowadź dane do modeli uczenia maszynowego w celu przeprowadzenia analizy wyjaśniającej lub predykcyjnej.

Kedro też pomaga w dostarczaniu gotowego do użycia kodu. To sprawia, że ​​jest naprawdę przydatny dla naukowców zajmujących się danymi, którzy zwykle nie są ekspertami w tworzeniu oprogramowania.

Dlaczego Kedro jest przydatny?

Narzędzia open source, takie jak Kedro, pozwalają skrócić czas potrzebny na przekształcenie prototypu w kod produkcyjny o tygodnie. Analitycy mogą spędzać mniej czasu na kodowaniu, a więcej na rozwiązywaniu problemów klientów.

Kedro pomaga zespołom tworzyć modułowe kanały danych, testowane, odtwarzalne w dowolnym środowisku i wersjonowane, umożliwiając użytkownikom dostęp do poprzednich stanów danych. Ten sam kod może przejść z jednego laptopa programisty do projektu klasy korporacyjnej wykorzystującego przetwarzanie w chmurze. Może być również używany we wszystkich branżach, modelach i źródłach danych.

McKinsey użył już Kedro w ponad 50 projektach do tej pory. Według jednego z wykonawców, klienci szczególnie lubią wizualizację rur. Natychmiast widzą różne etapy transformacji, typy zaangażowanych modeli i mogą prześledzić wyniki z powrotem do surowego źródła danych.

McKinsey nie jest pierwszą firmą niezwiązaną bezpośrednio z technologią która publikuje narzędzia open source. Uber i Airbnb już to zrobili.

Funkcje i instalacja Kendro

Kedro to narzędzie do tworzenia przepływu pracy dla stworzenie solidnych, skalowalnych, możliwych do wdrożenia, odtwarzalnych i wersjonowanych kanałów danych.

Jakie są główne cechy Kedro?

1. Szablon projektu i standardy kodowania

  • Łatwy w użyciu, standardowy szablon projektu
  • Ustawienia dotyczące poświadczeń, rejestracji, przesyłania danych i Jupyter Notebooks / Lab.
  • Programowanie oparte na testach przy użyciu pytest
  • Integracja Sphinx w celu stworzenia dobrze udokumentowanego kodu

2. Ekstrakcja i wersjonowanie danych

  • Oddzielenie warstwy obliczeniowej od warstwy zarządzania danymi, w tym obsługa różnych formatów danych i opcji przechowywania.
  • Wersje zestawów danych i modeli uczenia maszynowego

3. Modułowość i abstrakcja rur

  • Obsługa czystych funkcji Pythona, węzłów, do dzielenia dużych fragmentów kodu na małe niezależne sekcje.
  • Automatyczne rozwiązywanie zależności między węzłami

4. Rozszerzalność funkcji

  • System wtyczek, który wstrzykuje polecenia do interfejsu wiersza poleceń (CLI) Kedro: Kedro-Airflow, ułatwiając prototypowanie potoku danych w Kedro przed wdrożeniem go w Airflow, harmonogramie przepływu pracy. Kedro-Docker, narzędzie do pakowania i wysyłki projektów Kedro w kontenerach
  • Kedro można wdrażać lokalnie, lokalnie iw chmurze (AWS, Azure i GCP) lub w klastrach (EMR, Azure HDinsight, GCP i Databricks).

Możemy zainstalować Kedro na naszej wcześniej przywoływanej dystrybucji Linuksa, wykonując:

sudo apt install python3-pip
pip install kedro

Aby zaktualizować:
pip3 install kedro -U

Możemy zobaczyć dokumentację z:
kedro docs
Więcej informacji można znaleźć pod adresem stronę projektu


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: AB Internet Networks 2008 SL
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.