McKinsey представя Kedro, първия си инструмент с отворен код

Kedro е първият инструмент с отворен код от консултантската фирма McKinsey

Страница на GedHub за проекта Kedro

Kedro е първият инструмент с отворен код, разработен от подразделение на консултантска фирма McKinsey. Той е създаден, за да бъде използван от учени и инженери по данни. Е кодова библиотека, която може да се използва за създаване на данни и канали, градивните елементи на проект за машинно обучение.

McKinsey & Company е американска глобална консултантска компания за управление. Извършва качествени и количествени анализи за оценка на управленските решения в публичния и частния сектор. Неговите клиенти включват 80% от най-големите корпорации в света.

Първи инструмент с отворен код

Компанията никога досега не е пускала един от инструментите, разработени вътрешно с лиценз с отворен код. Всъщност Кедро е роден като собствен софтуер. Когато обаче връзката с компанията приключи, клиентите вече нямаха достъп до програмата.

Името Кедро произлиза от гръцката дума за център или ядро. Той е избран, защото този инструмент с отворен код предоставя решаващ код за създаване на разширени аналитични проекти.

Kedro има две основни предимства:

  • Това позволява на екипите да си сътрудничат по-лесно, като структурират аналитичния код по еднакъв начин.
  • Той позволява на всички компоненти да преминават безпроблемно през всички етапи на проекта.

Това включва

  • Консолидация на източници на данни,
  • Почистване на данни
  • Създаване на функция
  • Дайте данни в модели за машинно обучение за обяснителен или прогнозен анализ.

Кедро също помага да се достави готов за използване код. Това го прави наистина полезен за специалисти по данни, които обикновено не са експерти в създаването на софтуер.

Защо Kedro е полезен?

Инструменти с отворен код като Kedro позволяват намалете времето, необходимо за трансформиране на прототип в производствен код, със седмици. Анализаторите могат да отделят по-малко време за кодиране и повече време за отстраняване на неизправности на своите клиенти.

Kedro помага на екипите да създават модулни канали за данни, тествани, възпроизводими във всякаква среда и версии, позволяващи на потребителите да имат достъп до предишни състояния на данни. Същият код може да премине от лаптоп на един разработчик до проект за корпоративен клас, използващ облачни изчисления. Може да се използва и с всички индустрии, модели и източници на данни.

Към днешна дата McKinsey вече е използвал Kedro в над 50 проекта. Според един изпълнителен директор клиентите особено харесват визуализацията на тръбите. Те веднага виждат различните етапи на трансформация, видовете участващи модели и могат да проследят резултатите обратно до източника на сурови данни.

McKinsey не е първата компания, която не е пряко свързана с технологиите който публикува инструменти с отворен код. Uber и Airbnb вече го бяха направили.

Kendro Характеристики и инсталация

Kedro е инструмент за разработване на работен процес за създаването на надеждни, мащабируеми, разгръщащи се, възпроизводими и версионирани канали за данни.

Какви са основните характеристики на Кедро?

1. Шаблон за проекти и стандарти за кодиране

  • Лесен за използване, стандартен шаблон за проект
  • Настройки за идентификационни данни, регистрация, качване на данни и Jupyter Notebooks / Lab.
  • Тествано развитие с помощта на pytest
  • Интеграция на Sphinx за създаване на добре документиран код

2. Извличане на данни и създаване на версии

  • Разделяне на изчислителния слой от слоя за управление на данни, включително поддръжка за различни формати на данни и опции за съхранение.
  • Версии за вашите набори от данни и модели за машинно обучение

3. Модулност и абстракция на тръбите

  • Поддръжка на чисти функции на Python, възли, за разделяне на големи парчета код на малки независими секции.
  • Автоматично разрешаване на зависимости между възлите

4. Разширяемост на функциите

  • Система за приставки, която инжектира команди в интерфейса на командния ред (CLI) на Kedro: Kedro-Airflow, което улеснява прототипирането на вашия конвейер за данни в Kedro, преди да го внедри в Airflow, планиращ работен процес Kedro-Docker, инструмент за опаковане и експедиране на проекти на Kedro в контейнери
  • Kedro може да бъде разположен локално, в помещения и в облака (AWS, Azure и GCP) или в клъстери (EMR, Azure HDinsight, GCP и Databricks).

Можем да инсталираме Kedro в нашата предварително посочена Linux дистрибуция, като правим:

sudo apt install python3-pip
pip install kedro

За да актуализирате:
pip3 install kedro -U

Можем да видим документацията със:
kedro docs
Повече информация можете да намерите на страницата на проекта


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорник за данните: AB Internet Networks 2008 SL
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.