McKinsey представляет Kedro, свой первый инструмент с открытым исходным кодом

Kedro - первый инструмент с открытым исходным кодом от консалтинговой фирмы McKinsey.

Страница проекта Kedro на GitHub

Kedro - это первый инструмент с открытым исходным кодом, разработанный подразделением консалтинговой фирмы McKinsey. Он был создан для использования специалистами по обработке данных и инженерами. Это библиотека кода, которую можно использовать для создания данных и каналов, строительные блоки проекта машинного обучения.

McKinsey & Company - американская глобальная консалтинговая компания по вопросам управления. Выполняет качественный и количественный анализ для оценки управленческих решений в государственном и частном секторах. Среди его клиентов 80% крупнейших корпораций мира.

Первый инструмент с открытым исходным кодом

Компания никогда раньше не выпускала один из инструментов, разработанных собственными силами по лицензии с открытым исходным кодом. Фактически, Kedro родилась как проприетарное программное обеспечение. Однако, когда отношения с компанией закончились, клиенты больше не имели доступа к программе.

Название Кедро происходит от греческое слово для центра или ядра. Он был выбран потому, что этот инструмент с открытым исходным кодом предоставляет важный код для создания проектов расширенного анализа.

Кедро имеет два основных преимущества:

  • Это позволяет командам более легко сотрудничать за счет единообразной структурирования аналитического кода.
  • Это позволяет всем компонентам беспрепятственно проходить через все этапы проекта.

Это включает в себя

  • Консолидация источников данных,
  • Очистка данных
  • Создание функции
  • Загрузите данные в модели машинного обучения для объяснительного или прогнозного анализа.

Кедро тоже помогает доставить готовый к использованию код. Это делает его действительно полезным для специалистов по данным, которые обычно не являются экспертами в создании программного обеспечения.

Чем полезен Кедро?

Инструменты с открытым исходным кодом, такие как Kedro, позволяют сократить время, необходимое для преобразования прототипа в производственный код, на несколько недель. Аналитики могут тратить меньше времени на программирование и больше времени на устранение неполадок своих клиентов.

Kedro помогает командам создавать модульные каналы данных, протестированные, воспроизводимые в любой среде и версионные, что позволяет пользователям получать доступ к предыдущим состояниям данных. Тот же самый код может превратиться из портативного компьютера разработчика в проект корпоративного уровня с использованием облачных вычислений. Его также можно использовать со всеми отраслями, моделями и источниками данных.

На сегодняшний день McKinsey уже использовала Kedro более чем в 50 проектах. По словам одного из руководителей, клиентам особенно нравится визуализация труб. Они сразу видят различные этапы преобразования, типы задействованных моделей и могут отслеживать результаты до исходного источника данных.

McKinsey не первая компания, не имеющая прямого отношения к технологиям который публикует инструменты с открытым исходным кодом. Uber и Airbnb уже сделали это.

Kendro Особенности и установка

Kedro - это инструмент разработки рабочего процесса для создание надежных, масштабируемых, развертываемых, воспроизводимых и версионных каналов данных.

Каковы основные характеристики Кедро?

1. Шаблон проекта и стандарты кодирования

  • Простой в использовании стандартный шаблон проекта
  • Настройки учетных данных, регистрации, загрузки данных и Jupyter Notebooks / Lab.
  • Разработка через тестирование с использованием pytest
  • Интеграция со Sphinx для создания хорошо документированного кода

2. Извлечение данных и управление версиями

  • Отделение вычислительного уровня от уровня управления данными, включая поддержку различных форматов данных и вариантов хранения.
  • Версии для ваших наборов данных и моделей машинного обучения

3. Модульность и абстракция труб.

  • Поддержка чистых функций Python, узлов, для разделения больших фрагментов кода на небольшие независимые разделы.
  • Автоматическое разрешение зависимостей между узлами

4. Расширяемость функций

  • Система плагинов, которая вводит команды в интерфейс командной строки (CLI) Kedro: Kedro-Airflow, что упрощает создание прототипа конвейера данных в Kedro перед его развертыванием в Airflow, планировщике рабочих процессов. Kedro-Docker, инструмент для упаковки и отгрузки проектов Kedro в контейнерах
  • Kedro можно развернуть локально, локально и в облаке (AWS, Azure и GCP) или в кластерах (EMR, Azure HDinsight, GCP и Databricks).

Мы можем установить Kedro в нашем предварительно указанном дистрибутиве Linux, выполнив следующие действия:

sudo apt install python3-pip
pip install kedro

Актуализировать:
pip3 install kedro -U

Мы можем увидеть документацию с:
kedro docs
Более подробную информацию можно найти на сайте страница проекта


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.