McKinsey представляет Kedro, свой первый инструмент с открытым исходным кодом

Kedro - первый инструмент с открытым исходным кодом от консалтинговой фирмы McKinsey.

Страница проекта Kedro на GitHub

Kedro - это первый инструмент с открытым исходным кодом, разработанный подразделением консалтинговой фирмы McKinsey. Он был создан для использования специалистами по обработке данных и инженерами. Это библиотека кода, которую можно использовать для создания данных и каналов, строительные блоки проекта машинного обучения.

McKinsey & Company - американская глобальная консалтинговая компания по вопросам управления. Выполняет качественный и количественный анализ для оценки управленческих решений в государственном и частном секторах. Среди его клиентов 80% крупнейших корпораций мира.

Первый инструмент с открытым исходным кодом

Компания никогда раньше не выпускала один из инструментов, разработанных собственными силами по лицензии с открытым исходным кодом. Фактически, Kedro родилась как проприетарное программное обеспечение. Однако, когда отношения с компанией закончились, клиенты больше не имели доступа к программе.

Название Кедро происходит от греческое слово для центра или ядра. Он был выбран потому, что этот инструмент с открытым исходным кодом предоставляет важный код для создания проектов расширенного анализа.

Кедро имеет два основных преимущества:

  • Это позволяет командам более легко сотрудничать за счет единообразной структурирования аналитического кода.
  • Это позволяет всем компонентам беспрепятственно проходить через все этапы проекта.

Это включает в себя

  • Консолидация источников данных,
  • Очистка данных
  • Создание функции
  • Загрузите данные в модели машинного обучения для объяснительного или прогнозного анализа.

Кедро тоже помогает доставить готовый к использованию код. Это делает его действительно полезным для специалистов по данным, которые обычно не являются экспертами в создании программного обеспечения.

Чем полезен Кедро?

Инструменты с открытым исходным кодом, такие как Kedro, позволяют сократить время, необходимое для преобразования прототипа в производственный код, на несколько недель. Аналитики могут тратить меньше времени на программирование и больше времени на устранение неполадок своих клиентов.

Kedro помогает командам создавать модульные каналы данных, протестированные, воспроизводимые в любой среде и версионные, что позволяет пользователям получать доступ к предыдущим состояниям данных. Тот же самый код может превратиться из портативного компьютера разработчика в проект корпоративного уровня с использованием облачных вычислений. Его также можно использовать со всеми отраслями, моделями и источниками данных.

На сегодняшний день McKinsey уже использовала Kedro более чем в 50 проектах. По словам одного из руководителей, клиентам особенно нравится визуализация труб. Они сразу видят различные этапы преобразования, типы задействованных моделей и могут отслеживать результаты до исходного источника данных.

McKinsey не первая компания, не имеющая прямого отношения к технологиям который публикует инструменты с открытым исходным кодом. Uber и Airbnb уже сделали это.

Kendro Особенности и установка

Kedro - это инструмент разработки рабочего процесса для создание надежных, масштабируемых, развертываемых, воспроизводимых и версионных каналов данных.

Каковы основные характеристики Кедро?

1. Шаблон проекта и стандарты кодирования

  • Простой в использовании стандартный шаблон проекта
  • Настройки учетных данных, регистрации, загрузки данных и Jupyter Notebooks / Lab.
  • Разработка через тестирование с использованием pytest
  • Интеграция со Sphinx для создания хорошо документированного кода

2. Извлечение данных и управление версиями

  • Отделение вычислительного уровня от уровня управления данными, включая поддержку различных форматов данных и вариантов хранения.
  • Версии для ваших наборов данных и моделей машинного обучения

3. Модульность и абстракция труб.

  • Поддержка чистых функций Python, узлов, для разделения больших фрагментов кода на небольшие независимые разделы.
  • Автоматическое разрешение зависимостей между узлами

4. Расширяемость функций

  • Система плагинов, которая вводит команды в интерфейс командной строки (CLI) Kedro: Kedro-Airflow, что упрощает создание прототипа конвейера данных в Kedro перед его развертыванием в Airflow, планировщике рабочих процессов. Kedro-Docker, инструмент для упаковки и отгрузки проектов Kedro в контейнерах
  • Kedro можно развернуть локально, локально и в облаке (AWS, Azure и GCP) или в кластерах (EMR, Azure HDinsight, GCP и Databricks).

Мы можем установить Kedro в нашем предварительно указанном дистрибутиве Linux, выполнив следующие действия:

sudo apt install python3-pip
pip install kedro

Актуализировать:
pip3 install kedro -U

Мы можем увидеть документацию с:
kedro docs
Более подробную информацию можно найти на сайте страница проекта


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.