Kedro - это первый инструмент с открытым исходным кодом, разработанный подразделением консалтинговой фирмы McKinsey. Он был создан для использования специалистами по обработке данных и инженерами. Это библиотека кода, которую можно использовать для создания данных и каналов, строительные блоки проекта машинного обучения.
McKinsey & Company - американская глобальная консалтинговая компания по вопросам управления. Выполняет качественный и количественный анализ для оценки управленческих решений в государственном и частном секторах. Среди его клиентов 80% крупнейших корпораций мира.
Первый инструмент с открытым исходным кодом
Компания никогда раньше не выпускала один из инструментов, разработанных собственными силами по лицензии с открытым исходным кодом. Фактически, Kedro родилась как проприетарное программное обеспечение. Однако, когда отношения с компанией закончились, клиенты больше не имели доступа к программе.
Название Кедро происходит от греческое слово для центра или ядра. Он был выбран потому, что этот инструмент с открытым исходным кодом предоставляет важный код для создания проектов расширенного анализа.
Кедро имеет два основных преимущества:
- Это позволяет командам более легко сотрудничать за счет единообразной структурирования аналитического кода.
- Это позволяет всем компонентам беспрепятственно проходить через все этапы проекта.
Это включает в себя
- Консолидация источников данных,
- Очистка данных
- Создание функции
- Загрузите данные в модели машинного обучения для объяснительного или прогнозного анализа.
Кедро тоже помогает доставить готовый к использованию код. Это делает его действительно полезным для специалистов по данным, которые обычно не являются экспертами в создании программного обеспечения.
Чем полезен Кедро?
Инструменты с открытым исходным кодом, такие как Kedro, позволяют сократить время, необходимое для преобразования прототипа в производственный код, на несколько недель. Аналитики могут тратить меньше времени на программирование и больше времени на устранение неполадок своих клиентов.
Kedro помогает командам создавать модульные каналы данных, протестированные, воспроизводимые в любой среде и версионные, что позволяет пользователям получать доступ к предыдущим состояниям данных. Тот же самый код может превратиться из портативного компьютера разработчика в проект корпоративного уровня с использованием облачных вычислений. Его также можно использовать со всеми отраслями, моделями и источниками данных.
На сегодняшний день McKinsey уже использовала Kedro более чем в 50 проектах. По словам одного из руководителей, клиентам особенно нравится визуализация труб. Они сразу видят различные этапы преобразования, типы задействованных моделей и могут отслеживать результаты до исходного источника данных.
McKinsey не первая компания, не имеющая прямого отношения к технологиям который публикует инструменты с открытым исходным кодом. Uber и Airbnb уже сделали это.
Kendro Особенности и установка
Kedro - это инструмент разработки рабочего процесса для создание надежных, масштабируемых, развертываемых, воспроизводимых и версионных каналов данных.
Каковы основные характеристики Кедро?
1. Шаблон проекта и стандарты кодирования
- Простой в использовании стандартный шаблон проекта
- Настройки учетных данных, регистрации, загрузки данных и Jupyter Notebooks / Lab.
- Разработка через тестирование с использованием pytest
- Интеграция со Sphinx для создания хорошо документированного кода
2. Извлечение данных и управление версиями
- Отделение вычислительного уровня от уровня управления данными, включая поддержку различных форматов данных и вариантов хранения.
- Версии для ваших наборов данных и моделей машинного обучения
3. Модульность и абстракция труб.
- Поддержка чистых функций Python, узлов, для разделения больших фрагментов кода на небольшие независимые разделы.
- Автоматическое разрешение зависимостей между узлами
4. Расширяемость функций
- Система плагинов, которая вводит команды в интерфейс командной строки (CLI) Kedro: Kedro-Airflow, что упрощает создание прототипа конвейера данных в Kedro перед его развертыванием в Airflow, планировщике рабочих процессов. Kedro-Docker, инструмент для упаковки и отгрузки проектов Kedro в контейнерах
- Kedro можно развернуть локально, локально и в облаке (AWS, Azure и GCP) или в кластерах (EMR, Azure HDinsight, GCP и Databricks).
Мы можем установить Kedro в нашем предварительно указанном дистрибутиве Linux, выполнив следующие действия:
sudo apt install python3-pip
pip install kedro
Актуализировать:
pip3 install kedro -U
Мы можем увидеть документацию с:
kedro docs
Более подробную информацию можно найти на сайте страница проекта