McKinsey представляє Kedro, свій перший інструмент з відкритим кодом

Kedro - це перший інструмент з відкритим кодом від консалтингової фірми McKinsey

Сторінка проекту GedHub Kedro

Kedro - це перший інструмент з відкритим кодом, розроблений підрозділом консалтингової фірми McKinsey. Він був створений для використання вченими з даних та інженерами. Є бібліотека коду, яку можна використовувати для створення даних та каналів, основи проекту машинного навчання.

McKinsey & Company - американська глобальна консалтингова компанія з управління. Проводить якісний та кількісний аналіз для оцінки управлінських рішень у державному та приватному секторах. Серед його клієнтів 80% найбільших корпорацій світу.

Перший інструмент з відкритим кодом

Компанія ніколи раніше не випускала одного з інструментів, розроблених власноруч за ліцензією з відкритим кодом. Насправді Кедро народився як власне програмне забезпечення. Однак, коли відносини з компанією закінчилися, клієнти більше не мали доступу до програми.

Назва Кедро походить від грецьке слово для центру або ядра. Він був обраний, оскільки цей інструмент з відкритим кодом надає вирішальний код для створення розширених проектів аналізу.

Кедро має дві основні переваги:

  • Це дозволяє командам легше співпрацювати, структуруючи аналітичний код єдиним способом.
  • Це дозволяє всім компонентам безперешкодно протікати на всіх етапах проекту.

Сюди входить

  • Консолідація джерел даних,
  • Очищення даних
  • Створення функції
  • Подайте дані в моделі машинного навчання для пояснювального або прогнозного аналізу.

Кедро теж допомагає доставити готовий до використання код. Це робить це дійсно корисним для вчених-даних, які зазвичай не є фахівцями у створенні програмного забезпечення.

Чому Кедро корисний?

Інструменти з відкритим кодом, такі як Kedro, дозволяють зменшити час, необхідний для перетворення прототипу у виробничий код, на тижні. Аналітики можуть витрачати менше часу на кодування та більше часу на усунення неполадок зі своїми клієнтами.

Kedro допомагає командам створювати модульні канали даних, протестовані, відтворювані в будь-якому середовищі та версії, що дозволяє користувачам отримувати доступ до попередніх станів даних. Цей самий код може перейти від ноутбука одного розробника до корпоративного проекту за допомогою хмарних обчислень. Його також можна використовувати з усіма галузями промисловості, моделями та джерелами даних.

На сьогодні McKinsey вже використовував Kedro у понад 50 проектах. За словами одного керівника, споживачам особливо подобається візуалізація труб. Вони відразу бачать різні етапи трансформації, типи задіяних моделей і можуть відстежувати результати назад до вихідного джерела даних.

McKinsey не перша компанія, безпосередньо не пов'язана з технологіями який публікує інструменти з відкритим кодом. Uber і Airbnb це вже зробили.

Особливості та установка Kendro

Kedro - це інструмент розробки робочого процесу для створення надійних, масштабованих, розгортаються, відтворюваних та версійних каналів даних.

Які основні характеристики Кедро?

1. Шаблон проекту та стандарти кодування

  • Простий у використанні стандартний шаблон проекту
  • Налаштування облікових даних, реєстрації, завантаження даних та ноутбуків / лабораторії Jupyter.
  • Тестова розробка за допомогою pytest
  • Інтеграція Sphinx для створення добре документованого коду

2. Вилучення даних та встановлення версій

  • Відокремлення обчислювального рівня від рівня управління даними, включаючи підтримку різних форматів даних та варіантів зберігання.
  • Версії для наборів даних та моделей машинного навчання

3. Модульність і абстракція труб

  • Підтримка чистих функцій Python, вузлів, щоб розділити великі фрагменти коду на невеликі незалежні розділи.
  • Автоматичне вирішення залежностей між вузлами

4. Розширюваність можливостей

  • Система плагінів, яка вводить команди в інтерфейс командного рядка Kedro (CLI): Kedro-Airflow, що полегшує прототипування вашого конвеєру даних у Kedro перед його розгортанням у Airflow, планувальнику робочих процесів. Kedro-Docker, інструмент для пакування та транспортування проектів Kedro у контейнери
  • Kedro можна розгорнути локально, в приміщеннях та в хмарі (AWS, Azure та GCP) або в кластерах (EMR, Azure HDinsight, GCP та Databricks).

Ми можемо встановити Kedro у нашому попередньо вказаному дистрибутиві Linux, виконавши:

sudo apt install python3-pip
pip install kedro

Щоб актуалізувати:
pip3 install kedro -U

Ми можемо переглянути документацію за допомогою:
kedro docs
Більше інформації можна знайти за адресою сторінку проекту


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: AB Internet Networks 2008 SL
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.