麦肯锡推出首款开源工具Kedro

Kedro是咨询公司麦肯锡(McKinsey)的第一个开源工具

Kedro项目GitHub页面

Kedro是由咨询公司麦肯锡的一个部门开发的第一个开源工具。 它是为供数据科学家和工程师使用而创建的。 是一个 可用于创建数据和管道的代码库,这是机器学习项目的基础。

麦肯锡公司是一家美国全球管理咨询公司。 进行定性和定量分析,以评估公共和私营部门的管理决策。 他的客户包括全球80%的大公司。

第一个开源工具

该公司以前从未发布过在开放源代码许可下内部开发的一种工具。 实际上,Kedro是作为专有软件诞生的。 但是,当与公司的关系终止时,客户将无法再访问该程序。

凯德罗(Kedro)这个名字源于 希腊语中的中心或核心。 选择该文件是因为该开源工具提供了用于生成高级分析项目的关键代码。

Kedro具有两个主要优点:

  • 通过以一致的方式构造分析代码,使团队更轻松地协作
  • 它允许所有组件无缝地贯穿项目的所有阶段。

这包括

  • 合并数据源,
  • 数据清理
  • 特征创建
  • 将数据输入机器学习模型以进行解释性或预测性分析。

凯德罗 帮助交付即用型代码。 这对于通常不是软件创建专家的数据科学家来说确实很有用。

为什么Kedro有用?

像Kedro这样的开源工具允许 将原型转换为生产代码所需的时间减少了数周。 分析师可以花更少的时间在编码上,而将更多的时间花在对客户进行故障排除上。

Kedro帮助团队创建模块化的数据通道,这些通道在任何环境中都经过测试,可复制和版本化,从而允许用户访问以前的数据状态。 相同的代码可以使用云计算从单个开发人员的笔记本电脑转到企业级项目。 它也可以用于所有行业,模型和数据源。

迄今为止,麦肯锡已经在超过50个项目中使用了Kedro。 一位高管表示,客户尤其喜欢管道的可视化。 他们可以立即看到不同的转换阶段,涉及的模型类型,并且可以将结果追溯到原始数据源。

麦肯锡 不是第一家与技术没有直接关系的公司 它发布了开源工具。 Uber和Airbnb已经做到了。

Kendro功能和安装

Kedro是用于 创建健壮,可伸缩,可部署,可复制和版本化的数据通道。

Kedro的主要特点是什么?

1.项目模板和编码标准

  • 易于使用的标准项目模板
  • 凭据,注册,数据上传和Jupyter Notebooks / Lab的设置。
  • 使用pytest进行测试驱动的开发
  • Sphinx集成以生成有据可查的代码

2.数据提取和版本控制

  • 计算层与数据管理层的分离,包括对不同数据格式和存储选项的支持。
  • 数据集和机器学习模型的版本

3.管道的模块化和抽象化

  • 支持纯Python函数,节点,可将大块代码分成小块独立的部分。
  • 自动解决节点之间的依赖关系

4.功能的可扩展性

  • 一个将命令注入Kedro的命令行界面(CLI)的插件系统:Kedro-Airflow,可以轻松地在Kedro中对数据管道进行原型设计,然后再将其部署到工作流调度程序Airflow中。 Kedro-Docker,用于在容器中打包和运输Kedro项目的工具
  • Kedro可以在本地,内部和云(AWS,Azure和GCP)或群集(EMR,Azure HDinsight,GCP和Databricks)中本地部署。

我们可以通过以下操作将Kedro安装在我们预先定义的Linux发行版上:

sudo apt install python3-pip
pip install kedro

要实现:
pip3 install kedro -U

我们可以通过以下方式查看文档:
kedro docs
可以在以下位置找到更多信息 项目页面


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。