在过去的一年中,Microsoft一直在不断开放和创建开源项目 通过这种方式,它开始抛弃了与开源世界的巨大竞争(或者看起来如此)。
它不是贬低它的活动,而是与过去十年来对开源宣战的过去不同,至少在最近几年,情况已经发生了变化。 作为 最近几天,微软发布了 给决定开放的社区 发布了大型数据处理项目Data Accelerator,最初在内部使用。
自2017年开发以来,该项目已大规模应用于各种Microsoft产品工作渠道。
关于数据加速器
Data Accelerator于2017年启动 作为Microsoft开发人员部的大型数据处理项目最终使它成为了Apache Spark 由于规模和速度的原因。
Data Accelerator不仅仅是EventHub与数据库之间的管道。
它使用户能够在继续广播事件时重塑传入的事件,然后将同一事件的不同部分路由到不同的数据存储,同时为整个管道状态提供运行状况监视和警报。
Data Accelerator还提供配置用户界面和规则/查询设计经验,使用户无需编写任何代码即可启动并运行。
另外, 进行传输数据处理的任何人 一般来说 您需要使用滑动窗口来处理数据,或处理延迟以获取数据,或随时间累积数据。
功能
数据加速器 支持并简化了这些高级功能的使用。
根据官方的Microsoft开源博客, 一些Data Accelerator方法可以轻松在Apache Spark中创建流:
即插即用: 使您可以轻松配置输入源和输出接收器,以在几分钟内创建管道。
Data Accelerator支持从Eventhub和IoThub提取数据,并支持将数据下载到Azure Blob,CosmosDB,Eventhub等。
无代码经验: 支持无需编写任何代码即可配置警报和数据处理的功能。
借助Rule Designer的专业知识,您可以指定简单的聚合数据处理,标记和警报。
SQL查询: 允许使用SQL编写复杂的处理,而无需在Scala中工作。
内置的可扩展性模型还支持用户定义的功能,并利用Azure功能,例如用于ML中的流传输。
实时咨询: 通过对照传入的数据样本并在几秒钟内验证查询来节省设置和测试管道的处理时间。
最后, Microsoft提到数据加速器支持针对开发测试循环的快速验证周期, 在部署之前,可以对样本本地事件的查询进行迭代校正以使其可用,这可以节省大量时间来处理测试工作流。
Microsoft开发人员部门每天都会使用Data Accelerator,并且随着时间的推移,它将继续改进工具链,但是我们认识到该工具集可以根据需要做更多的事情。
Data Accelerator为希望启用并简化这些高级功能使用的任何人提供了可能性。
我们希望通过打开该项目,您中的某些人会发现数据加速器更加有用。
如果您想获得更多信息 关于Data Accelerator代码,您可以访问Microsoft的开源博客上的公告。