博客
2024/10/16
Apache Beam 峰会 2024:释放 ML 在数据处理中的力量
在最近结束的 Beam 峰会 2024 上,这是一个为期两天的活动,于 9 月 4 日至 5 日举行,众多引人入胜的演示展示了 Beam 解决各种挑战的潜力,重点关注机器学习 (ML)。这些挑战包括对大规模分布式数据的特征工程、数据丰富和模型推断。总的来说,峰会包括 47 个演讲,其中 16 个专门针对 ML 用例或功能,还有更多涉及这些主题。
这些演讲展示了 Beam 社区的广度和多样性。在演讲者和与会者中,23 个国家 有代表参加。与会者包括 Beam 用户、Beam 项目的贡献者、Beam Google Summer of Code 贡献者以及数据处理/机器学习专家。
针对 ML 的用户友好型交钥匙转换
借助最近添加到 Beam 的功能,Beam 现在为 ML 用户提供了一组丰富的交钥匙转换,这些转换可以处理各种 ML-Ops 任务。这些转换包括
- RunInference:在 CPU 和 GPU 上部署 ML 模型
- 丰富:丰富数据以增强 ML 特征
- MLTransform:将数据转换为 ML 特征
峰会演讲涵盖了如何使用这些功能以及人们如何使用它们。亮点包括
- 关于 在 Cruise 中扩展自动驾驶 的演讲
- 关于为批处理和流式推断部署 LLM 的多个演讲
- 三个关于 RAG 的流式处理演讲(包括 来自 Beam 的一位 Google Summer of Code 贡献者的演讲!)
Beam YAML:简化 ML 数据处理
Beam 管道创建可能很困难,通常需要学习概念、管理依赖关系、调试以及为 ML 任务维护代码。为了简化入口点,Beam YAML 引入了一种声明性方法,该方法使用 YAML 配置文件来创建数据处理管道。不需要编码。
Beam 峰会是 Beam 社区首次有机会展示 Beam YAML 的一些用例。它展示了几个关于 Beam YAML 如何成为像 MavenCode 和 ChartBoost 这样的公司中许多用户工作流程的核心部分的演讲。借助 Beam YAML,这些公司能够构建基于配置的数据处理系统,从而大大降低了他们公司入门的门槛。
Prism:为本地和远程运行器环境提供统一的 ML 管道开发框架
Beam 为可移植运行器提供了各种支持,但传统上,开发本地管道一直很痛苦。本地运行器通常不完整且与远程运行器(如 DataflowRunner 和 FlinkRunner)不兼容。
在 Beam 峰会上,Beam 贡献者向社区介绍了 Prism 本地运行器。Prism 极大地改善了本地开发人员体验,缩小了本地和远程执行之间的差距。特别是,在处理复杂的 ML 任务时,Prism 保证了这些运行器之间一致的运行器行为,这是一项以前缺乏一致支持的任务。
总结
Beam 峰会 2024 展示了 Apache Beam 在解决各种数据处理和机器学习挑战方面的巨大潜力。我们期待将来看到更多创新的用例和贡献。
要了解最新的 Beam 开发和事件,请访问 Apache Beam 网站 并关注我们的 社交媒体。我们鼓励您加入 Beam 社区 并 为项目做出贡献。让我们共同释放 Beam 的全部潜力,塑造数据处理和机器学习的未来。