Apache Beam 峰会 2024：释放 ML 在数据处理中的力量

博客

2024/10/16

Apache Beam 峰会 2024：释放 ML 在数据处理中的力量

XQ Hu，Danny McCormick & Reza Rokni [@rarokni]

在最近结束的 Beam 峰会 2024 上，这是一个为期两天的活动，于 9 月 4 日至 5 日举行，众多引人入胜的演示展示了 Beam 解决各种挑战的潜力，重点关注机器学习 (ML)。这些挑战包括对大规模分布式数据的特征工程、数据丰富和模型推断。总的来说，峰会包括 47 个演讲，其中 16 个专门针对 ML 用例或功能，还有更多涉及这些主题。

这些演讲展示了 Beam 社区的广度和多样性。在演讲者和与会者中，23 个国家有代表参加。与会者包括 Beam 用户、Beam 项目的贡献者、Beam Google Summer of Code 贡献者以及数据处理/机器学习专家。

针对 ML 的用户友好型交钥匙转换

借助最近添加到 Beam 的功能，Beam 现在为 ML 用户提供了一组丰富的交钥匙转换，这些转换可以处理各种 ML-Ops 任务。这些转换包括

RunInference：在 CPU 和 GPU 上部署 ML 模型
丰富：丰富数据以增强 ML 特征
MLTransform：将数据转换为 ML 特征

峰会演讲涵盖了如何使用这些功能以及人们如何使用它们。亮点包括

关于在 Cruise 中扩展自动驾驶的演讲
关于为批处理和流式推断部署 LLM 的多个演讲
三个关于 RAG 的流式处理演讲（包括来自 Beam 的一位 Google Summer of Code 贡献者的演讲！）

Beam YAML：简化 ML 数据处理

Beam 管道创建可能很困难，通常需要学习概念、管理依赖关系、调试以及为 ML 任务维护代码。为了简化入口点，Beam YAML 引入了一种声明性方法，该方法使用 YAML 配置文件来创建数据处理管道。不需要编码。

Beam 峰会是 Beam 社区首次有机会展示 Beam YAML 的一些用例。它展示了几个关于 Beam YAML 如何成为像 MavenCode 和 ChartBoost 这样的公司中许多用户工作流程的核心部分的演讲。借助 Beam YAML，这些公司能够构建基于配置的数据处理系统，从而大大降低了他们公司入门的门槛。

Prism：为本地和远程运行器环境提供统一的 ML 管道开发框架

Beam 为可移植运行器提供了各种支持，但传统上，开发本地管道一直很痛苦。本地运行器通常不完整且与远程运行器（如 DataflowRunner 和 FlinkRunner）不兼容。

在 Beam 峰会上，Beam 贡献者向社区介绍了 Prism 本地运行器。Prism 极大地改善了本地开发人员体验，缩小了本地和远程执行之间的差距。特别是，在处理复杂的 ML 任务时，Prism 保证了这些运行器之间一致的运行器行为，这是一项以前缺乏一致支持的任务。

总结

Beam 峰会 2024 展示了 Apache Beam 在解决各种数据处理和机器学习挑战方面的巨大潜力。我们期待将来看到更多创新的用例和贡献。

要了解最新的 Beam 开发和事件，请访问 Apache Beam 网站并关注我们的社交媒体。我们鼓励您加入 Beam 社区并为项目做出贡献。让我们共同释放 Beam 的全部潜力，塑造数据处理和机器学习的未来。

针对 ML 的用户友好型交钥匙转换

Beam YAML：简化 ML 数据处理

Prism：为本地和远程运行器环境提供统一的 ML 管道开发框架

总结

博客最新动态