Apache Beam 文档

此页面提供指向 Beam 编程模型、SDK 和运行器的概念信息和参考材料的链接。

概念

了解 Beam 编程模型以及所有 Beam SDK 和运行器共有的概念。

查找所有可用 Beam SDK 的状态和参考信息。

Beam 的转换目录包含 Beam 内置转换的说明和代码片段。

Beam 运行器在特定（通常是分布式）数据处理系统上运行 Beam 管道。

在您的机器上本地运行 - 很适合开发、测试和调试。

在您的机器上本地运行 - 很适合开发、测试和调试。

在 Apache Flink 上运行。

在 Apache Spark 上运行。

在 Google Cloud Dataflow 上运行，这是 Google Cloud Platform 中的完全托管服务。

在 Apache Samza 上运行。

Beam 旨在使管道能够跨不同运行器移植。但是，考虑到每个运行器都有不同的功能，它们在实现 Beam 模型中的核心概念方面也有不同的能力。功能矩阵提供了运行器功能的详细比较。

选择要使用的运行器后，请查看该运行器的页面以获取有关任何初始运行器特定设置以及任何必需或可选的 PipelineOptions（用于配置其执行）的更多信息。您可能还想参考 Java、Python 或 Go 的快速入门，以获取有关执行示例 WordCount 管道的说明。

最后更新于 2024/10/31

所有内容都有用且清晰吗？您想更改任何内容吗？请告诉我们！