Apache Beam 文档
此页面提供指向 Beam 编程模型、SDK 和运行器的概念信息和参考材料的链接。
概念
了解 Beam 编程模型以及所有 Beam SDK 和运行器共有的概念。
- 从 Beam 模型基础 开始,获取介绍性概念信息。
- 阅读 编程指南,其中包含有关 Beam 概念的更详细的信息,并提供代码片段。
- 了解 Beam 的 执行模型 以更好地了解管道如何执行。
- 访问 学习资源 以获取我们最喜欢的关于 Beam 的文章和演讲。
- 参考 词汇表 以了解 Beam 编程模型的术语。
管道基础
SDK
查找所有可用 Beam SDK 的状态和参考信息。
转换目录
Beam 的转换目录包含 Beam 内置转换的说明和代码片段。
运行器
Beam 运行器在特定(通常是分布式)数据处理系统上运行 Beam 管道。
可用运行器
DirectRunner
在您的机器上本地运行 - 很适合开发、测试和调试。
PrismRunner
在您的机器上本地运行 - 很适合开发、测试和调试。
FlinkRunner
在 Apache Flink 上运行。
SparkRunner
在 Apache Spark 上运行。
DataflowRunner
在 Google Cloud Dataflow 上运行,这是 Google Cloud Platform 中的完全托管服务。
SamzaRunner
在 Apache Samza 上运行。
- JetRunner: 在 Hazelcast Jet 上运行。
- Twister2Runner: 在 Twister2 上运行。
选择运行器
Beam 旨在使管道能够跨不同运行器移植。但是,考虑到每个运行器都有不同的功能,它们在实现 Beam 模型中的核心概念方面也有不同的能力。 功能矩阵 提供了运行器功能的详细比较。
选择要使用的运行器后,请查看该运行器的页面以获取有关任何初始运行器特定设置以及任何必需或可选的 PipelineOptions
(用于配置其执行)的更多信息。您可能还想参考 Java、Python 或 Go 的快速入门,以获取有关执行示例 WordCount 管道的说明。
最后更新于 2024/10/31
您是否找到了您要找的一切?
所有内容都有用且清晰吗?您想更改任何内容吗?请告诉我们!