Apache Beam 文档

此页面提供指向 Beam 编程模型、SDK 和运行器的概念信息和参考材料的链接。

概念

了解 Beam 编程模型以及所有 Beam SDK 和运行器共有的概念。

管道基础

SDK

查找所有可用 Beam SDK 的状态和参考信息。

转换目录

Beam 的转换目录包含 Beam 内置转换的说明和代码片段。

运行器

Beam 运行器在特定(通常是分布式)数据处理系统上运行 Beam 管道。

可用运行器

DirectRunner

在您的机器上本地运行 - 很适合开发、测试和调试。

PrismRunner

在您的机器上本地运行 - 很适合开发、测试和调试。

FlinkRunner

Apache Flink 上运行。

SparkRunner

Apache Spark 上运行。

DataflowRunner

Google Cloud Dataflow 上运行,这是 Google Cloud Platform 中的完全托管服务。

SamzaRunner

Apache Samza 上运行。

选择运行器

Beam 旨在使管道能够跨不同运行器移植。但是,考虑到每个运行器都有不同的功能,它们在实现 Beam 模型中的核心概念方面也有不同的能力。 功能矩阵 提供了运行器功能的详细比较。

选择要使用的运行器后,请查看该运行器的页面以获取有关任何初始运行器特定设置以及任何必需或可选的 PipelineOptions(用于配置其执行)的更多信息。您可能还想参考 JavaPythonGo 的快速入门,以获取有关执行示例 WordCount 管道的说明。