Apache Beam 概述

Apache Beam 是一款开源的、统一的模型，用于定义批处理和流式数据并行处理管道。使用一个开源 Beam SDK，您可以构建一个定义管道的程序。然后，管道由 Beam 支持的 分布式处理后端之一执行，包括 Apache Flink、Apache Spark 和 Google Cloud Dataflow。

Beam 特别适用于容易并行化的数据处理任务，其中问题可以分解成许多可以独立并行处理的较小数据包。您还可以使用 Beam 进行提取、转换和加载 (ETL) 任务以及纯数据集成。这些任务对于在不同存储介质和数据源之间移动数据、将数据转换为更理想的格式或将数据加载到新系统非常有用。

Apache Beam SDK

Beam SDK 提供了一个统一的编程模型，可以表示和转换任何大小的数据集，无论输入是来自批处理数据源的有限数据集，还是来自流式数据源的无限数据集。Beam SDK 使用相同的类来表示有界和无界数据，以及相同的转换来对这些数据进行操作。您可以使用您选择的 Beam SDK 来构建一个定义数据处理管道的程序。

Beam 目前支持以下语言特定的 SDK