ParDo

Pydoc Pydoc




用于通用并行处理的转换。ParDo 转换会考虑输入PCollection 中的每个元素,对该元素执行一些处理函数(您的用户代码),并将零个或多个元素输出到输出PCollection

请参阅 Beam 编程指南 中的更多信息。

示例

在以下示例中,我们将探讨如何创建自定义DoFn 并访问时间戳和窗口信息。

示例 1:使用简单 DoFn 的 ParDo

以下示例定义了一个名为SplitWords 的简单DoFn 类,它将delimiter 存储为对象字段。process 方法对每个元素调用一次,它可以生成零个或多个输出元素。

示例 2:使用时间戳和窗口信息的 ParDo

在此示例中,我们在process 方法中添加了新参数以在运行时绑定参数值。

示例 3:使用 DoFn 方法的 ParDo

DoFn 可以使用多种方法进行自定义,这些方法可以帮助创建更复杂的行为。您可以使用setupteardown 自定义工作器启动和关闭时执行的操作。您还可以使用start_bundlefinish_bundle 自定义在 元素捆绑包 启动和结束时执行的操作。

已知问题

Pydoc Pydoc