Apache Beam Python SDK

Apache Beam 的 Python SDK 提供了一个简单而强大的 API,用于构建批处理和流数据处理管道。

开始使用 Python SDK

开始使用 Beam Python SDK 快速入门 设置您的 Python 开发环境,获取 Beam SDK for Python 以及运行示例管道。然后,阅读 Beam 编程指南 以了解适用于 Beam 中所有 SDK 的基本概念。

有关各个 API 的更多信息,请参阅 Python API 参考

Python 流管道

Python 流管道执行 从 Beam SDK 版本 2.5.0 开始可用(存在一些 限制)。

Python 类型安全

Python 是一种动态类型语言,没有静态类型检查。Beam SDK for Python 在管道构建和运行时使用类型提示,试图模拟通过真正的静态类型化实现的正确性保证。确保 Python 类型安全 演示了如何使用类型提示,这将帮助您使用 Direct Runner 在前面捕获潜在的错误。

管理 Python 管道依赖项

当您在本地运行管道时,您的管道依赖的包是可用的,因为它们已安装在您的本地机器上。但是,当您想要在远程运行管道时,必须确保这些依赖项在远程机器上可用。管理 Python 管道依赖项 向您展示了如何让您的依赖项对远程工作程序可用。

为 Python 开发新的 I/O 连接器

Beam SDK for Python 提供了一个可扩展的 API,您可以使用它来创建新的 I/O 连接器。有关开发新的 I/O 连接器以及指向特定于语言的实现指南的链接,请参阅 开发 I/O 连接器概述

使用 Python 进行机器学习推断

要将机器学习模型集成到您的管道中以进行推断,请使用 RunInference API 用于 PyTorch 和 Scikit-learn 模型。如果您使用的是 TensorFlow 模型,您可以使用来自 tfx_bsl

您可以使用 RunInference API 创建多种类型的转换:API 从模型处理程序获取多种类型的设置参数,并且参数类型决定模型实现。有关更多信息,请参阅 关于 Beam ML

TensorFlow Extended (TFX) 是一个用于部署生产 ML 管道的端到端平台。TFX 与 Beam 集成。有关更多信息,请参阅 TFX 用户指南

Python 多语言管道快速入门

Apache Beam 允许您将用任何支持的 SDK 语言编写的转换组合起来,并在一个多语言管道中使用它们。要了解如何使用 Python SDK 创建多语言管道,请参阅 Python 多语言管道快速入门

Beam Python 中的不可恢复错误

在工作程序启动期间可能会发生一些常见错误,并阻止作业启动。要了解这些错误以及如何在 Python SDK 中对其进行故障排除,请参阅 Beam Python 中的不可恢复错误