Apache Beam 2.53.0

我们很高兴推出 Beam 的新版本 2.53.0。此版本包含改进和新功能。请访问 下载页面 获取此版本。

有关 2.53.0 中更改的更多信息,请查看 详细的发布说明

亮点

  • 使用 2.47.0 及更高版本的 Beam 的 Python 流式用户应更新到 2.53.0 版,该版本修复了已知问题:(#27330).

I/O

  • TextIO 现在支持跳过多个标题行 (Java) (#17990).
  • Python GCSIO 现在使用 GCP GCS 客户端而不是 apitools 实现 (#25676)
  • 在 ClickHouse 中添加对低基数数据类型的支持 (Java) (#29533).
  • 添加了对 KafkaIO 处理错误记录的支持 (Java) (#29546)
  • 添加了对在 MLTransform 中为 Vertex AI 和 Hugging Face Hub 模型生成文本嵌入的支持。(#29564)
  • 添加了 NATS IO 连接器 (Go) (#29000).

新功能/改进

  • Python SDK 现在正确地对 collections.abc.Collections 类型进行类型检查。SDK 错误地允许的一些类型提示现在可能会失败。(#29272)
  • 在本地运行多语言管道不再需要 Docker。相反,用于执行扩展的相同(通常是自动启动的)子进程也可以用作跨语言工作器。
  • 在 Java 中添加了用于向复合转换添加错误处理程序的框架 (#29164).
  • Python 3.11 镜像现在包含 google-cloud-profiler (#29561).

弃用

  • Euphoria DSL 已弃用,将在未来版本中移除(不会早于 2.56.0)(#29451)

错误修复

  • (Python)修复了影响 2.47.0 及更高版本的 SDK 的某些用户的一些流式管道中的零星崩溃 (#27330).
  • (Python)修复了导致 MLTransform 在输出 PCollection 中删除相同元素的错误 (#29600).

安全修复

已知问题

  • 潜在的竞争条件导致 Dataflow Java 流式管道中的 DataflowExecutionStateSampler 出现 NPE (#29987).
  • 使用 2.52.0-2.54.0 SDK 且使用大型物化侧输入的一些 Python 管道可能会受到性能下降的影响。为了在这些 SDK 版本上恢复先前的行为,请提供 --max_cache_memory_usage_mb=0 管道选项。(#30360)。
  • 使用 2.53.0-2.54.0 SDK 并在 GCS 上执行文件操作的 Python 管道可能会受到过多的 HTTP 请求的影响。这可能会导致性能下降或权限问题。(#28398)
  • 在 Python 管道中,当关闭非活动捆绑处理器时,关闭逻辑可能会过度积极地持有锁,从而阻止接受新的工作。此问题的症状包括长时间运行的作业速度变慢或卡住。在 2.56.0 中修复 (#30679).
  • 使用 2.53.0-2.58.0 SDK 从 GCS 读取数据的 Python 管道可能会受到数据损坏问题的影响 (#32169)。该问题将在 2.59.0 中修复 (#32135)。为了解决此问题,请将 google-cloud-storage 包更新到 2.18.2 或更高版本。

有关最新已知问题的列表,请访问 https://github.com/apache/beam/blob/master/CHANGES.md

贡献者列表

根据 git shortlog,以下人员为 2.53.0 版本做出了贡献。感谢所有贡献者!

Ahmed Abualsaud

Ahmet Altay

Alexey Romanenko

Anand Inguva

Arun Pandian

Balázs Németh

Bruno Volpato

Byron Ellis

Calvin Swenson Jr

Chamikara Jayalath

Clay Johnson

Damon

Danny McCormick

Ferran Fernández Garrido

Georgii Zemlianyi

Israel Herraiz

Jack McCluskey

Jacob Tomlinson

Jan Lukavský

JayajP

Jeffrey Kinard

Johanna Öjeling

Julian Braha

Julien Tournay

Kenneth Knowles

Lawrence Qiu

Mark Zitnik

Mattie Fu

Michel Davit

Mike Williamson

Naireen

Naireen Hussain

Niel Markwick

Pablo Estrada

Radosław Stankiewicz

Rebecca Szper

Reuven Lax

Ritesh Ghorse

Robert Bradshaw

Robert Burke

Sam Rohde

Sam Whittle

Shunping Huang

Svetak Sundhar

Talat UYARER

Tom Stepp

Tony Tang

Vlado Djerek

Yi Hu

Zechen Jiang

clmccart

damccorm

darshan-sj

gabry.wu

johnjcasey

liferoad

lrakla

martin trieu

tvalentyn