Apache Beam 2.54.0

我们很高兴推出 Beam 的新版本 2.54.0。此版本包含改进和新功能。请参阅此版本的下载页面

有关 2.54.0 中更改的更多信息,请查看详细的发布说明

亮点

  • Enrichment 变换 以及 GCP BigTable 处理程序已添加到 Python SDK (#30001).
  • 从这个版本开始,在 Google Cloud Dataflow 上运行的 Beam Java 批量管道将默认使用可移植运行器 (v2)。(所有其他语言已在 Runner V2 上。)请参阅Runner V2 文档了解如何有意启用或禁用它。

I/Os

  • 添加了对使用 Python 的 Storage Write API 将数据写入 BigQuery 动态目标的支持 (#30045)
  • 在 ClickHouse (Java) 中添加了对元组数据类型的支持 (#29715).
  • 添加了对 FileIO、TextIO、AvroIO 处理错误记录的支持 (#29670).
  • 添加了对处理 BigtableIO 错误记录的支持 (#29885).

新功能/改进

重大更改

  • N/A

弃用

  • N/A

错误修复

  • 修复了自 2.46.0 以来影响某些 Go SDK 的内存泄漏。(#28142)

安全修复

  • N/A

已知问题

  • 使用 2.52.0-2.54.0 SDK 运行并使用大型物化侧输入的一些 Python 管道可能会受到性能回归的影响。要在这些 SDK 版本上恢复先前的行为,请提供 --max_cache_memory_usage_mb=0 管道选项。(#30360).
  • 使用 2.53.0-2.54.0 SDK 运行并在 GCS 上执行文件操作的 Python 管道可能会受到过多的 HTTP 请求的影响。这会导致性能下降或权限问题。(#28398)
  • 在 Python 管道中,当关闭非活动捆绑处理器时,关闭逻辑可能会过分地持有锁,阻止接受新工作。此问题的症状包括长时间运行的作业变慢或卡住。在 2.56.0 中修复 (#30679).
  • 使用 2.53.0-2.58.0 SDK 运行并从 GCS 读取数据的 Python 管道可能会受到数据损坏问题的影响 (#32169)。此问题将在 2.59.0 中修复 (#32135)。为了解决此问题,请将 google-cloud-storage 包更新到 2.18.2 或更高版本。

有关最新已知问题的列表,请参阅https://github.com/apache/beam/blob/master/CHANGES.md

贡献者列表

根据 git shortlog,以下人员为 2.54.0 版本做出了贡献。感谢所有贡献者!

Ahmed Abualsaud

Alexey Romanenko

Anand Inguva

Andrew Crites

Arun Pandian

Bruno Volpato

caneff

Chamikara Jayalath

Changyu Li

Cheskel Twersky

Claire McGinty

clmccart

Damon

Danny McCormick

dependabot[bot]

Edward Cheng

Ferran Fernández Garrido

Hai Joey Tran

hugo-syn

Issac

Jack McCluskey

Jan Lukavský

JayajP

Jeffrey Kinard

Jerry Wang

Jing

Joey Tran

johnjcasey

Kenneth Knowles

Knut Olav Løite

liferoad

Marc

Mark Zitnik

martin trieu

Mattie Fu

Naireen Hussain

Neeraj Bansal

Niel Markwick

Oleh Borysevych

pablo rodriguez defino

Rebecca Szper

Ritesh Ghorse

Robert Bradshaw

Robert Burke

Sam Whittle

Shunping Huang

Svetak Sundhar

S. Veyrié

Talat UYARER

tvalentyn

Vlado Djerek

Yi Hu

Zechen Jian