博客 & 发布
2024/02/14
Apache Beam 2.54.0
我们很高兴推出 Beam 的新版本 2.54.0。此版本包含改进和新功能。请参阅此版本的下载页面。
有关 2.54.0 中更改的更多信息,请查看详细的发布说明。
亮点
- Enrichment 变换 以及 GCP BigTable 处理程序已添加到 Python SDK (#30001).
- 从这个版本开始,在 Google Cloud Dataflow 上运行的 Beam Java 批量管道将默认使用可移植运行器 (v2)。(所有其他语言已在 Runner V2 上。)请参阅Runner V2 文档了解如何有意启用或禁用它。
I/Os
- 添加了对使用 Python 的 Storage Write API 将数据写入 BigQuery 动态目标的支持 (#30045)
- 在 ClickHouse (Java) 中添加了对元组数据类型的支持 (#29715).
- 添加了对 FileIO、TextIO、AvroIO 处理错误记录的支持 (#29670).
- 添加了对处理 BigtableIO 错误记录的支持 (#29885).
新功能/改进
- Enrichment 变换 以及 GCP BigTable 处理程序已添加到 Python SDK (#30001).
重大更改
- N/A
弃用
- N/A
错误修复
- 修复了自 2.46.0 以来影响某些 Go SDK 的内存泄漏。(#28142)
安全修复
- N/A
已知问题
- 使用 2.52.0-2.54.0 SDK 运行并使用大型物化侧输入的一些 Python 管道可能会受到性能回归的影响。要在这些 SDK 版本上恢复先前的行为,请提供
--max_cache_memory_usage_mb=0
管道选项。(#30360). - 使用 2.53.0-2.54.0 SDK 运行并在 GCS 上执行文件操作的 Python 管道可能会受到过多的 HTTP 请求的影响。这会导致性能下降或权限问题。(#28398)
- 在 Python 管道中,当关闭非活动捆绑处理器时,关闭逻辑可能会过分地持有锁,阻止接受新工作。此问题的症状包括长时间运行的作业变慢或卡住。在 2.56.0 中修复 (#30679).
- 使用 2.53.0-2.58.0 SDK 运行并从 GCS 读取数据的 Python 管道可能会受到数据损坏问题的影响 (#32169)。此问题将在 2.59.0 中修复 (#32135)。为了解决此问题,请将 google-cloud-storage 包更新到 2.18.2 或更高版本。
有关最新已知问题的列表,请参阅https://github.com/apache/beam/blob/master/CHANGES.md
贡献者列表
根据 git shortlog,以下人员为 2.54.0 版本做出了贡献。感谢所有贡献者!
Ahmed Abualsaud
Alexey Romanenko
Anand Inguva
Andrew Crites
Arun Pandian
Bruno Volpato
caneff
Chamikara Jayalath
Changyu Li
Cheskel Twersky
Claire McGinty
clmccart
Damon
Danny McCormick
dependabot[bot]
Edward Cheng
Ferran Fernández Garrido
Hai Joey Tran
hugo-syn
Issac
Jack McCluskey
Jan Lukavský
JayajP
Jeffrey Kinard
Jerry Wang
Jing
Joey Tran
johnjcasey
Kenneth Knowles
Knut Olav Løite
liferoad
Marc
Mark Zitnik
martin trieu
Mattie Fu
Naireen Hussain
Neeraj Bansal
Niel Markwick
Oleh Borysevych
pablo rodriguez defino
Rebecca Szper
Ritesh Ghorse
Robert Bradshaw
Robert Burke
Sam Whittle
Shunping Huang
Svetak Sundhar
S. Veyrié
Talat UYARER
tvalentyn
Vlado Djerek
Yi Hu
Zechen Jian