Apache Beam 2.13.0

我们很高兴推出 Beam 的新版本 2.13.0。此版本包括改进和新功能。请参见 下载页面 以获取此版本的更多信息。

有关 2.13.0 中更改的更多信息,请查看 详细的发布说明

亮点

I/Os

  • 支持使用 BigQuery 存储 API 读取查询结果。
  • 支持 KafkaIO 在外部配置,以便与其他 SDK 一起使用。
  • BigQuery IO 现在支持 Python 3 上的 BYTES 数据类型。
  • Avro IO 支持在 Python 3 上启用。
  • 对于 Python 3 管道,Beam AvroIO 和 Dataflow 工作器使用的默认 Avro 库已从 avro-python3 切换到 fastavro。

新功能/改进

  • 添加了 Flink 1.8 支持。
  • 支持在 Portable Spark 运行器上运行词频统计。
  • FnApi Dataflow 运行器中的元素计数指标。
  • 支持从 lambda 函数创建 BinaryCombineFn。

重大变更

  • 在 Python DirectRunner 上使用 Beam Bigquery IO 将 BYTES 数据类型写入 Bigquery 时,用户需要在将字节值传递给 Bigquery IO 之前对其进行 base64 编码。相应地,从 BigQuery 读取字节数据时,IO 也会返回 base64 编码的字节。此更改仅影响 Python DirectRunner 上的 Bigquery IO。新的 DirectRunner 行为与 Beam Java Bigquery IO 和 Python Dataflow 运行器对字节的处理方式一致。

错误修复

  • 各种错误修复和性能改进。

贡献者列表

根据 git shortlog,以下人员为 2.13.0 版本做出了贡献。感谢所有贡献者!

Aaron Li, Ahmet Altay, Aizhamal Nurmamat kyzy, Alex Amato, Alexey Romanenko, Andrew Pilloud, Ankur Goenka, Anton Kedin, apstndb, Boyuan Zhang, Brian Hulette, Brian Quinlan, Chamikara Jayalath, Cyrus Maden, Daniel Chen, Daniel Oliveira, David Cavazos, David Moravek, David Yan, EdgarLGB, Etienne Chauchot, frederik2, Gleb Kanterov, Harshit Dwivedi, Harsh Vardhan, Heejong Lee, Hennadiy Leontyev, Henri-Mayeul de Benque, Ismaël Mejía, Jae-woo Kim, Jamie Kirkpatrick, Jan Lukavský, Jason Kuster, Jean-Baptiste Onofré, JohnZZGithub, Jozef Vilcek, Juta, Kenneth Jung, Kenneth Knowles, Kyle Weaver, Łukasz Gajowy, Luke Cwik, Mark Liu, Mathieu Blanchard, Maximilian Michels, Melissa Pashniak, Michael Luckey, Michal Walenia, Mike Kaplinskiy, Mike Pedersen, Mikhail Gryzykhin, Mikhail-Ivanov, Niklas Hansson, pabloem, Pablo Estrada, Pranay Nanda, Reuven Lax, Richard Moorhead, Robbe Sneyders, Robert Bradshaw, Robert Burke, Roman van der Krogt, rosetn, Rui Wang, Ryan Yuan, Sam Whittle, sudhan499, Sylwester Kardziejonek, Ted, Thomas Weise, Tim Robertson, ttanay, tvalentyn, Udi Meiri, Valentyn Tymofieiev, Xinyu Liu, Yifan Zou, yoshiki.obata, Yueyang Qiu