Apache Beam:孵化六个月

Apache Beam 正式加入 Apache 软件基金会孵化器已经六个多月了。作为社区,我们一直在努力使 Beam 起步。

仅从前六个月的原始数据来看,我们:

  • 从 Cloudera、dataArtisans 和 Google 捐赠了 48,238 行预先存在的代码。
  • 来自 45 位贡献者的 761 个拉取请求。
  • 打开了 498 个 Jira 问题,并解决了 245 个问题。
  • 1 个孵化版本(另一个正在进行中)。
  • 4,200 小时的自动化测试。
  • user@ 上有 161 位订阅者/606 条消息。
  • dev@ 上有 217 位订阅者/1205 条消息。
  • GitHub 上有 277 个星标和 174 个分支。

在这些数字背后,我们取得了大量的技术进步,包括:

  • 重构整个代码库、示例和测试,使其真正独立于运行器。
  • Apache Flink 运行器中的新功能,用于批处理和有界源中的时间戳/窗口,以及流模式中的侧输入。
  • 正在进行的工作是将 Apache Spark 运行器升级到使用 Spark 2.0。
  • 来自更广泛的 Apache 社区的几个新的运行器 - Apache Gearpump 有自己的功能分支,Apache Apex 有一个 PR,并且关于 Apache Storm 等的对话正在开始。
  • 用于公开 Beam 模型的新 SDK/DSL - 来自 Google 的 Python SDK 在一个功能分支上,并且计划添加来自 Spotify 的 Scio DSL。
  • 对更多数据源和接收器进行支持 - Apache Kafka 和 JMS 已存在,有针对 Amazon Kinesis、Apache Cassandra 和 MongoDB 的 PR,并且正在计划更多连接器。

但也许最重要的是,我们致力于建立一个积极参与、热情好客的社区。到目前为止,我们:

  • 开始建立一个充满活力的开发者社区,对 DoFn 重用语义、序列化技术以及用于访问状态的 API 等功能进行详细的设计讨论。
  • 开始建立一个用户社区,拥有一个活跃的邮件列表,并改进网站和文档。
  • 在包括 ApacheCon、Hadoop Summit、Kafka Summit、JBCN Barcelona 和 Strata 在内的多个场所进行了关于 Beam 的多次演讲。
  • 在多个现有聚会上进行了展示,并且正在开始组织一些我们自己的聚会。

回顾我们所做的一切固然很好,但我们正在全力以赴,朝着稳定发布和从孵化器毕业的目标前进。我们希望得到你的帮助 - 加入 邮件列表,查看 贡献指南,并从 Jira 中获取一个 新手任务