Beam 和更新
2016/10/11
Strata+Hadoop 世界和 Beam
Tyler Akidau 和我在 2016 年的 Strata+Hadoop 世界大会上举办了关于 Apache Beam 的 三小时教程。我们得到了助教们的大力帮助:Kenn Knowles、Reuven Lax、Felipe Hoffa、Slava Chernyak 和 Jamie Grier。总共有 66 人参加了此次会议。

如果你想看看教程资料,我们已经把它发布在 GitHub 上。这包括 实际的幻灯片 以及我们所涵盖的 练习。如果你想了解 Beam,这是一个不错的起点。这些练习基于一个虚构的手机游戏,需要对数据进行处理,并且基于 Beam 示例目录 中的代码。代码中有一些 TODO,你需要填写代码,或者有完整的示例解决方案可以查看我们的代码。你可以自己运行这些示例,或者使用 Beam 支持的运行器在集群上运行。
我想分享我在大会上关于 Beam 的一些想法。
数据工程师正在将 Beam 视为一种 未来证明 的方式,这意味着代码可以在各种大数据框架之间移植。事实上,许多与会者仍在使用 Hadoop MapReduce,并希望迁移到一个新的框架。他们意识到不断地重写代码并不是最有效的方法。
数据科学家对使用 Beam 很感兴趣。他们希望使用单个 API 进行分析,而不是多个不同的 API。我们讨论了 Beam 在 Python API 上的进展。如果你想看一看,它正在 功能分支 上积极开发中。随着 Beam 的成熟,我们计划添加其他支持的语言。
我们从 Beam 用户那里 明确地听到,优秀的运行器支持对于采用至关重要。我们有很棒的 Apache Flink 支持。在大会期间,我们又有一些志愿者为 Spark 运行器贡献了帮助。
在管理层和思想领袖方面,Beam 从之前的会议上的“什么是 Beam?”变成了此次会议上的“我对 Beam 感兴趣。”或“我已经对 Beam 形成了一些看法。”。这是我在早期技术采用中寻找的指标之一。

我们通过 Beam 在 Apache Spark、Apache Flink、本地运行器和 DataFlow 运行器上的实时演示来结束教程。然后,我们邀请了专家参与,进行了一个问答环节。
如果你参加了某个会议,我们鼓励你寻找 Beam 会议。如果你想使用这些材料进行你自己的 Beam 演讲或教程,我们很乐意帮助你。除了这个教程,我们还有 其他演示材料。你可以在 用户邮件列表 上联系我们。