Strata+Hadoop 世界和 Beam

Beam 和更新

2016/10/11

Strata+Hadoop 世界和 Beam

Tyler Akidau 和我在 2016 年的 Strata+Hadoop 世界大会上举办了关于 Apache Beam 的三小时教程。我们得到了助教们的大力帮助：Kenn Knowles、Reuven Lax、Felipe Hoffa、Slava Chernyak 和 Jamie Grier。总共有 66 人参加了此次会议。

如果你想看看教程资料，我们已经把它发布在 GitHub 上。这包括实际的幻灯片以及我们所涵盖的练习。如果你想了解 Beam，这是一个不错的起点。这些练习基于一个虚构的手机游戏，需要对数据进行处理，并且基于 Beam 示例目录中的代码。代码中有一些 TODO，你需要填写代码，或者有完整的示例解决方案可以查看我们的代码。你可以自己运行这些示例，或者使用 Beam 支持的运行器在集群上运行。

我想分享我在大会上关于 Beam 的一些想法。

数据工程师正在将 Beam 视为一种未来证明的方式，这意味着代码可以在各种大数据框架之间移植。事实上，许多与会者仍在使用 Hadoop MapReduce，并希望迁移到一个新的框架。他们意识到不断地重写代码并不是最有效的方法。

数据科学家对使用 Beam 很感兴趣。他们希望使用单个 API 进行分析，而不是多个不同的 API。我们讨论了 Beam 在 Python API 上的进展。如果你想看一看，它正在功能分支上积极开发中。随着 Beam 的成熟，我们计划添加其他支持的语言。

我们从 Beam 用户那里明确地听到，优秀的运行器支持对于采用至关重要。我们有很棒的 Apache Flink 支持。在大会期间，我们又有一些志愿者为 Spark 运行器贡献了帮助。

在管理层和思想领袖方面，Beam 从之前的会议上的“什么是 Beam？”变成了此次会议上的“我对 Beam 感兴趣。”或“我已经对 Beam 形成了一些看法。”。这是我在早期技术采用中寻找的指标之一。

我们通过 Beam 在 Apache Spark、Apache Flink、本地运行器和 DataFlow 运行器上的实时演示来结束教程。然后，我们邀请了专家参与，进行了一个问答环节。

如果你参加了某个会议，我们鼓励你寻找 Beam 会议。如果你想使用这些材料进行你自己的 Beam 演讲或教程，我们很乐意帮助你。除了这个教程，我们还有其他演示材料。你可以在用户邮件列表上联系我们。

博客最新消息