Beam 交互式概述

在这里您可以找到可用于 Apache Beam 的交互式笔记本的集合,这些笔记本托管在 Colab 中。笔记本允许您与代码进行交互式操作,并查看您的更改如何影响管道。您无需安装任何内容或以任何方式修改您的计算机即可使用这些笔记本。

您也可以 尝试 Apache Beam 管道,使用 Java、Python 和 Go SDK。

入门

学习基础知识

在本笔记本中,我们将介绍 Apache Beam 的基础知识以及如何入门。我们将学习什么是数据管道、PCollection、PTransform,以及一些基本转换,例如 MapFlatMapFilterCombineGroupByKey

在 Colab 中运行 在 Colab 中运行





读取和写入数据

在本笔记本中,我们将介绍一些有关如何将数据读入和写出不同数据格式的示例。我们将介绍内置的 ReadFromTextWriteToText 转换。我们还将了解如何从 CSV 文件中读取数据、从 SQLite 数据库中读取数据、写入固定大小的元素批次以及写入元素窗口。

在 Colab 中运行 在 Colab 中运行





窗口化

在本笔记本中,我们将介绍如何根据时间间隔(或在流式管道中)聚合数据。我们将介绍 GlobalWindowFixedWindowsSlidingWindowsSessions

在 Colab 中运行 在 Colab 中运行





DataFrames

Beam DataFrames 提供类似 pandas 的 DataFrame API 来声明 Beam 管道。要了解更多关于 Beam DataFrames 的信息,请查看 Beam DataFrames 概述 页面。

在 Colab 中运行 在 Colab 中运行





转换

查看 Python 转换目录 以获取可用转换的完整列表。

元素级转换

映射

对集合中的每个元素应用一个简单的单对单映射函数。

在 Colab 中运行 在 Colab 中运行





扁平映射

对集合中的每个元素应用一个简单的单对多映射函数。多个元素会扁平化为结果集合。

在 Colab 中运行 在 Colab 中运行





筛选

给定一个谓词,过滤掉所有不满足该谓词的元素。

在 Colab 中运行 在 Colab 中运行





分区

将集合中的元素分成多个输出集合。

在 Colab 中运行 在 Colab 中运行





ParDo

用于通用并行处理的转换。建议在可能的情况下使用 MapFlatMapFilter 或其他更具体的转换。

在 Colab 中运行 在 Colab 中运行