Beam 交互式概述
在这里您可以找到可用于 Apache Beam 的交互式笔记本的集合,这些笔记本托管在 Colab 中。笔记本允许您与代码进行交互式操作,并查看您的更改如何影响管道。您无需安装任何内容或以任何方式修改您的计算机即可使用这些笔记本。
您也可以 尝试 Apache Beam 管道,使用 Java、Python 和 Go SDK。
入门
学习基础知识
在本笔记本中,我们将介绍 Apache Beam 的基础知识以及如何入门。我们将学习什么是数据管道、PCollection、PTransform,以及一些基本转换,例如 Map
、FlatMap
、Filter
、Combine
和 GroupByKey
。
在 Colab 中运行 |
读取和写入数据
在本笔记本中,我们将介绍一些有关如何将数据读入和写出不同数据格式的示例。我们将介绍内置的 ReadFromText
和 WriteToText
转换。我们还将了解如何从 CSV 文件中读取数据、从 SQLite 数据库中读取数据、写入固定大小的元素批次以及写入元素窗口。
在 Colab 中运行 |
窗口化
在本笔记本中,我们将介绍如何根据时间间隔(或在流式管道中)聚合数据。我们将介绍 GlobalWindow
、FixedWindows
、SlidingWindows
和 Sessions
。
在 Colab 中运行 |
DataFrames
Beam DataFrames 提供类似 pandas 的 DataFrame API 来声明 Beam 管道。要了解更多关于 Beam DataFrames 的信息,请查看 Beam DataFrames 概述 页面。
在 Colab 中运行 |
转换
查看 Python 转换目录 以获取可用转换的完整列表。
元素级转换
映射
对集合中的每个元素应用一个简单的单对单映射函数。
在 Colab 中运行 |
扁平映射
对集合中的每个元素应用一个简单的单对多映射函数。多个元素会扁平化为结果集合。
在 Colab 中运行 |
筛选
给定一个谓词,过滤掉所有不满足该谓词的元素。
在 Colab 中运行 |
分区
将集合中的元素分成多个输出集合。
在 Colab 中运行 |
ParDo
用于通用并行处理的转换。建议在可能的情况下使用 Map
、FlatMap
、Filter
或其他更具体的转换。
在 Colab 中运行 |
最后更新时间:2024/10/31
您是否找到了您要查找的所有内容?
所有内容是否有用且清晰?您想更改任何内容吗?请告诉我们!