Java 变换目录概述

元素级

变换描述
Filter给定一个谓词,过滤掉所有不满足谓词的元素。
FlatMapElements对输入中的每个元素应用一个返回集合的函数,并输出所有结果元素。
Keys从键值对集合中每个元素中提取键。
KvSwap交换键值对集合中每个元素的键和值。
MapElements对输入中的每个元素应用一个函数,并输出结果。
ParDo对输入集合中的每个元素应用用户定义的 DoFn 的最通用机制。
Partition根据某个分区函数将每个输入元素路由到特定输出集合。
Regex根据正则表达式过滤输入字符串元素。还可以根据匹配组对其进行转换。
Reify用于在各种 Beam 值的显式和隐式形式之间转换的变换。
ToString将输入集合中的每个元素转换为字符串。
WithKeys通过对输入元素应用函数,从输入集合中每个元素创建一个包含选定键的键值对的集合。
WithTimestamps应用一个函数为输出集合中的每个元素确定时间戳,并更新与每个输入关联的隐式时间戳。请注意,仅调整时间戳向前是安全的。
Values从键值对集合中每个元素中提取值。

聚合

变换描述
ApproximateQuantiles使用近似算法使用指定数量的分位数来估计每个聚合内的数据分布。
ApproximateUnique使用近似算法来估计每个聚合中唯一元素的数量。
CoGroupByKey类似于 GroupByKey,但将与每个键关联的值分组到给定大小的批次中
Combine根据提供的 CombineFn 合并元素的变换。
CombineWithContextCombine 的扩展版本,允许访问侧输入和其他上下文。
Count计算每个聚合中元素的数量。
Distinct生成一个包含输入集合中不同元素的集合。
GroupByKey接受元素的键控集合,并生成一个集合,其中每个元素由一个键和与该键关联的所有值组成。
GroupIntoBatches将与键关联的值批处理到某个大小的 Iterable 批次中。每个批次包含与特定键关联的元素。
HllCount估计不同元素的数量,并使用 HyperLogLog++ 算法创建可重新聚合的草图。
Latest根据隐式时间戳选择每个聚合中最新的元素。
Max输出每个聚合中的最大元素。
Mean计算每个聚合内的平均值。
Min输出每个聚合中的最小元素。
Sample从每个聚合中随机选择一些元素。
Sum计算每个聚合中元素的总和。
Top计算每个聚合中的最大元素。

其他

变换描述
Create从内存中列表创建集合。
Flatten给定多个输入集合,生成一个包含所有输入集合中所有元素的单个输出集合。
PAssert用于断言在本地或使用运行器测试管道时用作管道测试一部分的 PCollection 的内容的变换。
View用于将集合转换为视图的操作,该视图可以用作 ParDo 的侧输入。
Window根据提供的 WindowFn 将集合的元素逻辑地划分为有限的窗口。