Python 变换目录概述

逐元素

变换描述
丰富使用远程服务执行数据丰富。
过滤器给定一个谓词,过滤掉所有不满足谓词的元素。
FlatMap将返回集合的函数应用于输入中的每个元素,并输出所有生成的元素。
从键值对集合中提取每个元素的键。
KvSwap交换键值对集合中每个元素的键和值。
映射将函数应用于输入中的每个元素,并输出结果。
MLTransform将数据处理变换应用于数据集。
ParDo对输入集合中的每个元素应用用户定义的 DoFn 的最通用机制。
Partition根据一些分区函数将每个输入元素路由到特定输出集合。
正则表达式根据正则表达式过滤输入字符串元素。也可以根据匹配组对它们进行转换。
Reify用于在各种 Beam 值的显式形式和隐式形式之间进行转换的变换。
RunInference使用机器学习 (ML) 模型进行本地和远程推理。
ToString将输入集合中的每个元素转换为字符串。
WithTimestamps应用函数来确定输出集合中每个元素的时间戳,并更新与每个输入关联的隐式时间戳。请注意,只有向前调整时间戳才是安全的。
从键值对集合中提取每个元素的值。

聚合

变换描述
ApproximateQuantiles给定一个分布,找到近似 N-tile。
ApproximateUnique给定一个 pcollection,返回估计的唯一元素数量。
BatchElements将元素批处理以进行摊销处理的变换。
CoGroupByKey获取多个元素的键控集合,并生成一个集合,其中每个元素包含一个键和与该键关联的所有值。
CombineGlobally变换以组合元素。
CombinePerKey变换以组合每个键的元素。
CombineValues变换以组合键控可迭代项。
计数计算每个聚合内的元素数量。
Distinct生成包含输入集合中不同元素的集合。
GroupByKey获取元素的键控集合,并生成一个集合,其中每个元素包含一个键和与该键关联的所有值。
GroupBy获取元素集合,并生成一个集合,这些元素根据这些元素的属性进行分组。与 GroupByKey 不同,键是根据元素本身动态创建的。
GroupIntoBatches将输入批处理为所需的批处理大小。
最新获取具有最新时间戳的元素。
最大获取每个聚合内具有最大值的元素。
平均计算每个聚合内的平均值。
最小获取每个聚合内具有最小值的元素。
样本从每个聚合中随机选择一些元素。
总和对每个聚合内的所有元素求和。
ToList将所有元素聚合到单个列表中。
Top计算每个聚合内的最大元素。

其他

变换描述
创建从内存列表中创建集合。
Flatten给定多个输入集合,生成包含所有输入集合中所有元素的单个输出集合。
重新洗牌给定一个输入集合,在工作进程之间重新分配元素。这对于调整并行性或防止耦合故障最有用。
WindowInto根据函数将集合的元素逻辑地划分或分组到有限窗口中。