Python 变换目录概述
逐元素
变换 | 描述 |
---|---|
丰富 | 使用远程服务执行数据丰富。 |
过滤器 | 给定一个谓词,过滤掉所有不满足谓词的元素。 |
FlatMap | 将返回集合的函数应用于输入中的每个元素,并输出所有生成的元素。 |
键 | 从键值对集合中提取每个元素的键。 |
KvSwap | 交换键值对集合中每个元素的键和值。 |
映射 | 将函数应用于输入中的每个元素,并输出结果。 |
MLTransform | 将数据处理变换应用于数据集。 |
ParDo | 对输入集合中的每个元素应用用户定义的 DoFn 的最通用机制。 |
Partition | 根据一些分区函数将每个输入元素路由到特定输出集合。 |
正则表达式 | 根据正则表达式过滤输入字符串元素。也可以根据匹配组对它们进行转换。 |
Reify | 用于在各种 Beam 值的显式形式和隐式形式之间进行转换的变换。 |
RunInference | 使用机器学习 (ML) 模型进行本地和远程推理。 |
ToString | 将输入集合中的每个元素转换为字符串。 |
WithTimestamps | 应用函数来确定输出集合中每个元素的时间戳,并更新与每个输入关联的隐式时间戳。请注意,只有向前调整时间戳才是安全的。 |
值 | 从键值对集合中提取每个元素的值。 |
聚合
变换 | 描述 |
---|---|
ApproximateQuantiles | 给定一个分布,找到近似 N-tile。 |
ApproximateUnique | 给定一个 pcollection,返回估计的唯一元素数量。 |
BatchElements | 将元素批处理以进行摊销处理的变换。 |
CoGroupByKey | 获取多个元素的键控集合,并生成一个集合,其中每个元素包含一个键和与该键关联的所有值。 |
CombineGlobally | 变换以组合元素。 |
CombinePerKey | 变换以组合每个键的元素。 |
CombineValues | 变换以组合键控可迭代项。 |
计数 | 计算每个聚合内的元素数量。 |
Distinct | 生成包含输入集合中不同元素的集合。 |
GroupByKey | 获取元素的键控集合,并生成一个集合,其中每个元素包含一个键和与该键关联的所有值。 |
GroupBy | 获取元素集合,并生成一个集合,这些元素根据这些元素的属性进行分组。与 GroupByKey 不同,键是根据元素本身动态创建的。 |
GroupIntoBatches | 将输入批处理为所需的批处理大小。 |
最新 | 获取具有最新时间戳的元素。 |
最大 | 获取每个聚合内具有最大值的元素。 |
平均 | 计算每个聚合内的平均值。 |
最小 | 获取每个聚合内具有最小值的元素。 |
样本 | 从每个聚合中随机选择一些元素。 |
总和 | 对每个聚合内的所有元素求和。 |
ToList | 将所有元素聚合到单个列表中。 |
Top | 计算每个聚合内的最大元素。 |
其他
变换 | 描述 |
---|---|
创建 | 从内存列表中创建集合。 |
Flatten | 给定多个输入集合,生成包含所有输入集合中所有元素的单个输出集合。 |
重新洗牌 | 给定一个输入集合,在工作进程之间重新分配元素。这对于调整并行性或防止耦合故障最有用。 |
WindowInto | 根据函数将集合的元素逻辑地划分或分组到有限窗口中。 |
最后更新时间:2024/10/31
您找到您要找的所有内容了吗?
一切都好用且清晰吗?您想更改任何内容吗?告诉我们!