Python 变换目录概述
逐元素
| 变换 | 描述 |
|---|---|
| 丰富 | 使用远程服务执行数据丰富。 |
| 过滤器 | 给定一个谓词,过滤掉所有不满足谓词的元素。 |
| FlatMap | 将返回集合的函数应用于输入中的每个元素,并输出所有生成的元素。 |
| 键 | 从键值对集合中提取每个元素的键。 |
| KvSwap | 交换键值对集合中每个元素的键和值。 |
| 映射 | 将函数应用于输入中的每个元素,并输出结果。 |
| MLTransform | 将数据处理变换应用于数据集。 |
| ParDo | 对输入集合中的每个元素应用用户定义的 DoFn 的最通用机制。 |
| Partition | 根据一些分区函数将每个输入元素路由到特定输出集合。 |
| 正则表达式 | 根据正则表达式过滤输入字符串元素。也可以根据匹配组对它们进行转换。 |
| Reify | 用于在各种 Beam 值的显式形式和隐式形式之间进行转换的变换。 |
| RunInference | 使用机器学习 (ML) 模型进行本地和远程推理。 |
| ToString | 将输入集合中的每个元素转换为字符串。 |
| WithTimestamps | 应用函数来确定输出集合中每个元素的时间戳,并更新与每个输入关联的隐式时间戳。请注意,只有向前调整时间戳才是安全的。 |
| 值 | 从键值对集合中提取每个元素的值。 |
聚合
| 变换 | 描述 |
|---|---|
| ApproximateQuantiles | 给定一个分布,找到近似 N-tile。 |
| ApproximateUnique | 给定一个 pcollection,返回估计的唯一元素数量。 |
| BatchElements | 将元素批处理以进行摊销处理的变换。 |
| CoGroupByKey | 获取多个元素的键控集合,并生成一个集合,其中每个元素包含一个键和与该键关联的所有值。 |
| CombineGlobally | 变换以组合元素。 |
| CombinePerKey | 变换以组合每个键的元素。 |
| CombineValues | 变换以组合键控可迭代项。 |
| 计数 | 计算每个聚合内的元素数量。 |
| Distinct | 生成包含输入集合中不同元素的集合。 |
| GroupByKey | 获取元素的键控集合,并生成一个集合,其中每个元素包含一个键和与该键关联的所有值。 |
| GroupBy | 获取元素集合,并生成一个集合,这些元素根据这些元素的属性进行分组。与 GroupByKey 不同,键是根据元素本身动态创建的。 |
| GroupIntoBatches | 将输入批处理为所需的批处理大小。 |
| 最新 | 获取具有最新时间戳的元素。 |
| 最大 | 获取每个聚合内具有最大值的元素。 |
| 平均 | 计算每个聚合内的平均值。 |
| 最小 | 获取每个聚合内具有最小值的元素。 |
| 样本 | 从每个聚合中随机选择一些元素。 |
| 总和 | 对每个聚合内的所有元素求和。 |
| ToList | 将所有元素聚合到单个列表中。 |
| Top | 计算每个聚合内的最大元素。 |
其他
| 变换 | 描述 |
|---|---|
| 创建 | 从内存列表中创建集合。 |
| Flatten | 给定多个输入集合,生成包含所有输入集合中所有元素的单个输出集合。 |
| 重新洗牌 | 给定一个输入集合,在工作进程之间重新分配元素。这对于调整并行性或防止耦合故障最有用。 |
| WindowInto | 根据函数将集合的元素逻辑地划分或分组到有限窗口中。 |
最后更新时间:2024/10/31
您找到您要找的所有内容了吗?
一切都好用且清晰吗?您想更改任何内容吗?告诉我们!

