Distinct

Javadoc Javadoc


生成一个包含输入集合中不同元素的集合。

在某些数据集上,使用 ApproximateUnique 计算近似答案可能更高效,这还允许确定每个键的不同值。

示例

示例 1:从 PCollection of String 中查找不同元素。

static final String[] WORDS_ARRAY = new String[]{
            "hi", "hi", "sue",
            "sue",  "bob"
    };
static final List<String> WORDS = Arrays.asList(WORDS_ARRAY);

PCollection<String> input =
        pipeline.apply(Create.of(WORDS)).withCoder(StringUtf8Coder.of());

PCollection<String> distinctWords = input.apply(Distinct.create());

示例 2:从 PCollection of Integer 中查找不同元素。