Go 语言 WordCount 快速入门

本快速入门将引导您完成执行第一个 Beam 管道,以使用 Beam 的 Go SDK 在您选择的 运行器 上运行 WordCount

如果您有兴趣为 Apache Beam Go 代码库贡献代码,请参阅 贡献指南

设置您的环境

用于 Go 的 Beam SDK 需要 go 版本 1.20 或更高版本。 它可以从 这里 下载。 通过运行以下命令检查您的 go 版本:

go version

如果您不熟悉 Go,请参阅 Go 入门教程

运行 wordcount

Apache Beam 示例 目录包含许多示例。 所有示例都可以通过传递示例中描述的必需参数来运行。

例如,要运行 wordcount,请运行

go run github.com/apache/beam/sdks/v2/go/examples/wordcount@latest --input "gs://apache-beam-samples/shakespeare/kinglear.txt" --output counts
less counts
go run github.com/apache/beam/sdks/v2/go/examples/wordcount@latest --input gs://dataflow-samples/shakespeare/kinglear.txt \
            --output gs://<your-gcs-bucket>/counts \
            --runner dataflow \
            --project your-gcp-project \
            --region your-gcp-region \
            --temp_location gs://<your-gcs-bucket>/tmp/ \
            --staging_location gs://<your-gcs-bucket>/binaries/
# Build and run the Spark job server from Beam source.
# -PsparkMasterUrl is optional. If it is unset the job will be run inside an embedded Spark cluster.
./gradlew :runners:spark:3:job-server:runShadow -PsparkMasterUrl=spark://127.0.0.1:7077

# In a separate terminal, run:
go run github.com/apache/beam/sdks/v2/go/examples/wordcount@latest --input <PATH_TO_INPUT_FILE> \
            --output counts \
            --runner spark \
            --endpoint localhost:8099

下一步

如果您遇到任何问题,请随时 联系我们