案例研究

Apache Beam 为当今许多领先项目、行业特定用例和初创公司提供支持。

彻底改变实时流处理:领英每天处理 4 万亿事件

Apache Beam 作为领英流式基础设施的支柱,每天通过 3,000 多个管道处理惊人的 4 万亿事件,从而为领英全球超过 9.5 亿成员的庞大网络提供个性化体验。采用 Apache Beam 带来了许多令人印象深刻的改进,包括根据用例优化成本 2 倍,标签滥用速度惊人地从几天缩短到几分钟,以及检测登录抓取配置文件的效率提高了 6% 以上。

夏冰峰
领英工程经理
刘鑫宇
领英高级职员工程师
了解更多 转到案例研究

为 OCTO Technology 客户端提供高性能和高效的事务数据处理

借助 Apache Beam,OCTO 加速了法国最大的杂货零售商之一向事务数据的流式处理迁移。通过利用 Apache Beam 的强大转换和强大的流式功能,他们将基础设施成本降低了 5 倍,性能提高了 4 倍。流式 Apache Beam 管道现在每天处理超过 1 亿行,在不到 3 小时内将数百 GB 的事务数据与超过 1 TB 的外部状态合并,这是没有 Apache Beam 的受控聚合无法完成的任务。

OCTO Technology 的数据工程团队
大型零售客户项目
了解更多 转到案例研究

使用 Apache Beam 在汇丰银行进行高性能定量风险分析

汇丰银行发现 Apache Beam 不仅仅是一个数据处理框架。它还是一个计算平台和一个风险引擎,可以将汇丰银行的 XVA 管道扩展 100 倍,性能提高 2 倍,将上市时间缩短 24 倍,并简化数据分发以使用蒙特卡洛模拟对未来场景进行建模,为预测和决策提供定量风险分析。

郑楚普
汇丰银行 XVA 和 CCR 资本分析副总裁
安德烈·戈隆卡
汇丰银行首席助理副总裁
了解更多 转到案例研究

高效的流式分析:让网络更安全,使用“Project Shield”

“Project Shield”为 150 多个国家/地区的 3,000 多个易受攻击的组织的网站提供防御,以抵御 DDoS 攻击,其使命是保护言论自由。Apache Beam 流式管道每天处理约 3 TB 的日志数据,每秒超过 10,000 个查询。这些管道生成实时用户界面分析、定制的流量速率限制和防御建议。Apache Beam 使得能够以 ~2 倍的效率增益大规模提供关键指标。这些数据支持“Project Shield”消除 DDoS 攻击作为沉默记者和其他说出真相人士声音的武器的目标。最终,“Project Shield”的目标是让网络更安全。

马克·霍华德
“Project Shield”创始工程师
查德·汉森
“Project Shield”创始工程师
了解更多 转到案例研究

Booking.com 使用 Beam 进行大规模广告投放

Apache Beam 为 Booking.com 的全球广告投放和性能基础设施提供支持,每月支持 100 多万个查询,用于跨多个数据系统的工作流程,扫描 2 PB+ 的分析数据和 TB 级的事务数据。Apache Beam 将处理速度提高了 36 倍,将上市时间缩短了 4 倍。

Booking.com 的 PPC 团队
营销技术部门
了解更多 转到案例研究

使用 Apache Beam 进行自助式机器学习工作流程和扩展 MLOps

Apache Beam 使 Credit Karma 的数据和 ML 平台能够在可扩展性和效率方面立于不败之地,使 MLOps 能够使用统一的管道,每天处理 5-10 TB 的数据,每秒 5,000 个事件,并管理 20,000 多个 ML 特征。

阿夫尼什·普拉塔普
Credit Karma 高级数据工程师 II
拉吉·卡塔卡姆
Credit Karma 高级 ML 工程师 II
了解更多 转到案例研究

为 Intuit 提供流式和实时 ML 支持

我们认为,Apache Beam 的运行器不可知性为我们的流式处理平台提供了灵活性,并在开发新的运行时时为其提供未来保障。Apache Beam 使 Intuit 的流式处理民主化,并将许多批处理作业迁移到流式应用程序。

尼克·黄
Intuit 流式处理平台工程经理
了解更多 转到案例研究

Lyft 使用 Beam 进行实时 ML

Lyft 市场团队的目标是通过对现实世界动态做出敏捷反应来提高业务效率。Apache Beam 使我们能够实现拥有强大的可扩展 ML 基础设施的目标,以通过实时特征来提高模型准确性。这些实时特征支持预测、黄金时间、调度等关键功能。

拉维·基兰·马加姆
Lyft 软件工程师
了解更多 转到案例研究

为 Palo Alto Networks 提供大规模实时事件流处理

Palo Alto Networks 是全球网络安全领导者,每天实时处理数百亿个安全事件,这在行业中处于高位。Apache Beam 提供了一个高性能、可靠且弹性的数据处理框架来支持这种规模。借助 Apache Beam,Palo Alto Networks 最终实现了高性能和低延迟,并将处理成本降低了 60%。

塔拉特·乌亚雷
高级首席软件工程师
了解更多 转到案例研究

使用 Apache Hop 进行视觉 Apache Beam 管道设计和编排

Apache Hop 是一个开源数据编排和工程平台,它使用视觉管道生命周期管理扩展了 Apache Beam。Neo4j 的首席解决方案架构师兼 Apache Hop 的联合创始人 Matt Casters 将 Apache Beam 视为 Hop 背后的驱动力。

马特·卡斯特斯
Neo4j 首席解决方案架构师,Apache Hop 联合创始人
了解更多 转到案例研究

搜索引擎工作负载的可扩展性和成本优化

深入研究捷克搜索引擎扩展内部部署基础设施的经验,以了解有关基于字节的数据混洗的优势以及 Apache Beam 可移植性和抽象在哪些用例中带来最大价值的更多信息。

马雷克·西穆内克
seznam.cz 高级软件工程师
了解更多 转到案例研究

四种 Apache 技术的结合,带来乐趣和利润

Ricardo 是瑞士最大的在线市场,它使用 Apache Beam 对平台数据进行流式处理,并使数据智能团队能够提供可扩展的数据集成、分析和智能服务。

托比亚斯·凯马克
Ricardo 高级数据工程师
了解更多 转到案例研究

也由以下公司使用

Mozilla 是非营利性 Firefox 浏览器。这个用例侧重于将数据从一个系统安全地迁移到另一个系统的复杂性,在数据从一个转换传递到另一个转换时对其进行建模,处理错误,测试系统,以及组织代码以使管道可配置为其开源代码库中不同源系统和目标系统的不同源系统和目标系统,以摄取来自 Firefox 客户端的遥测数据。
Klio 是一个开源框架,由 Spotify 开发,建立在 Apache Beam for Python 之上,它允许研究人员和工程师轻松、大规模地构建更智能的数据管道,用于处理音频和其他媒体文件。
Kio 是一组 Kotlin 扩展,用于 Apache Beam,以实现用于 Java SDK 的流畅式 API。
GraalSystems 是一个云原生数据平台,提供对 Beam、Spark、Tensorflow、Samza 和许多其他数据处理解决方案的支持。我们架构的核心是一组使用 Beam 从我们的 Apache Pulsar 集群中路由每天超过 20 亿个事件的分布式处理和分析模块。对于我们的客户,我们还在我们的生产平台上每天运行超过 2,000 个 Beam 作业,规模非常大。
Oriel Research Therapeutics (ORT) 是一家位于波士顿地区的初创公司,提供多种医疗状况的早期检测服务,利用尖端的 AI 技术和下一代测序 (NGS)。ORT 利用 Apache Beam 管道处理超过 100 万个基因组学和临床信息样本。ORT 使用处理后的数据来检测白血病、败血症和其他医疗状况。
eBay 是一家美国电子商务公司,通过在线网站提供企业对消费者和消费者对消费者的销售。他们使用 Apache Beam 构建特征管道:统一在线和离线特征提取和选择,加速模型训练、评估和服务的端到端迭代,支持不同类型(流式、运行时、批处理)的特征,等等。eBay 利用 Apache Beam 作为流式特征 SDK 的基础,以与 eBay 中的 Kafka、Hadoop、Flink、Airflow 等集成。
GOGA 数据分析和咨询是一家总部位于日本的公司,专门从事地理空间和地图数据的分析。他们使用 Apache Beam 和 Cloud Dataflow 来实现用于分析目的的平滑数据转换过程。这个用例侧重于通过整理和根据提供的地址请求每个数据的 API 调用来处理多个提取、地理编码和插入过程。

Akvelon 是一家软件工程公司,帮助初创公司、中小企业和财富 500 强公司释放云、数据和 AI/ML 的全部潜力,以增强其战略优势。Akvelon 团队在将 Apache Beam 与不同的数据处理生态系统集成方面拥有丰富的经验,并且是 Apache Beam 社区的热心贡献者。