Company 蚂蚁金服 Location 中国杭州 Industry 金融服务

挑战

蚂蚁金服正式成立于 2014 年 10 月, 源自于 2004 年推出的全球最大在线支付平台支付宝。 该公司还利用技术创新提供众多其他服务。支付宝(通过其本地和全球合作伙伴)为其全球 9 亿多用户处理海量的交易。 2017 年双十一峰值时每秒 25.6 万笔交易,2018 年双十一的商品交易总额达到 310 亿美元,还有其他各类服务的交易量。 蚂蚁金服面临着“全新的数据处理挑战,”负责存储和计算组产品管理的杭浩杰表示,“我们发现在这种规模下运营存在三个主要问题: 如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时建议; 如何基于这些数据提供智能处理,因为数据量太大,我们无法获得足够的洞察;如何在应用层、中间件层、系统层甚至芯片层应用安全性。” 为了向客户提供可靠和一致的服务,蚂蚁金服在 2014 年年初开始采用容器技术, 很快发展为需要为其数据中心内的数万个节点构成的集群提供一个编排解决方案。

解决方案

蚂蚁团队在调研了若干技术之后,最终选择了 Kubernetes 作为编排工具,配合使用 PrometheusOpenTracingetcdCoreDNS 等其他一些云原生计算基金会(CNCF)的项目。 “2016 年末,我们认定 Kubernetes 将成为事实上的标准。”杭浩杰表示,“回顾过去,我们在正确的技术上押对了宝。 之后我们需要将生产负载从传统基础设施迁移到最新支持 Kubernetes 的平台上,这花了一些时间, 因为我们对可靠性和一致性非常谨慎。”截至 2017 年 11 月,所有核心金融系统都已容器化,而向 Kubernetes 的迁移工作仍在进行中。

影响

“使用云原生技术之后,我们看到运营效率至少提升了十倍,这意味着产出可以增加十倍。”杭浩杰说。 蚂蚁还向全球范围内的业务合作伙伴提供其完全集成的金融云平台,并希望凭借其在服务创新和技术专长方面的深厚经验为下一代数字银行提供支持。 杭浩杰还表示,团队尚未开始专注于优化 Kubernetes 平台:“因为我们仍处于高速增长阶段,还没有进入成本节约的模式。”

作为跨国企业集团阿里巴巴的一家衍生公司,蚂蚁金服拥有超过 1500 亿美元的估值以及与之相匹配的规模。 这家金融科技初创公司成立于 2014 年,由世界最大的在线支付平台支付宝和众多以技术创新为己任的其他各类服务组成。

支付宝(通过其本地和全球合作伙伴)为其全球 9 亿多用户处理的交易量令人震惊: 2017 年双十一峰值时每秒 25.6 万笔交易,2018 年双十一的商品交易总额达到 310 亿美元。 蚂蚁金服以“为世界带来平等机会”为使命,致力于通过技术创新创建一个开放、共享的信用体系和金融服务平台。

蚂蚁金服运营的其他业务还有花呗在线信贷系统、借呗借贷服务以及拥有 3.5 亿用户的蚂蚁森林绿色能源手机应用。 蚂蚁金服面临着“全新的数据处理挑战”,负责存储和计算组产品管理的杭浩杰表示,“我们看到在这种规模下运营存在三个主要问题: 如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时建议; 如何基于这些数据提供智能处理,因为数据量太大,我们无法获得足够的洞察力; 以及如何在应用层、中间件层、系统层甚至芯片层应用安全性。”

为了应对这些挑战并向客户提供可靠和一致的服务,蚂蚁金服在 2014 年开始采用 Docker 容器化技术。 但他们很快意识到,他们需要一个针对公司数据中心内数万个节点集群的编排解决方案。

蚂蚁团队调研了 Docker Swarm 和 Mesos 等若干技术。 “我们做了很多概念验证(POC),但对于生产系统我们非常谨慎,因为我们要确保不丢失任何数据。” 杭浩杰说,“一分钟的服务中断都承受不起,哪怕一秒钟的中断都会产生非常非常大的影响。 我们每天都在高负载下运营,为中国及全球消费者和企业提供可靠、一致的服务。”

最终,杭浩杰表示蚂蚁选择 Kubernetes 是因为它满足了所有要求: 强大的社区、“在未来三到五年内会影响世界”的技术以及与公司工程人才的良好匹配。 “2016 年末,我们认定 Kubernetes 将成为事实上的标准,”杭浩杰说,“回顾过去,我们在正确的技术上押对了宝。 但随后我们需要将生产负载从传统基础设施迁移到最新支持 Kubernetes 的平台。 我们花了大量时间学习,之后培训相关人员在 Kubernetes 上顺畅构建应用。”

截至 2017 年 11 月,所有核心金融系统都已容器化,但向 Kubernetes 的迁移仍在进行中。 蚂蚁的平台还使用了许多其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。蚂蚁金服全球技术合作与开发部门的余兰杰说: “今年双十一,我们在 Kubernetes 上部署了大量节点,但与我们整个基础设施的规模相比,仍然需要努力。”

迄今为止已产生了明显的影响。“云原生技术让运营效率提升了至少十倍。” 杭浩杰说:“总的来说,我们希望确保我们的基础设施足够灵敏,以应对未来可能需要的作业。这就是目标。 使用云原生技术后,我们发现运营效率至少提升了十倍,这意味着产出可以增加十倍。 假设你一个人可以运维 10 个节点。那使用云原生技术后,你可以运维 100 个节点。”

蚂蚁还向全球合作伙伴提供其金融云平台,并希望凭借其在服务创新和技术专长方面的深厚经验为下一代数字银行提供支持。 杭浩杰表示,团队尚未开始专注于优化 Kubernetes 平台:“因为我们仍处于高速增长阶段,还没有进入成本节约的模式。”

在蚂蚁金服向云原生转型的过程中,CNCF 社区也是一项宝贵的资产。 “如果你正在应用一项新技术,有一个可以与其他用户讨论技术问题的社区是非常好的。”杭浩杰说: “我们非常感谢 CNCF 和这项了不起的技术,这正是我们继续保持全球扩张所需的技术。我们未来肯定会更多地拥抱社区和开源。”

事实上,该公司已经开始将其部分云原生中间件开源。 余兰杰说:“我们对此非常积极主动,CNCF 提供了一个平台,这样每个人都可以介入或贡献组件。这是非常良好的开源治理模式。”

展望未来,蚂蚁团队将继续评估许多其他 CNCF 的项目。 在建立中国的服务网格社区方面,该团队已召集了许多中国境内公司和开发者来讨论该技术的潜力。 “服务网格对中国开发者和终端用户非常有吸引力,因为我们现在有许多旧的系统在运行,它是将新旧系统粘合在一起的理想中间层。” 杭浩杰说:“对于新技术,我们会密切关注它们是否具有持久的生命力。”

在蚂蚁金服,Kubernetes 出色地通过了实践测试,蚂蚁团队希望其他公司也能效仿。 “在中国,我们是金融创新和其他相关服务创新的行业标杆。”杭浩杰说:“我们当然希望通过在技术上的投资确保在未来 5 到 10 年继续保持领先地位。”