AI发展难题：专家探讨算力管理复杂性与高训练成本的解决之道

在蚂蚁数科的发布会上，中国信息通信研究院云大所副所长栗蔚指出，随着大模型技术的高速发展，AI面临算力管理复杂、训练推理成本高、任务调度难等发展瓶颈。她强调，云原生技术凭借其高可用性、弹性和可扩展性成为解决这些问题的关键。云原生PaaS平台正在不断完善大模型产品工具链，这将加速大模型技术在行业应用中的落地。

栗蔚提到，云原生不仅对AI的发展至关重要，而且已经广泛应用于许多互联网应用的研发中。超过一半的中国企业采用云原生架构进行互联网化应用程序的开发，甚至传统的核心架构也在向云端迁移。

在AI时代，由于大模型对算力的需求巨大，例如GPT3.5需要1750亿参数和500个英伟达显卡，而GPT5则需要10万亿参数和50万张英伟达显卡。在这种情况下，云计算将发挥新的关键作用。栗蔚解释说，由于不可能在一个数据中心完成如此大规模的计算，因此跨域计算变得不可避免。云原生技术能够屏蔽底层算力的差异，无论底层是CPU还是GPU，或是不同规格的显卡，都能将应用部署在上面并利用其计算能力。

栗蔚还强调，通过使用云原生技术，企业可以统一管理上千台服务器，从而全面提升效率和降低成本。她认为，只有将云计算与AI结合，才能充分降低AI的工程化成本，使AI大模型真正运行起来，变成实际服务。

　　中新网6月29日电(中新财经记者吴涛)“大模型的高速发展使得AI不得不面临算力管理复杂、训练推理成本高、任务调度难等多方面发展瓶颈。”

发布会现场。供图

　　近日，在蚂蚁数科举行的一场发布会上，中国信息通信研究院云大所副所长栗蔚指出，云原生凭借其高可用、弹性、可扩展等优势成为突破AI困境的关键，云原生PaaS平台的大模型产品工具链不断完善，将加速大模型技术在行业应用中落地。

　　栗蔚表示，根据调研，云原生除了作用于AI之外，之前它作用于很多互联网应用的研发，超过一半中国企业大部分互联网化应用程序都是云原生的架构，甚至传统的核心架构现在也都在云化。

　　据介绍，在AI时代，因为大模型对算力需求很大，GPT3.5的时候是1750亿参数，需要500个英伟达的卡，到了GPT5是10万亿的参数，需要50万张英伟达的卡。这种情况下，云将发挥出新的关键作用。

　　“50万张英伟达卡计算是不可能在一个数据中心完成的，所以很多大模型计算跨域不可避免，但跨域以后对方是英伟达的卡吗？或者智算底层基础设施都不一定。这种情况下，我们需要什么？中间谁能把应用部署在算力上跑起来呢？”

　　栗蔚给出答案，她认为，就是云，AI时代几个发展瓶颈问题基本都是要靠云原生满足的。云原生屏蔽了底层算力的差异，其应用不在乎你底下是CPU还是GPU，还是用了什么样的规格的卡，我只是将应用部署在上面，用你的计算能力，所以云原生发挥了这样的作用。

　　“很多企业通过用了云原生，对于底下上千台服务器进行统一的纳管，从而全方位提升效率和降低成本。”栗蔚强调，云跟AI结合才能充分降低AI的工程化成本，让AI大模型真实地跑起来变成服务。