7月24日,2024可信云大会召开期间,智算云服务论坛上,天翼云荣获中国信通院颁发的“智算工程平台能力要求标准参编证书”,代表了业界对天翼云在推动行业标准制定中所作贡献及成果的重要肯定,以及对天翼云技术创新水平的高度认可。会上,天翼云科技有限公司智算产品线资深技术专家瞿龙发表演讲,介绍了天翼云智算平台加速大模型应用方面的技术亮点与成功案例。

随着人工智能技术的快速发展,智算成为推动科技进步和产业发展的重要力量。为了促进智算技术的标准化、规范化发展,提升我国在全球智算领域的竞争力,推动云上软件工程能力水平升级,中国信通院联合天翼云等产学研各界共同探讨软件工程和智算领域的前沿技术、发展趋势和应用场景,整合优质资源,凝聚产业共识,搭建合作桥梁,推进智算云服务高速高质量发展。在智算工程平台能力要求标准的制定中,天翼云智能边缘事业部慧聚平台团队与业界同仁紧密合作,深度参与了平台能力要求的制定过程,共同探索智算前沿技术,优化智算平台能力要求,推动产业落地应用,为行业的规范化发展贡献了智慧与力量。

瞿龙表示,伴随人工智能技术迅速发展,大模型层出不穷,模型的参数量呈几何级增长,其所依赖的数据集规模空前庞大,对算力基础设施的性能、稳定性、运维管理、安全、成本等各方面提出了前所未有的挑战。

作为云服务国家队,天翼云积极布局智算基础设施建设,全面升级产品及生态矩阵,打造了算力互联调度平台“息壤”、一体化计算加速平台“云骁”和一站式智算服务平台“慧聚”三大智算平台,以丰富的智算资源供给、强大的智算服务能力和开放的模型应用生态,实现智能算力普惠供应,为千行百业数智化转型发展赋能。

大模型开发是涉及软硬件平台、算法、应用的系统工程。天翼云一站式智算服务平台“慧聚”能够为大模型训练、推理、应用提供全栈工具链,让企业更专注模型升级和应用落地。在技术上,“慧聚”平台突破分布式存储优化、断点续训、推理加速等核心技术点,大幅提升模型系统效率。其中,分布式存储优化通过引入高速外部存储,优化训练框架异步保存逻辑,显著降低Checkpoint的保存总耗时;“慧聚”平台通过实现断点续训等技术能力,实现训练任务长期稳定、高可用运行;此外,“慧聚”从“系统-模型-数据”三个层面打造自研大规模在线推理解决方案,通过全链路数据感知、模型量化和算子加速、分布式推理框架,有效提升大模型总体推理服务吞吐量,并使首token时延明显下降。

基于平台的强大能力,“慧聚”已经实现广泛落地应用,为人工智能模型开发者、模型提供者等提供坚实助力。今年年初正式启用的天翼云上海临港国产万卡算力池,通过承载“慧聚”平台,可针对大模型训练微调场景,提供训推一体化算力服务,实现万卡资源调度,全面赋能上海千行百业。同时,“慧聚”还为中国电信千亿参数星辰大模型提供支撑,助力解决星辰大模型训练和部署中面临的复杂性和资源需求问题,加速模型落地与应用。

人工智能大模型迅猛发展,算力基础设施也需要不断进化。面向未来,天翼云将坚持科技创新,深耕智算基础设施建设,持续优化产品性能、提升服务质量,并积极牵引云计算行业标准制定与生态建设工作,携手业界伙伴共同推动云计算技术的创新与发展。


推荐内容