您的位置:  首页 资讯 运营 查看资讯

铸引擎、破难题、建样板:移动云以智算服务体系为基,助力千行万业拥抱AI+时代

铸引擎、破难题、建样板:移动云以智算服务体系为基,助力千行万业拥抱AI+时代


作者:C114通信网  蒋均牧类别:[ 运营 ] 2024-10-21 16:05:01  来源:C114通信网  蒋均牧


C114讯 10月21日专稿(蒋均牧)技术的每一次突破,都创造了无限的可能。过去数年中,我们共同见证了人工智能的迅速崛起和跨越拐点——从前沿科技到贴身助理、从星空探索到衣食住行,AI技术正以惊人速度融入众多场景,在数字经济发展中发挥越来越重要的作用,成为新质生产力核心驱动因素和新的生产工具。

人工智能当前已经上升为国家战略,今年的政府工作报告中明确提出要深化大数据、AI等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。在硬币的另一面,AI的技术迭代和应用普惠,离不开强大算力的支持;在各行各业落地AI大模型以赋能产业升级的过程中,也依然存在着不少难点、痛点。面向AI+时代,易获取且好用的智算产品及服务无疑是拥抱变革浪潮、共建繁荣业态的关键所在。

作为云计算和AI领域的“国家队”,移动云在智算赛道上耕耘多时、领势先行。就在刚刚召开的2024中国移动全球合作伙伴大会上,移动云携算网研发最新成果及智算服务体系精彩亮相,全面展现了其综合优势及卓越能力。以此为契机,C114赴苏州采访到了中国移动云能力中心平台产品部总经理齐骥,请这位移动“大云”项目最早参与者之一、享受国务院津贴的资深专家与我们分享对AI+时代云服务的思考、解读移动云的新时期布局,特别是在促进AI大模型落地应用方面的创新与实践。

他指出,算力主体由通用算力转向智能算力已是大势所趋,移动云拥有较大的用户规模、广泛的资源布局、灵活的算网大脑调度能力和云智产品技术积累,在此基础上致力于加快推动“由算融智”、打造AI服务入口、探索更多应用场景,为智算产业的健康发展和千行万业的数智化转型注入源源不断的动力。

多管齐下,铸就AI+时代强引擎

生成式AI、AI大模型等AI技术的蓬勃发展和在行业中的走实向深,带来了对算力尤其智能算力需求的爆炸性增长,让算力成为如“水电煤”般一点接入、随取随用的社会级服务已经演变为一种“刚需”。2023年10月,工信部等六部门对外发布《算力基础设施高质量发展行动计划》,提出到2025年,算力规模超过300EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展;今年9月,工信部等十一部门联合发布《关于推动新型信息基础设施协调发展有关事项的通知》,强调要优化布局算力基础设施,逐步提升智能算力占比。

中国移动以“信息服务科技创新公司”为愿景,提出并大力推进“AI+”行动计划。齐骥介绍说,移动云依托中国移动资源禀赋,从算力、网络、调度、产品、生态等维度多管齐下,推动算力普及和高效利用,加速云服务走向“智算原生”,构筑AI+时代强引擎。

其一是打造“超级工厂”,释放算力集群优势。加快算力基础设施向通智超量一体化演进,打造多元泛在、绿色低碳的智算集群,强化超算、量算等社会算力并网。面向“AI+”升级,中国移动今年着力深化N个全国性智算中心与X个边缘智算节点建设布局,计划年内建成三个超万卡智算中心、总规模近6万卡,在1500个边缘节点按需部署推理卡,形成“中心大集群、边缘广分布、中训边推、训推一体”的智算网络。

其二是畅通“信息高速”,发挥网络规模优势。中国移动在完成国家八大算力枢纽节点间400G全光高速直连基础上,开展800G/1.2T超高速下一代网络、广域高吞吐协议等试点验证,深化覆盖全国的算力三级时延圈,通过在网络方面的持续创新,将为AI训推一体提供低时延、大带宽、高可靠、弹性的互联能力。

其三是研发“调度中枢”,筑牢算网融合优势。中国移动将利用自主研发的算网大脑,实现全网调度能力和智能化水平的全面跃升,进一步提升算力资源使用效率和效能,支撑更多国家级、枢纽级调度平台的构建。

其四是建设“策源之地”,构建核心能力优势。中国移动将依托AI智能基座,锚定AI供给者、汇聚者、运营者定位,构建“4个1”智算能力体系,即升级1个AI+算网底座、升级1个智能云内核、创新1个MaaS平台、重塑1批AI+应用服务。

其五是开放“产业生态”,推动算力模型融通。开展“百川”算力并网行动计划,覆盖通、智、超、量多种算力类型,实现昆山超算中心、许昌智算中心、波色量子等3.4 EFLOPS社会算力并网。模型生态汇聚自研、开源及三方商业大模型,与行业龙头共建行业大模型,打造最大规模、最开放的模型生态,推动AI+融合创新应用加速落地。

震泽平台,破解大模型训练难题

AI大模型被公认为是推动行业变革的关键因素,得益于政策和需求的双轮驱动,千亿、万亿参数规模的大模型不断涌现、性能也越来越强。但是对传统产业来说,AI大模型的落地应用面临不少挑战,例如大模型训练尚处在早期阶段,存在着效率低、不稳定、门槛高等明显短板,智算资源池从“建起来”到“易用好用”,还有很长的路要走。

“随着参数规模和训练样本的增加,千亿大模型预训练周期大约在45~60天,但千卡集群稳定训练时长平均只有2天。虽然业界已有断点续训的通用能力,但故障定位、任务恢复往往需要消耗几个小时。同时,由于检查点非实时保存,依旧存在历史训练记录的丢失,从而损失算力的有效训练时间。”齐骥举例说。

有鉴于此,为加快AI大模型在行业中的落地,移动云创新打造了一站式智算平台——震泽智算平台,以系统性地解决当下的矛盾。该平台具备异构算力纳管、万卡并行训练、全栈国产化适配、“通、智、边”一体化等多类突出能力,能够为用户提供更快、更稳、更好的大模型训推体验。在训练效率问题上,设计和开源了弹性资源管理架构KOSMOS,池化智算算力,实现万卡算力资源分钟级创建,开箱即用;通过数据预热和缓存加速,IO性能提升20%,成本压缩三分之一;通过梯度分段聚合以及算子融合加速等技术,将国产芯片MFU从35%提升至46%。

在长稳训练层面,移动云首创了惰性续训技术,当故障来临时,健康节点忽略故障继续训练,因故障发生而掉队的节点则通过弹性供给快速补齐。利用新增资源追赶训练进度,结合内存实时检查点实现故障恢复时间相比主流水平压降90%,做到断点不断训,实现了千卡25天超长稳训。

在训推平台易用性层面,移动云提供了一体化工具链。依托算网大脑实现通智边一体化调度,结合数据快递实现模型训中热迁移,各智算中心资源化零为整;同时提供模型一键转换能力,转换好的模型自动推送到边缘异构芯片进行推理,为客户屏蔽底层异构芯片的差异以及资源跨域的感知。

齐骥表示,移动云智算平台在产品设计上遵循了安全可靠、稳定高效、异构解耦和用户导向四大关键原则。在安全可靠上,移动云于2023年高分通过公安部网络安全等级保护四级认证,并已获得20多项安全资质。智算平台基于移动云的安全防线,通过首创的KOSMOS管理架构,实现租户间安全物理隔离,确保了多租户环境下的数据隐私与操作独立性。在稳定高效上,首先将断点续训升级为业界首创的惰性续训,做到断点不断训;同时,结合数据预热、缓存加速、梯度异步聚合、算子融合加速等核心技术将训练成本压降15%以上,训练效能提升11%。

在异构解耦层面,移动云通过支持英伟达和国产芯片模型的一键互转,将训推任务与芯片解耦,结合算网大脑实现训练推理任务在异地和异构算力上的灵活调度。最后,坚持以用户为导向,深度整合市场需求、客户访谈等多维度信息,捕捉用户真实需求,进而驱动产品功能创新与交互设计的持续优化,确保每一项改进都紧密围绕用户需求。

多方实践,打通AI落地“最后一公里”

基于海量算力资源,移动云现已上线自研震泽智算平台、大模型服务平台,提供模型训推、智能体开发等全链路模型及应用工具链,助力打通AI大模型行业落地的“最后一公里”。其中,大模型服务平台汇聚了开源、九天以及三方商用大模型,建设“L0基础模型+L1行业模型+L2行业智能体+模型服务”的体系化生态服务内容,携手合作伙伴共建面向用户需求的商业闭环。

“行胜于言”,相比于市场上并不鲜见的“口号式”创新,移动云已经拿出了实实在在的实践成果。齐骥在采访中与C114分享了几个成功故事,这在一定程度上或可视作引领发展方向的一座座“灯塔”。

中国移动云能力中心作为一个拥有3000名以上程序员的研发型单位,积累了海量代码数据,研发成本在整体成本支出中占比较高。移动云自主研发并发布了湛卢代码大模型,基于九天大模型基座,围绕包括代码问答、代码补全、单元测试等在内的IT研发8大核心场景进行特定优化,支持100种以上编程语言,具备文生代码、图生代码、企业私有知识库等特色功能。目前,湛卢代码助手已经在移动云内部全面推广使用,覆盖开发、测试、运维研发全流程,预计将为移动云降低10%研发成本。

移动云在能源、物流、政务等领域均有大模型相关的落地项目,涵盖多种应用场景。例如在能源行业,移动云携手兄弟单位助力客户实施智能化升级,通过发挥中国移动算力网络优势,为客户提供从资源到平台、到模型服务的端到端产品能力,令客户得以快速具备400P的智算资源;搭建统一调度管理平台,为上层九天及其他模型提供丰沛算力,支持各个业务场景使用。

再比如在物流行业,面对人工客服标准化程度低、坐席紧张的情况,移动云携手物流公司打造物流客服大模型,AI客服可完成80%以上的用户问题,同时在并发场景下回复速率更快,从而提高了整体效率和客户满意度。

齐骥告诉C114,移动云正在积极推进大模型在各个行业的应用落地,目前在教育、医疗、工业、交通等多个行业都看到了细分场景需求。

在生态方面,移动云为合作伙伴提供了DICT库、MaaS云市场、联合实验室等多种合作方式,并且除了开发工具等技术能力上的支持,还提供了算力补贴、技术大赛、沙龙活动等政策扶持。未来将持续打造完备的模型及应用生态,帮助各个合作伙伴实现自己的智能服务。

面向未来,加快实现商业闭环

超大规模智算集群是AI大模型发展的技术基础,然而但“技术可行”不等于“商业可行”,AI技术未来应朝着可持续的商业闭环路径迈进。如何激发AI应用市场需求以拉动整个AI产业链的发展,是一个亟需探索的方向,这也意味着对于算力的需求将从模型训练到模型应用,更强调计算的高性价比、弹性伸缩和低时延。

“人们总是高估新技术的短期影响,却低估其长期价值。电气技术也是在成熟了30年以后才逐渐走向广泛应用,引发电气革命。现在去担忧AI会不会替代或者淘汰人还为时过早,而是要将重点放在AI的普及上来。”齐骥强调。

他介绍说,过去一年中,AI在软件研发领域的应用已经变得更加广泛和深入,各类“AI程序员”概念产品频繁出现。谈到,移动云根据自身的技术实践和行业洞察,AI在该领域将从辅助代码开发向辅助软件研发全流程发展、从辅助人类向自主编程发展。

“技术为根,人才为本”,AI的发展是一项长期复杂的体系化工程,以大模型为例,其全流程就涉及了算力底座、数据准备、模型使能、业务应用等多个环节。各行各业在实现AI大模型落地应用的过程中,也亟需由内而外构建起相应的能力。因此对智算与大模型相关人才的需求将进一步凸显。

齐骥表示,任何一个产业的发展,都离不开大量人才的支持。智算人才的培育,需要“政产学研”各方共同发力。移动云除了自身通过内培、竞赛等方式,促进内部人才的成长,还致力于与高校合作,让在校生更早地接触到AI知识、激发他们对新技术的兴趣,从而形成立体、综合、成批次的人才培育体系。

“在未来几年内,我们希望构建更稳定、易用、好用和普惠的算力服务,供给越来越多的AI应用服务构建智算商业闭环,让‘能用’的技术可行,转变为‘人人用’的商业可行。侧重解决算力运营中的问题,解决规模化、集约化和高性价比等难题。”在采访的最后他这样展望道。

写在最后

人工智能被誉为是21世纪社会生产力最为重要的赋能技术。“科技预言家”、知名科技杂志《连线》创始主编凯文·凯利(Kevin Kelly)曾预测,未来百年里,人工智能将超越任何一种人工力量,将人类引领到一个前所未有的时代。今年的诺贝尔物理学奖和诺贝尔化学奖也都与AI相关。

如今,我们正处在AI起势的关键阶段。移动云在智算及AI大模型方面的思考与实践、布局与成果,既为AI的普惠化、产业化、规模化发展插上了翅膀,也为各行各业的智能化升级提供了利器,还给AI+时代的云服务树立了标杆。携手移动云,共同在新一轮创新变革浪潮中破浪前行,擘画数改智转更美好未来,时不我待!


微信扫描二维码

发表您的评论吧

相关阅读