“东数西算”两周年沿革:立体协同推动AI大发展丨算力网风云④
编者按
在数字经济潮涌与大模型井喷的时代,算力正如水、电一般,正在逐日成为现代社会赖以生存的稀缺资源。可以说,谁拥有了算力的主导权,谁就捏住了面向人工智能的头等船票。
图片来源于网络,如有侵权,请联系删除
这样的时代巨浪下,我国的算力也正在已步入高速发展新阶段。截至2023年底,我国提供算力服务的在用机架数达到810万标准机架,算力总规模居全球第二位。
在这个过程中,构建全国一体化算力网更是应对新一轮科技革命和产业变革的重要举措。2022年2月,“东数西算”超级工程的启动,尝试拉开下一个时代的序幕。今年的《政府工作报告》明确指出,2024年要适度超前建设数字基础设施,加快形成全国一体化算力体系。
图片来源于网络,如有侵权,请联系删除
在“东数西算”工程公布两年之际,当前我国算力网体系建设现状如何?如何进一步强化全国一体化算力体系?在推进全国一体化算力体系建设的过程中,存在哪些难点堵点?就此,21世纪经济报道推出“算力网风云”系列报道,围绕中国算力一体化体系建设现状、难点与堵点、产业链机会等进行全方位解读。
专题第四篇聚焦从应用场景来看算力网建设。事实上,由于网络时延存在,并非所有算力服务场景都适用于东数西算,高时延与低时延的业务场景对算力的要求与需求也有所不同,如何实现区域内算力资源的集约利用,提升算力使用效率,也需要围绕应用场景来具体分析。
21世纪经济报道记者骆轶琪 广州报道
进入数据井喷时代,尤其是在AI大模型涌动下,如何高效、绿色地应用全国算力资源正成为当前阶段算力产业发展的重要话题之一。
2022年2月“东数西算”工程正式启动。至今随着各部门持续推进对算力协同、算力租赁等一体化调度方面的完善工作,以“东数西算”为代表的跨区域数据流动和应用正加速渗透到各类场景中。
百度智能云混合云总经理杜海对21世纪经济报道记者提到,“东数西算”工程在全国层面对算网相关基础设施,如数据中心间的跨地域和跨网络交互、算力统筹和智能调度等,通过系统化统筹实现相关能力提升。
“基于这一逻辑,未来将形成云-边-端一体的完整混合架构。”他续称,“在我看来,‘东数西算’工程是数据从产生到处理、计算,再到生成对应模型、反馈结果,进而对用户侧分发,这一整套路径的核心基础设施环节,尤其是枢纽网络环节,正式打通了。”
当然,考虑到跨区域协同间必然产生延迟和一定损耗,“东数西算”的应用场景受限于一定技术进展和实际需求。产业链厂商也在推动技术层面优化,来持续满足更多边缘侧推理应用的涌现。
从建设到调度
2022年初,国家发改委联合四部委正式批复同意在国内8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。自此,我国一体化大数据中心体系完成总体布局设计。
记者发现,在“东数西算”工程正式推出前后,国内包括云服务商、超算中心、通信运营商在内的多个产业链角色,已经在围绕西部区域或一线城市周边,逐渐建设相关数据中心或智算中心并推动应用落地。
例如2022年初,阿里云就与小鹏汽车在内蒙古枢纽节点建设了自动驾驶智算中心;2023年初,国家超级计算无锡中心与青海大学签订战略合作协议,共建“东数西算”平台;今年5月,总投资50亿元的腾讯粤港澳大湾区算力中心项目在韶关落地签约,计划建设约3万个标准机柜,将连接腾讯云在粤港澳大湾区中所有核心节点和边缘节点。
杜海对记者介绍,目前百度自建机房分别落地在阳泉、保定定兴、徐水、北京亦庄等地,相应主要为“文心一言”、百度搜索、移动生态业务等自有业务提供算力支持。百度在规划机房建设时,主要参考两个维度:一是基于自身业务需求进行规划,二是结合当地产业特色和算力需求落地智算中心业务。
“西部区域目前最核心优势是丰富的能源。”他续称,如借助当地太阳能、风能等绿电优势,能够为智算中心建设带来成本集约、资源赋能。
一体化建设两年至今,国家和地方在政策层面也在持续加码,推动算网跨区域联动、算力租赁等多维度的能力协同。
2023年12月,国家发改委等五部门联合发布了《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,其中提出统筹通用算力、智能算力、超级算力的一体化布局、统筹东中西部算力的一体化协同等主要任务。
赛迪顾问指出,加快推进全国一体化算力网建设,令中国“东数西算”从“建设”逐步进入“调度”阶段。该机构统计显示,2023年我国数据中心规模超过800万架,在全球数据中心整体规模占比17.5%,两年复合增长率达26.7%。
(赛迪顾问分析,目前我国区域算力供需占比依然不平衡。图源:赛迪顾问)
不过当前,以生成式大模型为代表的前沿技术竞速,凸显出我国仍面临算力资源还需逐渐完善的现状。
赛迪智库今年初测算,2023年中国智能算力需求达到123.6EFLOPS,但智能算力供给规模仅为57.9EFLOPS,仅是智算需求的46.8%;同时,2023年东部地区算力需求占全国总需求的83.5%,然而这些地区的算力供给仅占全国算力供给的68.2%。随着东部地区政策对土地、碳排放等要求更加严格,算力中心建设重心正向西部偏移,短期内东部地区算力缺口仍然存在。
应用演进
“东数西算”的持续完善,旨在一定程度缓解这一现状。
不过由于数据在“东部”产生,而运算则在“西部”,过程中存在明显的跨区域流动,因此有庞大计算需求、但对传输时延要求不高的场景,是当前“东数西算”的主要应用落脚。
赛迪顾问人工智能与大数据产业研究中心高级分析师姚学超对21世纪经济报道记者分析,离线分析、存储灾备、视觉渲染、模型训练等对数据计算和调用时延不敏感的业务场景更适合“东数西算”。
“举例来说,大模型训练时间周期长、训练数据体量大,需要更多相对低成本、高性能的算力资源。‘东数西算’可以有效支撑大模型训练和发展,帮助参数快速增长并长时间持续训练的大模型节省算力成本,同时也能通过网络传输及时返回大模型训练的结果。”他续称。
“大模型尤其模型训练,是很好的‘东数西算’应用场景。因为模型训练对算力有很高要求,需要千卡甚至万卡集群,来完成这一任务;同时训练周期较长,一般模型训练的基础数据相对固定,更多是通过增量补充的方式,加入到训练数据集中,因此整个过程对延时的要求偏低。”杜海也表示,百度目前与西部区域几个智算中心的合作,核心应用场景就是基础大模型和行业大模型的训练。当然在大模型出现之前,典型应用场景主要是进行图像、音视频的渲染和处理。
IDC中国副总裁周震刚对21世纪经济报道记者分析,“东数西算”主要适用于需要处理大量数据和进行高强度计算的任务。如大数据分析、云计算、人工智能和机器学习等。“尤其训练,需要大规模并行计算和数据中心内部的高性能网络。对跨区域跨站点网络传输是一次性需求,比较适合这种模式。”
当然,当前AI大模型的发展重点正从训练转向推理,有越来越多的边缘端侧设备逐渐被赋予一定大模型能力。行业观点还认为,今年下半年有望迎来AI PC的快速换机,这也将加速对端侧硬件推理能力的需求。
但端侧受限于硬件的整体尺寸规模,其计算能力和存储相关配置极容易面临硬件上限,如何配置边缘算力、协同云端和边缘端也是重要命题。
姚学超认为,“东数西算”工程统筹通用算力、智能算力、超级算力以及边缘算力一体化布局,同时算力泛在分布和算网协同发展成为必然趋势,这将推动更多的算力延伸到业务运行现场和智能终端设备。
周震刚对21世纪经济报道记者分析,“东数西算”规划只涉及数据中心,因此仅限于云侧计算的资源调配。然而,随着端侧AI的计算需求日益增长。边缘端推理的使用可以解决一部分数据中心端的算力缺口,把它们放在端侧处理。但还需要解决一定关键问题,如数据传输延迟、边缘设备的计算和存储能力限制等。未来,如果能够实现云边协同,将有望更好地满足边缘端的计算需求。
对于大模型的边缘端推理环节,杜海告诉记者,目前看到有两类场景可以使用:一类是云边协同,另一类是纯边缘端场景。
具体来说,云边协同的核心是算力和模型能力,路径是从中心云开始,逐渐往地市维度的边缘节点分发,着较多落地在物联网、机器人等场景;纯边缘场景是在近场边缘,直接把模型部署在手机、PC等端侧设备中,但目前受限于端侧计算能力和传输能力,该场景应用相对较少。“在未来随着技术层面优化,对时延、数据保护处理有更好进展后,有望在智慧医疗、自动驾驶相关领域发掘更多应用。”他续称。
多路融合
在前述去年末发布的文件中,还提到“东数东算”、“西数西算”与“东数西算”三者协同,业界认为,这将共同构成面向实际业务场景的完整算力服务体系。
杜海对记者表示,相比之下“东数东算”大众较为熟悉,是让数据在本地产生、本地处理;“西数西算”方面,更多是要结合西部的现有场景发展。
他指出,西部相关应用场景,较大程度是与能源相关,考虑到西部多个区域能源资源丰富,如何对应开展数字化、智能化转型,尤其在绿能供应尚不稳定的背景下,如何确保绿电与骨干电网之间,形成“削峰填谷”的较好协同,都需要通过算力体系进行能力支持。“结合当地实际电能产生和当地消耗场景做分布式调度,实现能源智能化应用,是我们目前看到在西部区域有较大数据产生和处理调度需求的场景。”
此外,自动驾驶场景也有一定需求。杜海对记者分析,自动驾驶在算力需求方面主要分为前后两个发展阶段,在前期的试点、验证阶段,对数据采集、高精地图绘制等有诸多诉求,这时西部区域由于地域广阔,在安全性要求方面有较好的政策指引前提下,可以更适合完善相关数据积累。后期则根据汽车销售情况在各地有针对性算力诉求。
姚学超对21世纪经济报道记者分析,“西数西算”关键是要激发西部地区数字经济的发展活力,西部地区要加快推动政企市场更多的应用软件、系统平台、工业设备、IT基础设施等上云上平台;同时,要拓展大数据、人工智能、工业互联网等数字技术的应用场景,通过更多业务场景“上云用数”带动提升本地算力中心的利用率。
从技术方面,对于这种跨越区域之间能力联动存在的掣肘。产业界都在努力应对。
周震刚对21世纪经济报道记者表示,“东数西算”推进过程中,减少算力传输损耗和将适合的算力资源匹配到相应场景是两个重要命题。目前,这些难题在一定程度得到了解决。例如通过优化网络基础设施、提升数据传输效率等方式可以减少算力传输损耗;同时,通过智能化的算力调度系统可以将算力资源精准地匹配到各个应用场景中。然而,仍然待解决的难题,包括进一步提升数据传输效率、优化算力调度算法等。
百度也在针对性探索解决方案。杜海介绍,百度搭建了一套混合云方案,可以满足全国异地、异网、异构条件下的算力网络体系建设。“从底层资源纳管、调度、再到大模型能力提供、以及基于大模型之上,构建所需模型和应用的一套完整工具链体系,是百度在跨地域异构资源管理上做的探索。”
姚学超对21世纪经济报道记者指出,“东数西算”涉及大规模数据跨区域交互、承载不同类型的业务应用,亟需进一步降低东西部数据传输成本、扩大网络带宽、提升算力调度水平;同时西部的算力中心要进一步提升算力服务的品质、性能、成本优势等,吸引更多“东数”向算力资源丰富的西部地区流动和集聚。
方正证券认为,产业界通常将数据分为“热数据”和“冷数据”,受限于传输数据效率,绝大部分“热数据”仍只能就近处理。不过随着通讯协议、标准、网络建设进一步推进,数据网络交换的实时性预计仍有较大提升空间,算力市场供需双方对未来实现更长距离的数据交换传输抱有较大期待。
该机构预计未来将有更多温数据,以致热数据在西部存储和计算。随着5G、光通信等新一代通讯技术的普及,算力调度平台进一步完善,接下来数据传输交换读取的便捷性将大大提高,当前行业对数据传输的困扰将进一步解决,逐步打破数据的时空局限。