成本效益改善、芯片厂商驱动:液冷散热技术加速渗透数据中心
21世纪经济报道记者骆轶琪 香港报道
图片来源于网络,如有侵权,请联系删除
随着AI大模型快速发展,数据中心服务器所需要的功率密度大幅提升,如何探路采用液冷散热技术成为当务之急。
图片来源于网络,如有侵权,请联系删除
近日,香港地区落地首个可以开展实际业务的液冷散热方案。有服务器行业人士对21世纪经济报道记者表示,在全球不少区域市场,对液冷散热的接受度还较低,如何平衡原始投入和业务发展成为当下需要面对的命题。
此前英伟达发布的GPU产品虽然有风冷和液冷两种技术路线,但受欢迎的多是风冷方案。随着新一代英伟达GPU发布,液冷散热的比重预估也将逐渐提升。
液冷商用加速
近日,数据中心服务商Global Switch与其合作伙伴Supermicro、xFusion(超聚变)和Liquidstack合作,在其香港数据中心展示了首个液冷技术机房实景模块。
Global Switch香港董事总经理Eric Liu介绍,这是香港地区首个可以实际开展业务的液冷方案落地。过去两年,Global Switch也在欧洲等市场推动液冷技术数据中心基础设施。“近段时间,香港地区已经有客户向我们咨询液冷技术模块落地,此外发展液冷技术也是为了让数据中心的发展更有可持续性。”
(Global Switch在香港的数据中心,图源:Global Switch)
Eric Liu告诉21世纪经济报道记者,“Global Switch香港公司目前既为多家头部公有云厂商提供定制化服务,也为众多中小型客户传统托管服务。我们的基础设施和运营服务可以更灵活支持客户多元化的部署需求。”
随着AI大模型如火如荼发展,来自客户端的需求也日益多元起来。“原本一台传统数据中心服务器最大功率也就在1000W,配置10台这种规格的服务器就能满足日常计算需求;但在AI时代,我们的客户提出至少翻番到20KW功率密度,现在已经抬升到40KW甚至更高。转换成液冷散热技术正迫在眉睫。”他分析道,业内经计算后认为,传统的风冷散热技术,只能至多支持到25KW-30KW功率密度的数据中心服务器,超过这一功率将无法满足运转需求。
由此,单机柜的功率密度越大,就意味着所需的机柜整体数量越少,那么数据中心建设规模也可以更加集约化。引进液冷技术就可以实现这一结果。
一名服务器行业人士还对21世纪经济报道记者分析,一方面,采用也液冷散热技术可以在提高算力密度的同时,更好实现低碳化政策。另一方面,从业界看重的PUE(电源使用效率,评价数据中心能源效率的指标)数据角度看,传统的风冷散热服务器除了服务器本身耗电外,还需要通过额外提供冷气对服务器进行降温,会大幅提高用电需求,液冷散热则可以很大程度缓解这一难题。
Global Switch首席商务官Matthew Dent分析道,随着数据中心功率密度越来越高,就需要服务商提供足够完备的物理环境、电力、温湿度等,灵活满足从低到高的功率要求。“我们主要提供管路、监控、运维等能力,帮助客户灵活部署不同类型的数据中心机柜。”
第三方机构TrendForce集邦咨询认为,随着NVIDIA(英伟达)Blackwell新平台预计于2024年第四季出货,将推动液冷散热方案的渗透率明显增长,从2024年的10%左右至2025年将突破20%。随着全球ESG(环境、社会和公司治理)意识提升,加上CSP(云端服务业者)加速建设AI服务器,预期有助于带动散热方案从气冷转向液冷形式。
不过当前液冷散热技术主要包括三类:冷板式液冷、浸没式液冷、喷淋式液冷,对此不同服务器厂商的选择也有不同。
前述业内人士对记者分析,“我们认为,采用浸没式液冷方案面临的挑战是,目前主流GPU芯片供应商并没有为该方案提供质保,也即当产品浸入水里如果遇到意外,并不承诺可以正常使用,因此维护成本偏高。”
Matthew Dent则告诉21世纪经济报道记者,“这三种技术方案各有优劣,目前来看,冷板液冷方案的优势在于可以通过调节水温等方式,达到数据中心运行期间降低PUE、实现节能的效果。”
成本走向可控
一名数据中心服务商人士对21世纪经济报道记者表示,尽管此前英伟达H100发布时,提供了液冷和风冷两种解决方案,但市场上大部分用户更倾向于使用风冷方案。
究其原因,主要是考虑到液冷服务器及配套设施开发周期相对更长、成本也更高,客户希望通过更快速、更低成本的方式实现业务快速落地,抢占大模型在行业中的领先优势。
这也是新技术在投入市场初期必然要面对的命题:成本回收如何保障。
“据我观察,海外市场对液冷服务器的接受程度偏向保守,宁愿稳健一点。因为这还涉及IT部门开支审批等问题。”前述行业人士对记者分析,作为一种新技术路线,液冷技术在开始投入时,由于要进行水、电路等改造,其初始开支的确会比风冷高,“不过我们计算大约在三年左右,我们提供的产品其运行成本加维护成本就开始下降。考虑到服务器一般寿命在3~5年,长则5年以上,因此长期来说,液冷方案会比风冷方案在大约三年投入后可以开始省钱。”
此外,海外市场更接受风冷方案的另一重原因在于土地价格差异。“比如中国香港、新加坡这些市场的地价较高,会相比欧美主要市场对液冷技术的接受度更高一些,欧美市场可能会先考虑多买地推风冷方案的路线。”前述人士续称。
(采用新型直达晶片式(direct-to-chip)液冷解决方案的服务器机架,图源 :Global Switch)
对于产业界担心的投资成本问题,Eric Liu指出,市面上目前有一个误解,认为将数据中心改造为液冷技术,就意味着基础设施一切从头开始。“但实际并非如此,我们借助已有的基础设施与技术,通过与合作伙伴联合的方式,可以在原有设施基础上,追加实施液冷方案,实现灵活部署。”
他续称,“所有创新科技一开始的投资都会比较大,但液冷技术符合客户的下一代业务需求,同时随着业务持续开展,客户的投资效益会快速提升,也有利于长期运营成本降低。”
据记者了解,Global Switch在香港的数据中心位于将军澳地区,这里有三条海缆登陆站,也有助于对本土企业出海进行业务赋能。
第三方机构世邦魏理仕分析,香港的数据中心市场规模预计将从2023年的30亿美元,增长至2028年的约57亿美元。这也很大程度得益于政策支持。今年8月香港特区政府曾公开表态,强调发展AI基础设施计算能力的重要性。根据官方预估,到2030年前香港的运算能力需求将达15,000PFlops。
不仅如此,对于数据中心服务商来说,从传统IDC转向AIDC升级也成为当前命题。
“我们并没有定义现在正从CPU为中心转向GPU为中心,只是相比之下,GPU的需求成长很快。面对这种趋势,我们作为数据中心服务商,应对方式是提供灵活的解决方案。我们并不提供芯片或AI设备,但能够根据客户对功率的需求,提供传统风冷和新兴液冷等不同散热方案。”Matthew Dent对记者指出,Global Switch已经准备好承接从传统4KW功率机柜,到单机柜120KW功率的需求升级。客户可以根据需求自由选择气体或液体冷却技术,并通过不同冷却路线进行规划。
据悉在亚洲区域,中国香港、新加坡都是Global Switch重视的市场,“对于新地区的开拓,我们也在进行评估。其中在中国香港地区,就有很多新需求来自中国内地,有跨境需求、也有本地需求。”Matthew Dent介绍道,目前全球主要市场都对数据中心功率密度提升有较高诉求,我们分布在伦敦、巴黎、法兰克福、悉尼等其他市场也是如此。