作者 | 周炎
编辑 | 云鹏
根据OpenAI发布的一项分析显示,自2012年以来,在最大的AI训练中使用的计算量呈指数级增长,平均每100天就翻倍。在人工智能领域“百模大战”的背景下,大模型训练对算力的需求更是急剧增加。
【资料图】
一些厂商推出AI服务器以满足算力需求,但是就在服务器芯片算力提升的同时,其功耗也在不断提高,这就导致了传统风冷散热受到挑战。液冷由于具有“保障芯片工作温度”、“省空间”、“省电费”等优势,也逐渐受到关注。
与此同时,国家的“双碳战略”和东数西算不断引导数据中心绿色建设。在赛迪顾问分析师袁钰看来,2023年是中国液冷数据中心的“驻点”,液冷数据中心各类验证已基本通过,正进入规模扩张阶段。
面对这样可观的增量市场,当下许多服务器厂商都推出了“液冷方案”,但是平衡性能、能耗、成本的三元关系依然是数据中心的建设、运营过程中的难题。基于此,曙光数创针对性地提出“冷平衡”战略,并打造SLiuqid技术品牌和CloudBASE数据中心整体解决方案品牌为该战略提供支撑。
赛迪顾问《2023中国液冷应用市场研究报告》显示,2021年至2023年上半年,曙光数创以平均58.8%的市场份额,位列中国液冷数据中心基础设施市场规模第一。智东西通过与该高管们对话,对其近年来推出的产品、核心技术进行了深入挖掘,我们发现:在未来的液冷市场竞争中,玩家们比拼得不仅仅是产品,而是谁能为数据中心的建设、运营提供系统的解决方案,从而达到“系统大于各部分之和”的生态。
一、“百模大战”加速液冷时代到来,“冷平衡”成为数据中心最优解
在ChatGPT推出后的这半年多的时间里,人工智能领域的“百模大战”持续升温。大模型玩家对AI服务器的需求急剧增加,与通用服务器相比,AI服务器虽然满足了算力需求,但是其中CPU/GPU芯片的功耗也随着算力能力的提高而攀升。
▲曙光数创总裁何继盛讲解“百模大战”对算力需求激增
ODCC发布的《冷板式液冷服务可靠性白皮书》显示,A集群算力密度有望达到20-50kW/柜,而目前自然风冷的数据中心单机柜密度一般只支持8-10kW。在曙光数创副总裁张鹏看来,传统风冷方案在解决高密度数据中心的散热问题变得越来越困难。
▲曙光数创“冷平衡”战略暨SLiquid品牌发布仪式
2021年,发改委发布“新建大型、超大型数据中心PUE(能源使用率)不超过1.3”的规定。然而从2022年底中国数据中心PUE分布情况来看,超过60%的数据中心PUE值将无法达到国家要求。
此后,北京、上海、深圳等地也陆续发布通知,其中,北京市更是提出,数据中心PUE值超过1.8时,数据中心每度电费增加0.5元。以通知中最低等级,即年电力消费量达到500万千瓦时以上的数据中心为例,如果该数据中心PUE值大于1.8,那么每年至少要缴纳250万元的电费。
此前,“液冷投入成本高”一直影响着数据中心采用液冷方案,但当下,液冷投入成本正在不断降低。从曙光数创的部署实践来看,冷板液冷初期投资已低于风冷。
▲采用曙光数创冷板式液冷相较于风冷每年数据中心可节省1752万元电费
从市场的角度来看,去年一年,中国液冷数据中心基础设施市场部署规模达到139.2MW,而今年第一季度,部署规模就达到了111.6MW。可以看到,在政策、市场等多重因素的叠加下,“百模大战”正加速液冷时代的到来。
▲2023年第一季度,中国液冷数据中心基础设施部署规模达到111.6MW
今年以来,虽然服务器厂商、空调厂商等都推出了相关液冷方案。但高算力需求叠加低PUE要求,以及用户的成本控制意愿,使得平衡性能、能耗、成本的三元关系,依然成为摆在每个数据中心建设、管理及运营者面前的难题。在赛迪顾问分析师袁钰看来,随着液冷进入应用拓展阶段,数据中心建设也呼唤经验证、可推广、可复制的发展模式。
作为液冷数据中心市场的先行者,曙光数创针对性地提出了“冷平衡”战略,为数据中心提供强劲性能、绿色低碳、可控成本的三元平衡方案。
▲“冷平衡”战略,实现强劲性能、绿色低碳、可控成本的三元平衡解决方案
在目前的方案下,数据中心中服务器的核心部件降温达到20-30摄氏度,实现芯片效能的大幅提高;此外,数据中心全时全域自然冷却PUE值可以达到1.04,目前,PUE值小于1.2的数据中心仅占4.9%;最后,到成本上,使用曙光数创冷板液冷方案,数据中心初投资可以低于风冷解决方案,使用全浸式液体相变冷却产品运行5年的成本也低于风冷。
曙光数创之所以可以平衡性能、能耗、成本的三元关系,是因为有SLiquid技术品牌和CloudBASE数据中心整体解决方案品牌为该战略提供支撑,二者分别为冷平衡提供“先进液冷之力”和“服务全局之能”。
二、十年打下多条“技术护城河”,3年可节省1亿元能耗成本
作为曙光数创新推出的技术品牌,在副总裁张鹏看来,SLiquid技术品牌走了一条液冷未来发展“主流”的道路。
▲SLiquid技术品牌的理念
液冷技术目前主要存在三种技术路线,分别是冷板式液冷、浸没式液冷和喷淋式液冷目前,喷淋式液冷应用较少,在中科院计算机网络信息中心专家佟钊看来,冷板液冷未来将成为数据中心主要方案,高密度场景下,浸没液冷将成为未来主要的发展趋势。
值得注意的是,目前浸没式液冷又可分为相变液冷和单相液冷。在张鹏看来,单相液冷的散热效果较差,而相变液冷可以通过沸腾过程实现更好的传热效率。目前曙光液冷的产品就紧紧围绕冷板式液冷和全浸式相变液冷两项技术。
作为曙光数创数据中心整体解决方案品牌CloudBASE在过去的这些年里,已推出包括全浸式液冷相变冷却产品C8000、冷板式液冷产品C7000等在内的标志性液冷产品。
C8000是针对超高密度刀片服务器推出的浸没液冷基础设施产品,一般应用在超高密度数据中心机房,满足科研、金融、互联网领域的人工智能计算等应用。
目前该产品采用低沸点液体作为冷媒,其与发热器直接接触,至少可实现200W/平方厘米高效散热;同时由于无风扇设计,较传统风冷数据中心节能超30%。以同等IT容量规模40MW的数据中心为例,使用全浸式液冷相变冷却方案,每年可节约电费3504万元,计算下来,3年可节省1亿元人民币能耗成本。
值得一提的是,C8000可以使服务器中CPU等主要电子元器件温度降低且负载波动减小,这样可以充分挖掘芯片潜能提高计算机系统整体等性能。
C7000是为冷板服务器提供稳定运行环境的数据中心技术设施解决方案,机房内主要以机房微模形式呈现。C7000采用采用液冷+风冷混合散热形式,其中CPU、内存等主要发热部件利用液冷冷板套件进行冷却,比例达90%以上。曙光数创具有从冷板散热、VCDU、不锈钢管路到CDU的冷板液冷散热系统的全链路产品。
作为中国液冷数据中心基础设施市场规模第一的曙光数创,在过去的几年中,曾参与科研、环境等多个领域的数据中心建设,具有全栈、全周期服务能力,不仅可以为数据中心建设、运营提供可再生能源、数据中心节能技术、设备节能技术、芯片节能技术在内的多层次支撑,还可以提供规划咨询、方案设计、建设实施、运维管理、升级改造等一系列服务。
在张鹏看来,在数据中心领域深耕20年的曙光数创接下来在扩大技术优势的同时,会继续维护和完善供应链,争取通过上下游的协同不断降低数据中心液冷方案部署的成本。
结语:大模型算力需求更新,“冷平衡”成为液冷时代重要趋势
可以看到,百模大战的不断升温正推动“液冷时代”加速到来。在液冷应用拓展过程中,数据中心建设缺少既可以平衡性能、能耗、成本的三元关系又经过验证、可推广、复制的发展模式。
作为在液冷服务器数据中心领域份额超其他厂商总和的头名,曙光数创推出的“冷平衡”战略,有助于降低数据中心“液冷”建设门槛。在SLiquid技术品牌和CloudBASE数据中心整体解决方案品牌的保障下,数据中心不仅可以实现绿色和性能的同步升级,还能在有效控制成本。对于整个未来几年的液冷行业来说,推出数据中心实现“冷平衡”或成为重要发展趋势。
关键词: