中国工业报 耿鹏飞
在AI算力需求呈指数级增长与全球绿色低碳转型的双重驱动下,数据中心冷却技术正迎来历史性变革。近日,曙光数创以“新服务、新技术、新架构”三重新突破,正式发布业内首个相变间接液冷技术产品,再次定义计算新边界,全面开启液冷数据中心3.0时代。
“在2022年、2023年,中国大陆新增的服务器采用液冷的也不过几个点,去年(2024年)应该10个点左右。”曙光数创副总裁兼CTO张鹏向中国工业报说道,我们预测2030年应该到30%甚至更高,所以AI发展,液冷是一个必选项,无论是极智芯片散热、能耗,还是部署密度都是一个必选项。”。
新服务范式:全生命周期液冷服务构建
“液冷服务的本质是算力基础设施的服务化转型。当单个GPU算力节点成本超过10万元时,客户需要的不再是冰冷的设备,而是能够确保算力持续输出的可靠性服务。”张鹏表示。
张鹏说道,实际上客户是希望液冷集成商、设计院或者施工单位从最开始的可研架构设计到最后的使用,是一个全生命周期的服务,这才是用户真正关心的结果。
然而,传统液冷技术落地过程中,“重硬件、轻服务”的行业惯性导致诸多痛点。曙光数创基于多年浸没液冷技术积累与大规模项目实践,首次将“液冷即服务”(LiquidCoolingasaService)理念落地,将液冷数据中心从单一设备交付转变为覆盖规划、设计、建设、运维全周期的系统性服务。
“这一模式创新直击行业四大核心痛点:设计标准缺失、设备兼容性差、施工工艺复杂、运维门槛高,通过标准化流程与定制化方案的深度融合,构建起业界首个液冷全生态服务体系。”张鹏向中国工业报说道。
在设计规划阶段,曙光数创依托专业解决方案团队与理化实验室,为客户提供从算力需求分析到PUE指标优化的全场景规划服务。针对传统设计院在液冷系统设计中的认知误区,张鹏强调:“液冷数据中心的架构设计与传统暖通完全不同,例如水温、水压标准不统一,服务器与冷却系统的兼容性需要从源头介入。”百度智能云IDC建设运维部副总经理郝玉涛表示:“液冷建设的难点在于动态适配业务需求。当机柜功率密度从10kW提升至40kW时,传统风冷架构无法满足大规模设备散热需求,就需要采用液冷架构。”
设备选型与集成环节,曙光数创打破行业“碎片化”供应模式,提供从CDU(冷却液分配单元)、冷板到管路系统的全系列产品组合,并通过自研SLiquid智能运维平台实现设备状态的统一监控与管理。该平台整合了水质监测、流量控制、泄漏预警等核心功能,将传统液冷系统的“人工巡检”升级为“智能预判”。
施工交付与运维保障层面,曙光数创建立了严格的工艺标准体系。针对液冷系统对水质纯度(电导率<0.1μS/cm)与管路密封性的严苛要求,其专业施工团队采用无尘焊接、真空灌注等特种工艺,确保系统交付合格率达100%。在运维阶段,除常规设备维护外,曙光还提供冷媒再生、系统能效调优等增值服务。张鹏透露:“在某政务云项目中,我们通过年度能效调优使PUE从1.25降至1.18,年节电超过200万度。”
新技术突破:散热效能与可靠性双飞跃
在张鹏看来,水冷板技术的瓶颈在于散热能力与安全性的矛盾,而相变间接液冷技术通过物理原理创新,从根本上突破了这一限制。
芯片功耗的指数级增长正在倒逼冷却技术升级。从英特尔至强CPU的TDP突破500W到英伟达H100GPU的400W+功耗,传统水冷板技术在散热效率与安全可靠性方面的瓶颈日益凸显。曙光数创将相变传热原理与数据中心冷却需求深度结合,研发出业界首个产品化的相变间接液冷数据中心整体解决方案C7000-F,通过三大核心技术创新实现了从“被动散热”到“主动相变”的技术跨越。
冷板设计层面,曙光数创采用微纳米多孔流道与强化沸腾技术,构建高效相变传热界面。与传统水冷板的单相传热不同,相变间接液冷技术利用冷媒在冷板表面的沸腾汽化过程吸收大量潜热,使单位面积散热能力提升15%以上。张鹏在技术沟通会中展示数据显示,在400W/cm²的芯片热密度下,相变冷板的热阻较传统水冷板降低0.15℃・cm²/W,芯片结温控制在85℃以内,而传统方案结温超过95℃。
据张鹏介绍,自研专用冷媒SFP-1025F的成功开发是另一大技术突破。这款冷媒具有三大核心优势:工作压力低至0.3MPa以下(仅为传统水冷系统压力的1/3),化学性质稳定且无需添加药剂,环保性能优异(ODP=0,GWP<1000)。张鹏强调:“冷媒研发历时3年,经过10000小时可靠性测试,已通过多家服务器厂商认证。”
在成本层面,张鹏补充:“相变冷板全生命周期来看,电费节省是大头。当机柜功率密度超过10kW时,相变方案的TCO已低于风冷。”
技术兼容性是相变间接液冷技术的另一大优势。与浸没式液冷不同,其冷板形式无需改造服务器架构。
新架构重构:弹性适配多元算力场景的系统创新
采访中,张鹏提到,液冷架构设计不能“一刀切”,需要根据算力规模、应用场景与能效目标提供差异化方案。
面对算力部署场景的多元化趋势,曙光数创突破传统液冷系统的架构局限,构建起“按需定制、弹性扩展”的相变间接液冷系统架构体系。该架构通过泵驱排级、无泵自循环池级、模块化柜级三大产品形态的有机组合,实现从边缘计算节点到超大规模AI枢纽的全场景覆盖,打破了传统液冷技术在能效、可靠性与灵活性之间的权衡困境。
泵驱排级架构专为高功率密度场景设计,采用集中式CDU与分布式冷板组合,单个排级单元可支持100kW以上散热需求。其核心创新在于“智能流量分配”技术,通过压力传感器与变频泵联动,实现不同机柜间散热资源的动态调配。张鹏举例说道,某互联网AI推理集群采用该架构后,单机柜功率密度从25kW提升至45kW,PUE保持在1.15以下。
无泵自循环池级架构将能效优化推向极致,利用相变冷媒汽化后的重力回流实现“零泵功耗”。在年均气温低于25℃的地区,配合空冷器可使PUE逼近1.0。
模块化柜级架构聚焦中小规模算力场景,采用“即插即用”设计,单个模块可独立运行或并联扩展,支持上置/下置CDU灵活配置。某金融风控中心采用该架构后,从设计到上线仅用45天,较传统模式缩短50%工期。模块化解决了液冷的“规模不经济”问题,使中小算力中心也能享受高效散热。
在系统可靠性设计方面,曙光数创采用“多重冗余+故障隔离”原则。例如泵驱排级架构中“N+1”CDU冗余配置,单个CDU故障时系统仍可维持80%散热能力;管路系统采用环状环网设计,单点泄漏可快速隔离。张鹏透露:“这些设计使系统MTBF超过10万小时,达到电信级标准。”
针对行业标准化需求,郝玉涛呼吁,希望液冷技术能更加标准化、通用化。“曙光正联合百度等客户推动相变液冷标准制定,未来将开放部分技术规范,促进产业协同。”张鹏表示。
从风冷到液冷,再到今天的相变液冷,这种技术理想与产业需求的共振,使得曙光数创拥有了更多重新定义计算新边界的信心,重构着算力基础设施新范式。
请输入验证码