随着大模型参数规模激增、AI集群迈向万卡乃至十万卡级别,人工智能产业正从单纯的算力比拼,转向算、存、网、冷全链条协同的体系化竞争。算力高速迭代的同时,存力短板日益凸显,海量小文件、高通量推理、跨域数据流动等难题,成为制约AI训练与AI for Science落地的核心瓶颈。
从算力底座到存力支撑,从硬件研发到生态协同,中科曙光精准把握AI产业发展脉搏,攻克大规模集群架构、海量数据存储、超智融合适配等行业核心难题。
面对行业变革,中科曙光推出存算传高协同AI架构优化方案,推动存储从数据容器向AI数据工厂转型,深度参与数据全生命周期管理。
刚刚在天津结束的2026世界智能产业博览会上,中科曙光打造1700㎡超大沉浸式展区,集中展出全栈智算系统、十万卡级超集群、高端存储阵列等硬核产品,彰显了在算力架构、高速互联、先进存力、液冷节能等领域的领先实力,也印证了其在国产替代、超智融合、生态共建中的领军地位。

先进存力突围:重构AI时代数据基础设施
当前行业过度聚焦AI算力,却忽视了存力的核心价值,算力与存力发展失衡已形成明显效率瓶颈。中科曙光北京公司总裁助理、分布式存储产品部总经理石静在接受媒体采访时表示,大模型参数膨胀催生海量小文件存储压力,AI Agent带动Token高通量推理需求,加之业务跨集群、跨数据中心数据流动常态化,传统存储架构已难以适配新场景。同时,高质量数据集成为模型优化关键,存储亟需从单纯数据承载,延伸至数据清洗、预处理等前端环节,存力已然成为AI产业升级的核心底座。

中科曙光北京公司总裁助理、分布式存储产品部总经理石静
“AI产业正从模型单点竞争迈入基础设施与生态协同的体系竞争。”石静表示,大模型落地千行百业绝非单一厂商所能完成,需联动上下游生态伙伴,整合基础设施、行业私域数据、应用服务等资源,减少模型幻觉,打造适配垂直领域的实用化AI能力,而高性能存储正是生态协同的数据枢纽。

5月中旬发布的高端全闪阵列FlashNexus 9000系列就是中科曙光应对AI大规模应用引发的数据需求爆发、存储性能直接决定算力效率,且关键行业亟需解决供应链安全与生态兼容难题的最新成果。该产品集群峰值2亿IOPS,单阵列达400万IOPS、带宽40GB/s,重删压缩场景性能提升87.5%,随机访问时延低至0.09ms,核心部件100%国产化,以极致性能与高可靠性打破国外垄断,不仅夯实自主可控的数据基础设施底座,保障金融、通信等核心业务向AI时代全速跃迁,更是推动国产高端存储从“敢用”迈向“抢着用”。
据石静介绍,曙光始终依托存储全栈能力深耕行业落地。以FlashNexus 9000系列为例,它支持金融领域每秒处理30万笔交易,峰值提速200%、时延降低30%,已入围国有大行集采;支撑能源与电力核心数据库,助力运营商5G计费出账时长缩短66%;自动驾驶领域早已与车企深度合作,搭建从数据采集、训练归档到智能推理的全流程存储方案,全面覆盖大模型、具身智能等细分场景;还可与分布式存储形成“集中+分布”组合方案,深度赋能千行百业核心业务智能化跃迁。
超智融合进阶:筑牢大规模AI集群算力根基
AI集群向万卡、超十万卡规模演进,传统扩展架构已难以兼顾成本与时延需求。集群规模扩容后,微小时延波动、单点设备故障都会传导至整个并行作业,对系统稳定性与可靠性提出极致要求;同时大规模集群的可管理性、可维护性与可观测性,成为架构设计必须攻克的关键难题。
“高速互联是释放AI算力、支撑集群规模化扩展的底层基石。”中科曙光高性能计算产品事业部总工程师万伟将其比作算力系统的“交通路网”,既能实现数据极速流转、充分释放单芯片算力,也决定了集群的扩容上限与长期稳定运行能力。在超节点部署架构上,Scale-Up近距离采用铜线互联,具备低时延、低故障率优势;长距离大规模扩展则依赖光互联,铜光混合架构是行业长期主流趋势,全光互联将成为未来演进方向。

此次智博会上,中科曙光展示了面向万亿参数大模型训练及科学智能(AI4S)等复杂场景打造的新一代超大规模AI计算基础设施scaleX万卡超集群。该集群通过自研高速网络互连而成,可提供10240块AI加速卡的总算力。
该集群融合了超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。同时,采用原生RDMA高速网络与“超级隧道”存算传协同优化,使GPU利用率最高提升55%,部分能力已超越海外同类产品的远期规划。
基于AI计算开放架构,该集群支持多品牌国产加速卡混合部署,兼容主流软件生态,已完成400多个主流大模型的适配优化。配合数字孪生与智能调度平台,可管理万级节点并实现每秒万级作业调度,系统长期可用性高达99.99%。
放眼全球互联技术路线,谷歌TPU采用OCS光交换机与Torus专用拓扑,属于适配自身业务的专用型架构,通用性较弱。而英伟达LPU聚焦Transformer算力优化,拉高了Scale-Up互联与I/O性能要求,但不会颠覆现有电近光远、Scale-Up+Scale-Out的底层架构。

万伟相信,未来GPU与LPU将走向相互借鉴、融合发展,异构节点互联、带宽智能分配将成为集群设计的重要方向,且互联架构需与计算节点、散热供电深度协同设计。
扎根天津,志在服务全国千行百业
中科曙光已连续多年亮相世界智能产业博览会,以参展为契机,展示技术创新成果、链接产业生态资源、赋能区域智能产业升级。作为扎根天津的本土龙头科技企业,中科曙光立足先进计算核心赛道,以全栈技术创新破解行业痛点。
中科曙光持续深耕核心技术自研,完善算存网一体化布局,依托光合组织生态优势,助力全国一体化算力网建设,有望为人工智能、科研创新乃至千行百业数字化转型注入源源不断的硬核动能。