6月12日,为期两天的2026北京智源大会在北京召开。会议第二天,在“智算前沿-下一代架构及基础软件”分论坛上,北京智源人工智能研究院副院长兼总工程师林咏华以“智算新范式:计算架构跃迁与大模型冲击下,重新定义开放计算——FlagOS 2.1”为主题发表演讲指出,AI计算架构正从“以GPU为中心”转向“以模型需求驱动多元架构重组”;FlagOS 2.1系统软件栈通过统一算子库、编译器与智能体工具链,打破硬件壁垒,实现AI应用跨芯片高效运行。面对智能体技术对系统软件的冲击,她强调编译器应积极拥抱变革而非被取代,并推出FlagScale Agent智能体辅助模型迁移与优化。FlagOS 2.1还拓展至ARM架构与量子计算领域,旨在降低Token成本,真正实现“开放计算”新范式。

北京智源人工智能研究院副院长兼总工程师林咏华
AI计算架构从单一主线向多路线并行四个阶段
林咏华指出,AI计算架构正经历从单一主线向多路线演进,这个过程可分为四个阶段:第一阶段围绕单芯片算力扩张,GPU路线与张量化计算并行发展;第二阶段聚焦系统级互联效率提升,各厂商积极打造超节点;第三阶段着眼物理重构,通过Chiplet和三维堆叠突破内存墙,拉近计算与数据的物理距离;第四阶段走向负载驱动的计算形态解耦,涵盖量子计算与AI计算融合、云端与端侧协同训练推理、以及大规模集群中的PD分离架构。她强调,AI计算的主轴已从“以GPU为中心”转向“以模型需求驱动多元架构重组”。
面对大模型与智能体技术对系统软件栈带来的自上而下冲击,智源研究院联合北大、清华、中科院计算所及十余家芯片厂商,共同推出FlagOS跨芯AI系统技术栈,其核心理念是让AI应用在不同硬件上实现“一次开发,多芯运行”。
会议期间,FlagOS推出新的2.1版,新版在保持2.0版本多芯片兼容底座的基础上,重点提升了算子覆盖规模、部署效率及前沿技术探索,核心升级包括算子库大幅扩容、模型部署极速化、集成测试体系化、四探索量智融合、五生态规模扩大。
算子与编译革新:极致性能与统一语言的突破
大模型时代,从年初GPT-5的发布到最近DeepSeek V4的迭代,模型结构的快速变化对系统软件层带来了持续冲击。算子层面,Attention机制与融合算子不断更新;编译器层面,底层硬件的差异对代码接入提出新挑战;推理引擎层面,智能体对Token的极致优化需求推动引擎快速更迭。
应运而生的FlagOS 2.1版具有多方面的优势和特点。
在算子库建设上,FlagGems作为全球最大的跨芯片算子库,已正式进入PyTorch基金会生态,拥有超过510个算子。新版本专为vLLM框架设计了融合算子库,针对DeepSeek V4等前沿模型实现全覆盖,在FP8矩阵乘法、稀疏注意力等关键操作上性能显著优于原生实现。为解决算子开发效率瓶颈,FlagOS引入了自动化生成工具KernelGen,目前已有80%的算子由AI自动生成。配合统一编译器FlagTree及其Triton-TLE语言扩展,重点算子的加速比从1.4倍跃升至83倍,实测表明其生成的代码在英伟达、摩尔线程、华为昇腾等多种芯片上均超越了原生C语言性能。
为了确保这些自动化生成代码的质量与可靠性,FlagOS还发布了业界首个多来源、多芯片的统一算子生成评测基准——KernelGenBench。该基准构建了工业级沙盒与防作弊机制,全面覆盖PyTorch ATen、cuBLAS及vLLM的核心高频算子,支持包括昇腾、摩尔线程、海光、沐曦、天数以及英伟达在内的六款异构芯片评测,能够真实还原复杂的工业级开发场景。评测结果不仅揭示了不同来源算子在难度上的巨大差异,也量化了国产异构芯片在算子迁移时面临的严峻挑战。这一基准的建立,为评估AI生成代码在底层系统软件领域的实际能力提供了客观标尺,反过来也推动了KernelGen等自动化工具的持续迭代优化。目前,KernelGen已支持7款AI芯片的算子自动生成,并在DeepSeek V4等模型的适配中展现了极高效率,真正实现了“生成一次,自动优化,多芯片运行”的技术愿景。
智能体时代的编译器思考:AI Agent能否取代系统软件?
林咏华特别探讨了智能体技术对传统系统软件栈的冲击。她提出一个关键问题:当AI Agent已经能够编写底层代码、生成算子,甚至直接生成训练代码时,编译器是否还有存在的必要?她认为,编译器的核心能力包括统一IR、定义优化空间、构建多后端框架以及验证反馈机制。如果完全依赖Agent从零生成所有底层代码,可能带来三个问题:一是自动生成大量碎片化代码,反而加剧生态碎片化;二是Agent只能做到局部最优,难以保证全局最优化;三是缺乏充分的测试验证框架,Agent生成的代码可能在真实负载下表现不佳。林咏华强调,结论虽不确定,但编译器需要更加积极地拥抱AI Agent变革。
FlagScale Agent:约束驱动型智能体的实战表现
面对上述挑战,FlagOS推出了专为AI基础设施领域设计的约束驱动型智能体——FlagScale Agent。该智能体基于强约束脚手架构建,而非直接使用通用的开源框架,以确保训练推理这一极致严谨的系统工程得到可靠执行。在实战测试中,FlagScale Agent在多项技能遵从度上达到75%,远超Claude Code的45%。它能够帮助用户自动完成框架迁移、框架升级、精度对齐与性能优化等任务。林咏华表示,通过6层对比报告机制,FlagScale Agent实现了双平台完全收敛。
多芯片适配与质量保障:开箱即用的系统工程
林咏华指出,不同芯片拥有各自的操作系统、SDK和框架版本,集成与测试的依赖矩阵极为复杂,导致开发者经常面临“开箱即用”的难题。为此,FlagOS为社区打造了面向多芯片的CICD质量基座,涵盖自动化迁移、集成测试与版本发布功能。新芯片接入该基座后,即可完成适配后的编译器、算子库及其他开源软件的质量验证。在过去的半年中,FlagOS已支持多种大模型在七到十种不同芯片上的适配工作。用户可在ModelScope或HuggingFace平台上直接查询模型与芯片型号的对应链接,实现开箱即用。
量智融合与ARM架构扩展:探索计算范式新边界
FlagOS 2.1还在多种计算架构上实现延伸。在ARM架构方面,FlagOS从FlagGems算子库接入扩展到对ARM指令的支持,利用ARM的SME矩阵架构和矢量计算能力,提升边缘设备与移动端运行效率。在量子计算领域,FlagOS推出了FlagQuantum框架,这是全球首个在量子模拟、可微分计算、硬件无关性及多卡扩展四大领域均提供原生支持的量智融合框架。该框架兼容PyTorch生态,利用GPU加速器对量子计算进行仿真,同时探索当量子硬件成熟后,通过高速连接实现AI计算与量子计算工作负载的智能分配。
FlagOS:定义AI时代的“开放计算”新标准
林咏华在总结中强调,FlagOS 2.1在AI智能体挑战下,从模型适配、框架集成、算子库生成到编译器编制,构建了完整的系统软件基石。这一基石承载着两大核心使命:一是为智能体的运行提供高效计算承载,让大模型在不同AI芯片上快速普适地运行;二是为智能体的任务提供调用支撑,通过算子库、编译器AI表达和语言能力,赋能智能体高效实现特定优化目标。
随着FlagOS Express版本的快速推出及其在开源社区的分发,FlagOS 2.1正致力于打破AI模型与硬件之间的壁垒,降低Token成本,为全球开发者和科研机构提供从“单点突破”走向“系统繁荣”的开放基石。
来源:数字经济