北京智源院林咏华：重塑计算基石，FlagOS 2.1构筑AI智能体时代的开放生态_科技IT

6月12日，为期两天的2026北京智源大会在北京召开。会议第二天，在“智算前沿-下一代架构及基础软件”分论坛上，北京智源人工智能研究院副院长兼总工程师林咏华以“智算新范式：计算架构跃迁与大模型冲击下，重新定义开放计算——FlagOS 2.1”为主题发表演讲指出，AI计算架构正从“以GPU为中心”转向“以模型需求驱动多元架构重组”；FlagOS 2.1系统软件栈通过统一算子库、编译器与智能体工具链，打破硬件壁垒，实现AI应用跨芯片高效运行。面对智能体技术对系统软件的冲击，她强调编译器应积极拥抱变革而非被取代，并推出FlagScale Agent智能体辅助模型迁移与优化。FlagOS 2.1还拓展至ARM架构与量子计算领域，旨在降低Token成本，真正实现“开放计算”新范式。

林咏华指出，AI计算架构正经历从单一主线向多路线演进，这个过程可分为四个阶段：第一阶段围绕单芯片算力扩张，GPU路线与张量化计算并行发展；第二阶段聚焦系统级互联效率提升，各厂商积极打造超节点；第三阶段着眼物理重构，通过Chiplet和三维堆叠突破内存墙，拉近计算与数据的物理距离；第四阶段走向负载驱动的计算形态解耦，涵盖量子计算与AI计算融合、云端与端侧协同训练推理、以及大规模集群中的PD分离架构。她强调，AI计算的主轴已从“以GPU为中心”转向“以模型需求驱动多元架构重组”。

面对大模型与智能体技术对系统软件栈带来的自上而下冲击，智源研究院联合北大、清华、中科院计算所及十余家芯片厂商，共同推出FlagOS跨芯AI系统技术栈，其核心理念是让AI应用在不同硬件上实现“一次开发，多芯运行”。

会议期间，FlagOS推出新的2.1版，新版在保持2.0版本多芯片兼容底座的基础上，重点提升了‌算子覆盖规模‌、‌部署效率‌及‌前沿技术探索‌，核心升级包括‌算子库大幅扩容‌、‌模型部署极速化、集成测试体系化‌、四探索量智融合、五生态规模扩大。‌‌

大模型时代，从年初GPT-5的发布到最近DeepSeek V4的迭代，模型结构的快速变化对系统软件层带来了持续冲击。算子层面，Attention机制与融合算子不断更新；编译器层面，底层硬件的差异对代码接入提出新挑战；推理引擎层面，智能体对Token的极致优化需求推动引擎快速更迭。

在算子库建设上，FlagGems作为全球最大的跨芯片算子库，已正式进入PyTorch基金会生态，拥有超过510个算子。新版本专为vLLM框架设计了融合算子库，针对DeepSeek V4等前沿模型实现全覆盖，在FP8矩阵乘法、稀疏注意力等关键操作上性能显著优于原生实现。为解决算子开发效率瓶颈，FlagOS引入了自动化生成工具KernelGen，目前已有80%的算子由AI自动生成。配合统一编译器FlagTree及其Triton-TLE语言扩展，重点算子的加速比从1.4倍跃升至83倍，实测表明其生成的代码在英伟达、摩尔线程、华为昇腾等多种芯片上均超越了原生C语言性能。

为了确保这些自动化生成代码的质量与可靠性，FlagOS还发布了业界首个多来源、多芯片的统一算子生成评测基准——KernelGenBench。该基准构建了工业级沙盒与防作弊机制，全面覆盖PyTorch ATen、cuBLAS及vLLM的核心高频算子，支持包括昇腾、摩尔线程、海光、沐曦、天数以及英伟达在内的六款异构芯片评测，能够真实还原复杂的工业级开发场景。评测结果不仅揭示了不同来源算子在难度上的巨大差异，也量化了国产异构芯片在算子迁移时面临的严峻挑战。这一基准的建立，为评估AI生成代码在底层系统软件领域的实际能力提供了客观标尺，反过来也推动了KernelGen等自动化工具的持续迭代优化。目前，KernelGen已支持7款AI芯片的算子自动生成，并在DeepSeek V4等模型的适配中展现了极高效率，真正实现了“生成一次，自动优化，多芯片运行”的技术愿景。

林咏华特别探讨了智能体技术对传统系统软件栈的冲击。她提出一个关键问题：当AI Agent已经能够编写底层代码、生成算子，甚至直接生成训练代码时，编译器是否还有存在的必要？她认为，编译器的核心能力包括统一IR、定义优化空间、构建多后端框架以及验证反馈机制。如果完全依赖Agent从零生成所有底层代码，可能带来三个问题：一是自动生成大量碎片化代码，反而加剧生态碎片化；二是Agent只能做到局部最优，难以保证全局最优化；三是缺乏充分的测试验证框架，Agent生成的代码可能在真实负载下表现不佳。林咏华强调，结论虽不确定，但编译器需要更加积极地拥抱AI Agent变革。

面对上述挑战，FlagOS推出了专为AI基础设施领域设计的约束驱动型智能体——FlagScale Agent。该智能体基于强约束脚手架构建，而非直接使用通用的开源框架，以确保训练推理这一极致严谨的系统工程得到可靠执行。在实战测试中，FlagScale Agent在多项技能遵从度上达到75%，远超Claude Code的45%。它能够帮助用户自动完成框架迁移、框架升级、精度对齐与性能优化等任务。林咏华表示，通过6层对比报告机制，FlagScale Agent实现了双平台完全收敛。

林咏华指出，不同芯片拥有各自的操作系统、SDK和框架版本，集成与测试的依赖矩阵极为复杂，导致开发者经常面临“开箱即用”的难题。为此，FlagOS为社区打造了面向多芯片的CICD质量基座，涵盖自动化迁移、集成测试与版本发布功能。新芯片接入该基座后，即可完成适配后的编译器、算子库及其他开源软件的质量验证。在过去的半年中，FlagOS已支持多种大模型在七到十种不同芯片上的适配工作。用户可在ModelScope或HuggingFace平台上直接查询模型与芯片型号的对应链接，实现开箱即用。

FlagOS 2.1还在多种计算架构上实现延伸。在ARM架构方面，FlagOS从FlagGems算子库接入扩展到对ARM指令的支持，利用ARM的SME矩阵架构和矢量计算能力，提升边缘设备与移动端运行效率。在量子计算领域，FlagOS推出了FlagQuantum框架，这是全球首个在量子模拟、可微分计算、硬件无关性及多卡扩展四大领域均提供原生支持的量智融合框架。该框架兼容PyTorch生态，利用GPU加速器对量子计算进行仿真，同时探索当量子硬件成熟后，通过高速连接实现AI计算与量子计算工作负载的智能分配。

林咏华在总结中强调，FlagOS 2.1在AI智能体挑战下，从模型适配、框架集成、算子库生成到编译器编制，构建了完整的系统软件基石。这一基石承载着两大核心使命：一是为智能体的运行提供高效计算承载，让大模型在不同AI芯片上快速普适地运行；二是为智能体的任务提供调用支撑，通过算子库、编译器AI表达和语言能力，赋能智能体高效实现特定优化目标。

随着FlagOS Express版本的快速推出及其在开源社区的分发，FlagOS 2.1正致力于打破AI模型与硬件之间的壁垒，降低Token成本，为全球开发者和科研机构提供从“单点突破”走向“系统繁荣”的开放基石。

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

北京智源院林咏华：重塑计算基石，FlagOS 2.1构筑AI智能体时代的开放生态

合作/投稿/投诉联系：

微信nvshen2168

关注我们