【CNMO科技信息】2月15日,微博科技发布一张图片,来回顾DeepSeek的进阶之路。CNMO注意到,2026年才过去两个月,DeepSeek就已连续更新四次。

2025年1月20日,DeepSeek-R1的发布引起了广泛关注。其训练成本不到GPT-4o的十分之一,性能却对齐OpenAI o1正式版。随后,发布的DeepSeek Janus Pro进一步提升了多模态理解和文生图能力。3月推出的DeepSeek-V3-0324,则在推理能力、数学和编程性能上击败了GPT-4.5。
2025年2月,DeepSeek开展了基础设施开源周活动,在此期间开源了多个与基础设施相关的技术成果。
在接下来的几个月里,DeepSeek继续保持着高速的发展态势。在推理能力方面,DeepSeek-R1-0528推理能力重大升级,前端能力超过了Gemini 2.5 Pro;DeepSeek-V3.1更是实现了单一模型同时支持“思考模式”与“非思考模式”自由切换。
此外,DeepSeek-OCR以极高的视觉token压缩效率,实现了“视觉token”取代“文本token”。而DeepSeek-Math-V2成为了行业首个达到国际奥数金牌水平且开源的模型,为数学教育和研究提供了新的工具和方法。

2026年,DeepSeek提出的mHC架构解决了训练中信号不稳定与计算效率的矛盾;另一项创新架构——Engram内存模块能将大语言模型中的静态知识存储与动态计算推理分离,大幅提升效率并降低对昂贵算力资源的依赖。
版权所有,未经许可不得转载
来源:手机中国