新浪新闻客户端

后R1时代:DeepSeek发展的三大阶段

后R1时代:DeepSeek发展的三大阶段
2025年10月16日 17:29 新浪网 作者 滚动消息

  (来源:智能计算芯世界)

  DeepSeek 在年初发布了R1 以后,受到了各界普遍关注。后续来看,DeepSeek 并没有如期发布更先进的模型 R2,而是在进行更多小版本的更新换代。结合每个阶段的发展重点,本文将其划分为 个主要的发展阶段。

  1. 阶段一:性能提升

  DeepSeek 在 月推出的 V3-0324 和 月推出的 R1-0528,还是以基础模型 DeepSeek V3-Base 为基座,通过后训练实现了模型能力的提升,弥补了和头部模型之间的差距。

  2. 阶段二:实现混合推理架构、Agent 能力提升、与国产芯片协同优化

  从 月以后,DeepSeek 也顺应了海外混合推理架构和 Agent 能力提升的大趋势,推出了V3.1 和 V3.1-Terminus。这次升级中,DeepSeek 的基座模型 DeepSeek-V3.1-Base 在 DeepSeek V3-Base 基础上做了大规模外扩训练,Agent 能力有了较大提升,思考效率也有提升。

  21 日,Deep 在发布 V3.1 的同时,也宣布了在国产芯片适配方面的新进展。V3.1 采用 UE8M0 FP8 缩放格式训练,为对即将发布的下一代国产芯片设计。

  此前,国内芯片企业仅有较少支持了 FP8 数据格式,多数芯片仅能支持 FP16 格式。FP8虽然可以提升计算速度和降低存储需求,但是由于计算精度不高,容易损失数据信息,所以 V3以前的大模型训练中多会选用 BF16 或 FP32/TF32 精度进行数据计算和存储。DeepSeek 是首个在开源超大规模大模型中成功落地 FP8 混合精度训练的公司,推动了 FP8 技术的规模化应用,也极大地提升了市场对 H20 等支持 FP8 格式芯片的需求。

  UE8M0 FP8 是对 FP8 格式的深度优化。该格式仅表示非负数(代表 Unisigned,无符号),尾数位为 0M0,尾数位为 0),个比特全部用来表示指数(E8,指数位占 位),Scale 通过对数据进行分块缩放,保持其能够在 FP8 表示的范围内。UE8M0 FP8 作为 FP8 格式的变体,通过减少数据存储和传输的损耗,能最大限度利用硬件计算能力,弥补国产芯片在HBM 等高速内存带宽方面的不足,从而实现国产大模型和国产芯片协同设计的优化,对于国产化芯片的应用起到积极的推动作用。

  3. 阶段三:提效降价,国产适配加速

  9 月发布的 V3.2-Exp,基于 V3.1-Terminus 构建,引入了新的注意力机制 DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。

  对比 R1 来看,V3.2-Exp 的输入缓存命中时价格为 R1 的 20%(0.2 元/百万 Tokens),输入缓存未命中时价格为 R1 的 50%(2 元/百万 Tokens),输出价格为 R1 的 19%(3 元/百万 Tokens),降幅最为明显。

  考虑到当前大模型之间能力差距在缩小,成本的下降意味着模型具有更好的性价比和可推广性,也将促进应用端实现更多功能的落地。

  在国产适配方面进度明显加快。在 V3.2-Exp 发布的当天,国产芯片华为昇腾和寒武纪同步宣布完成对 V3.2-Exp 的零日适配。这是继 V3.1 采用 UE8M0 FP8 实现国产大模型和芯片协同设计的优化以后,国产 AI 产业从单点突破迈向系统协同的又一个标志性事件。

  同时值得注意的是 DeepSeek 还同时开源 TileLang 和 CUDA 两个版本的算子。TileLang是一种采用类 Python 语法的领域专用语言(DSL),于 2025 年 月由北大计算机学院杨智团队开源,旨在实现硬件调度与开发者算法逻辑的解耦,从而降低 GPU 编程的技术门槛,同时通过分层设计来实现不同技术背景开发者,从简单上手到深度优化的不同需求。由于TileLang 可以实现对不同硬件平台的支撑,极大地改善了国产卡目前所面对的 CUDA 带来的生态壁垒问题。

  DeepSeek 选用 TileLang 这个新兴 AI 编程语言,再次体现了其强大的创新精神,同时为国产大模型软硬件生态建立起到了极大的推动作用。

  下载链接:

  1、70+篇半导体行业“研究框架”合集

  2、56+份智能网卡和DPU合集

  3、14份半导体“AI的iPhone时刻”系列合集

  4、21份走进“芯”时代系列深度报告合集

  6、105份GPU技术及白皮书汇总

  7、11+份AI的裂变时刻系列报告

  8、3+份技术系列基础知识详解(星球版)

  9、12+份Manus技术报告合集

  10、100+份AI芯片修炼合集

  11、100+份AI Agent技术报告合集

  

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2025 SINA Corporation

All Rights Reserved 新浪公司 版权所有