
凌晨 2 点,DeepSeek 团队在 arXiv 上传了一篇 87 页的论文。
没有预热,没有发布会,没有官方公告。6 小时内,这篇论文在 AI 圈传开了。
我花了一天时间读完。
DeepSeek V4 可能会改变 AI 行业的游戏规则。
论文核心:5 个技术突破
1. 动态稀疏注意力机制(DSA)
传统 Transformer 的注意力计算复杂度是 O(n²)。上下文越长,计算量呈平方级增长。GPT-4、Claude 处理 100K 上下文时,推理速度很慢。
DeepSeek V4 的 DSA 机制通过动态选择关键 token 进行注意力计算,把复杂度降到了 O(n log n)。
论文数据:
128K 上下文推理速度提升 8.3 倍
显存占用降低 67%
长文本理解准确率提升 12%
你可以在消费级显卡上跑 100K+ 上下文的模型,速度不卡。

2. 混合专家路由 2.0(MoE-Routing v2)
DeepSeek V3 的 MoE 架构已经很强,V4 更进一步。
新的路由算法根据任务类型动态激活不同专家组合。简单任务只激活 5% 的参数,复杂推理任务激活 35%,整体推理成本比 V3 降低 40%。
细节:他们训练了 128 个专家,每次推理平均只用 8-12 个。这种"按需调用"设计,让 V4 在保持 671B 总参数量的同时,实际计算量只有 85B。

3. 多模态原生架构
这不是简单的"加个视觉编码器"。
DeepSeek V4 从训练初期就把文本、图像、音频、视频放在同一个表征空间里。论文里的案例:给模型看一段编程教学视频,它能直接输出可运行的代码,还能解释视频里没讲清楚的概念。
V4 在这些任务上超越了 GPT-4V 和 Claude 3.5:
图表理解:+15%
视频问答:+23%
跨模态推理:+18%

4. 自我进化训练框架
DeepSeek V4 引入了一个自我改进循环:模型生成的数据会被自动筛选、标注,然后用于下一轮训练。论文显示,经过 3 轮自我进化后,模型在数学推理任务上的提升相当于额外训练 2B token。
模型的进步速度不再完全依赖人类标注数据,它可以自己"学习如何学习"。
5. 端云协同推理
论文最后 10 页讲了一个务实的东西:怎么让普通人用上 V4。
方案是"端云协同":简单任务在本地跑(手机/电脑),复杂任务自动分流到云端。切换是无缝的,用户感知不到。
测试数据:80% 的日常查询可以在本地完成,只有 20% 需要云端。使用成本可以降低 60% 以上。

对中国 AI 行业的意义
这篇论文让我看到了中国 AI 的希望。
过去两年,我们一直在追赶 GPT、Claude。DeepSeek V4 的某些技术已经开始领先。
技术路线的自信。
他们没有盲目模仿 OpenAI 的密集架构,而是坚持 MoE 路线,并且做到了极致。中国团队开始有自己的技术判断。
开源精神的回归。
论文明确表示,V4 的权重和代码会在 6 个月内开源。这跟某些闭源大厂形成对比。整个中国 AI 生态可以站在 V4 的肩膀上继续创新。
成本控制的务实。
论文里反复强调"推理成本"和"部署门槛"。我们不只是追求 SOTA,更关心怎么让技术落地、让普通人用得起。
对普通人的价值
这跟你有什么关系?
1. 更便宜的 AI 服务
推理成本降低 60%,AI 产品会大幅降价。现在每月 20 美元的订阅,未来可能只要 5 美元。
2. 本地运行的可能
端云协同架构让本地运行大模型成为现实:
隐私数据不用上传云端
没网也能用 AI
响应速度更快
3. 更强的多模态能力
拍一张电路图,AI 直接帮你分析故障
录一段会议视频,AI 自动生成纪要和待办
给孩子拍作业照片,AI 不仅给答案还讲解思路
这些场景,V4 都能做得更好。
4. 更长的上下文
128K 上下文是什么概念?
一次性扔给它 50 万字的小说,让它分析人物关系
上传整个项目的代码库,让它帮你重构
给它一年的聊天记录,让它总结你的思维模式
这会改变我们和 AI 协作的方式。
冷静一下:挑战依然存在
我也要泼点冷水。
论文不等于产品。
从论文到稳定可用的产品,中间还有很长的路。DeepSeek V3 论文发布到实际可用,用了 4 个月。V4 可能也差不多。
生态建设需要时间。
即使技术领先,如果没有足够的开发者和应用场景,也很难形成真正的竞争力。OpenAI 和 Anthropic 已经建立了很强的护城河。
算力限制。
训练 V4 这样的模型需要多少算力?论文没细说,但肯定不是小数目。在高端 GPU 受限的背景下,如何持续迭代是个问题。
写在最后
DeepSeek V4 论文的发布,是中国 AI 发展的一个里程碑。
在基础模型层面,中国团队已经具备了和世界一流选手掰手腕的能力。
但这只是开始。
真正的竞争,不在论文里,而在产品里、在生态里、在每一个普通人的使用场景里。
作为用户,我们乐见其成。竞争越激烈,技术进步越快,我们能用到的产品就越好、越便宜。
作为从业者,我既兴奋又焦虑。兴奋的是看到了技术的可能性,焦虑的是怕自己跟不上这个速度。
AI 行业的天,确实要变了。
我们能做的,就是准备好,迎接这个变化。











