在6月中旬获得500亿融资后仅十几天,6月27日,DeepSeek团队联合北京大学发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。
这不是一次模型版本的迭代,而是在原有DeepSeek-V4-Pro和DeepSeek-V4-Flash基础上增加了一个推测解码模块,重点在于工程落地层面的优化。
(资料图)
随DSpark一同开源的DeepSpec,是一个用于训练和评估推测解码草稿模型的全栈代码库,包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持MIT许可。目前DeepSpec已内置DSpark、DFlash和Eagle3三种实现。
值得注意的是,DeepSeek创始人梁文锋位列论文作者名单。在完成首轮融资的当下,创始人依然亲自参与技术论文撰写,这在AI行业并不多见。
实测数据验证:同等吞吐下,V4-Flash提速60%-85%,V4-Pro 提升 57%-78%
不同于仅停留在实验室的算法优化,DSpark 已完成真实用户流量落地验证。该框架全面部署于 DeepSeek-V4-Flash、V4-Pro 线上服务,替代此前 MTP-1 生产基线。在同等系统总吞吐规模下,V4-Flash 单用户生成速度提升 60%-85%,V4-Pro 提升 57%-78%。
除了DeepSeek自家的大模型,DSpark也已经部署到了阿里旗下的Qwen3-4B、8B、14B,以及Gemma4-12B。三大评测领域分别是:数学推理、代码生成、日常对话。
DSpark兼容 Qwen、Gemma 等国内外主流基座,同时配套 DeepSpec 仓库、模型权重全部开源。这意味着,对于缺乏底层算法团队的中小企业、ToB 服务商,无需投入巨额研发即可复用成熟推理优化方案,大幅降低大模型私有化部署、线上服务的落地门槛,智能体、工业代码、金融舆情等场景规模化落地速度有望加快。
论文数据显示,DSpark 在全部目标模型、全部评测领域下,稳定超越自回归基线 Eagle3 与并行基线 DFlash。以 Qwen3-4B/8B/14B 为例,宏平均接受长度相对 Eagle3 提升 30.9%、26.7%、30.0%;相对 DFlash 提升 16.3%、18.4%、18.3%。这一优势具备跨模型的泛化能力,在Gemma4-12B目标模型上同样取得了一致的性能增益。
除整体提升外,论文实验数据还揭示了显著的领域差异效应::结构化任务(如数学推理、代码生成)的可接受长度天然更高(例如Qwen3-4B在数学任务上平均为5.57,代码任务为5.12),而开放式对话场景则明显偏低(仅3.49)。
论文也指出当前方案存在局限:对于本身可预测性极低、接受率偏低的复杂查询,这部分前置草稿算力无法回收。未来的优化方向可在草稿模型内部引入难度感知的早退出机制,使此类请求能够跳过完整块生成流程。
不拼参数拼速度:DSpark的两项技术突破
大语言模型采用自回归方式生成文本——每生成一个新token都需要一次完整前向传播,推理延迟随输出长度线性增长。推测解码(Speculative Decoding)是行业公认的解决路径:用一个轻量级草稿模型快速生成候选token,再由大模型批量验证。
但现有方案各有短板。
自回归草稿模型(如Eagle3)逐token串行生成,依赖关系建模能力强、接受率高,但草稿耗时随候选块长线性增长,只能使用短块、浅层网络。
为打破串行瓶颈,并行草稿模型成为更优方案:所有草稿位置仅需单次前向传播即可生成,草稿耗时几乎不受块长影响。但想要充分发挥长并行草稿块的潜力,仍存在两大核心瓶颈:
生成质量瓶颈:并行草稿模型独立预测每个位置,无法建模块内 token 依赖,会出现多模态冲突问题,序列后半段 token 接受率快速衰减;
系统效率瓶颈:最优验证长度难以确定。并行生成虽能产出长草稿块,但不加区分地验证全部 token 会降低系统吞吐,高并发场景下问题尤为突出。
DSpark针对这两大瓶颈提出两项互补机制。
半自回归生成架构:保留并行主干的高吞吐优势,同时加入轻量级串行模块,逐token注入前缀依赖信息。该模块提供两种实现——仅依赖前一个token的马尔可夫头,以及通过循环状态累积完整前缀信息的RNN头。实验表明,两层Transformer深度的DSpark即可在所有测试领域超过五层DFlash的接受长度。
置信度调度验证机制:引入置信度头评估每个token在给定前缀下的“存活概率”。硬件感知前缀调度器根据实时引擎吞吐量动态决定最优验证长度,优先将算力分配给预期回报最高的token。论文发现原始置信头存在置信度过高问题,团队设计了“时序温度缩放”后验校准方案予以修正。
DeepSeek 在完成大额融资后并未单纯追求参数扩容,而是关注落地效率,击中产业真实痛点。在生成式AI从实验室走向商业化的周期里,“更快、更省算力”正在取代单纯的模型跑分,成为厂商竞争力的关键指标。
“太感谢邮储银行了,海鲈贷解决了我们渔民的融资难题!”珠海市斗门区
原标题:清风头条丨祁阳市:勤督促严问责优化营商环境见实效红网时刻新
9月9日,国家统计局发布数据显示,8月份,全国CPI(居民消费价格指数)
康华生物(300841)9月7日晚间公告,收到美国食品药品监督管理局(FDA)的
智通财经APP获悉,美联储周五的一份报告显示,受房地产和股票价值上涨
五粮液:公司对中秋旺季已做好相关准备将助力经销商抢抓旺季销售
旗舰机市场的日子不好过,也是手机厂商疯狂内卷导致的,造成这样的局面
“警察同志,你们快来看看。我们班学生好像挖出了一个炮弹!”据铜陵公
受台风“海葵”外围残留云系和季风影响,7日8时至8日3时,广州出现今年
浙能电力:看好中来股份的长期发展,会在条件成熟时适当增持,持股,新能

晨星:收购内地必胜客或利好 予百胜
智通财经APP获悉,晨星发布研报称,上调宽护城河的百胜中国(09987,YUMC

看热讯:6万亿元投资“源源而来”,
进入“十五五”时期,我国开始系统推进水网、新型电网、算力网、新一代

环球周刊网:多元资讯汇聚 洞察全球
环球周刊网(http: www zhoukan cc ?b=0)是一家综合性全球资讯平台,立足全球视野,整合时政、财经、科技、文化、体育、社会等多领域内容

今日热搜:鄱阳县高家岭匠锐鱼钩渔具
天眼查App显示,近日,鄱阳县高家岭匠锐鱼钩渔具店(个体工商户)成立

合百集团:公司前期参投了合肥市国联
证券之星消息,合百集团(000417)06月16日在投资者关系平台上答复投资者

【快播报】常州臻磐建材有限公司成立
天眼查App显示,近日,常州臻磐建材有限公司成立,法定代表人为胡苏云

常州市新北区薛家钱多多副食品店(个
天眼查App显示,近日,常州市新北区薛家钱多多副食品店(个体工商户)

播恩集团:控股股东及其一致行动人拟
播恩集团:控股股东及其一致行动人拟减持不超3%股份人民财讯6月16日电

今日要闻!创业板指高开高走收涨1.7%
6月16日,市场冲高回落,A股三大指数涨跌不一,沪指收绿,全市场成交额

每日头条!光线传媒:投资的第一款3A
光线传媒:投资的第一款3A游戏正在制作中预计2028年左右推向市场

德莱建业(01546.HK)预期2026年度净亏
,格隆汇

印度对进口中国铝箔征收反倾销税延至
据外媒报道,应印度铝工业公司和SRFAltech等多家公司申请,印度决定将

6月16日华正新材涨停:铜箔/覆铜板,
证券之星消息,华正新材6月16日涨停收盘,收盘价206 06元。该股于9点32

光大期货0616热点追踪:能化普跌,为
光大期货0616热点追踪:能化普跌,为什么甲醇跌得最猛?

今日要闻!物产金轮(002722.SZ):子公
格隆汇6月16日丨物产金轮在互动平台表示,子公司金轮精密自主研发的电

绿城在杭州成立置业公司 注册资本12
,证券时报网

国家统计局:需关注成本上升给企业带
国家统计局新闻发言人、国民经济综合统计司副司长王冠华6月16日在国新

简讯:中金发布研报称,维持玖龙纸业(
中金发布研报称,维持玖龙纸业(02689 HK)“跑赢行业”评级、盈利及目标

高透光高导电有机发光二极管制成
韩国首尔国立大学工程学院科学家研制出一款高性能有机发光二极管,集成

云南省旅游健康产业投资有限公司与石
人民财讯6月16日电,近日,云南省旅游健康产业投资有限公司与石基集团

A股“分步并购”悄然流行 2025年以
人民财讯6月16日电,新主先以“协议转让+表决权安排”低成本拿下控制权

新发遇冷存量走俏 大额存单市场现分
新发遇冷存量走俏大额存单市场现分化

城堡证券:利率上升将对风险资产构成
城堡证券:利率上升将对风险资产构成挑战美联储最快可能9月加息

中国石化:推5亿元-10亿元回购方案
中证智能财讯中国石化(600028)6月15日晚间披露A股股份回购报告书,公

正帆科技:6月12日董事史可成减持股
,证星持股追踪