
论文概述
根据 www.Todayusstock.com 报道,2026年1月1日,中国人工智能企业DeepSeek发布了一篇重磅论文《mHC: Manifold-Constrained Hyper-Connections》,由公司创始人兼CEO梁文锋亲自署名并上传。该论文提出了一种新型神经网络架构——流形约束超连接(mHC),旨在克服传统超连接(HC)在大规模模型训练中出现的训练不稳定、信号爆炸和内存开销过高等难题,同时保留其带来的显著性能提升。这一创新被视为对Transformer残差连接范式的重大扩展,有望推动下一代基础模型的发展。
论文作者团队包括多名核心研究员,如解振达、韦毅轩和曹焕琪等19人,体现了DeepSeek在底层架构研究上的深度投入。mHC的核心思想是将残差连接空间投影到特定流形上,恢复恒等映射属性,从而实现稳定训练。该研究不仅解决了HC的实际可扩展性限制,还通过基础设施优化将额外计算开销控制在极低水平,为资源受限的企业训练更大模型提供了新路径。
架构对比
mHC建立在传统残差连接和超连接的基础上,以下表格详细对比三种架构的关键特性:
| 架构类型 | 残差流宽度 | 连接模式 | 训练稳定性 | 额外开销 | 性能提升 |
|---|---|---|---|---|---|
| 标准残差连接 | 单一流 | 固定恒等映射 | 高 | 无 | 基准 |
| 超连接(HC) | 多流扩展(n倍) | 可学习多样化 | 低(易信号爆炸) | 高(内存壁垒) | 显著 |
| mHC(流形约束) | 多流扩展 | 约束于双拟随机矩阵 | 高 | 低(约6.7%) | 显著且稳定 |
从对比可见,mHC在保留HC性能优势的同时,显著提升了稳定性与效率,特别适合大规模预训练场景。
核心创新
mHC的最大创新在于引入流形约束机制,利用Sinkhorn-Knopp算法将连接矩阵投影到双拟随机矩阵流形上,确保行和列和均为1,从而防止信号放大或衰减导致的数值不稳定。这一约束恢复了残差连接的恒等映射特性,同时允许多流并行处理信息,提升模型表征能力。
此外,团队进行了严谨的基础设施优化,包括高效投影实现和内存访问改进,使扩展率n=4时的训练开销仅增加约6.7%。这一设计使mHC成为HC的实用化扩展,适用于MoE式混合专家模型等复杂架构。论文强调,mHC框架灵活,可兼容未来针对特定目标设计的多种流形约束,进一步开拓宏观架构研究空间。
实验结果
研究团队在3亿、9亿和27亿参数规模的模型上进行了全面验证,基于DeepSeek-V3风格的MoE预训练设置。结果显示,mHC模型在多个下游基准上持续优于标准残差和无约束HC基线,同时训练过程无明显不稳定现象。特别是在大规模扩展时,mHC展现出优异的可扩展性,性能增益显著且计算负担最小化。这一实验证实了mHC在实际工业级训练中的有效性,为未来更大模型如潜在的DeepSeek-V4奠定基础。
行业影响
mHC的发布标志着2026年AI架构创新的强势开局,尤其对中国AI企业意义重大。在算力资源相对受限的环境下,该架构通过提升训练效率,帮助降低大模型研发门槛。行业观察者预测,mHC有望快速融入主流框架,可能在短期内出现在新模型迭代中,推动从参数规模向架构优化的范式转变。梁文锋的亲自参与也彰显了DeepSeek对底层技术的持续投入,或将进一步巩固其在开源大模型领域的领先地位。
编辑总结
DeepSeek的mHC架构有效化解了超连接在规模化应用中的核心痛点,通过数学约束与工程优化实现了性能、稳定性和效率的平衡。这一进展不仅提升了大模型训练的可行性,还为宏观神经网络设计提供了新方向,预计将加速行业向更高效基础模型演进,惠及资源多样化的全球AI生态。
【常见问题解答】
问题1:DeepSeek新论文mHC架构的核心目标是什么?mHC旨在解决传统超连接(HC)在大规模训练中因破坏恒等映射而导致的数值不稳定和信号爆炸问题,同时保留HC的多流扩展带来的性能增益。通过流形约束机制,确保训练过程稳定且高效,适用于更大参数模型的工业级开发。
问题2:mHC与传统残差连接和HC有何区别?传统残差连接采用单一固定流,稳定性高但性能有限;HC通过多流可学习连接提升性能,却易引发不稳定和内存开销;mHC在HC基础上添加双拟随机矩阵约束,恢复稳定性,仅以约6.7%开销实现优异性能和可扩展性。
问题3:mHC如何实现训练稳定性的提升?mHC利用Sinkhorn-Knopp算法将连接矩阵投影到特定流形,确保信号能量守恒,防止放大或衰减。同时结合基础设施优化,避免内存壁垒,使扩展率更高的多流架构在实际训练中保持平稳,无需频繁重启或调整超参数。
问题4:论文实验验证了mHC在哪些规模模型上的效果?团队在3亿、9亿和27亿参数的MoE式模型上测试,结果显示mHC在多个基准上优于基线,训练无不稳定现象,证明其在从小到大不同规模下的适应性和优越性,为未来数百亿甚至万亿参数模型提供可靠基础。
问题5:mHC对AI行业尤其是中国企业的潜在影响如何?在算力资源竞争激烈的背景下,mHC显著降低训练开销和门槛,帮助企业以更少资源实现更大模型开发。预计将推动架构创新浪潮,加速开源模型迭代,并可能在2026年新模型中落地,进一步缩小与国际巨头的差距,促进高效AI生态建设。
来源:今日美股网