元旦期间,DeepSeek 发布的 mHC 震撼了整个 AI 社区。
简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。更多详情请参阅《刚刚,梁文锋署名,DeepSeek 元旦新论文要开启架构新篇章》。
时至今日,这篇让众多读者大呼看不懂的论文依然是技术社区关注的一大焦点。解读分享这篇论文就好像已成为一种技术时尚。


但还有更加硬核的,近日FlowMode 工程师 Taylor Kolasinski 宣布成功复现了 mHC,并且在测试中还取得了比 DeepSeek 原始论文更好的成绩

评论区也是直呼「不明觉厉」:

目前,Kolasinski 正通过一个 mHC 复现系列博客介绍其复现成果,相关博客已经发布了 2 篇。这里我们进行了整理,以飨读者。