【資料圖】
繼去年底發布一篇新論文后,1月12日晚,DeepSeek又上新了一篇論文,這次聚焦的是大模型的條件記憶模塊,在結論中DeepSeek 認為,這將成為下一代稀疏大模型中不可或缺的核心建模原語。
此前有爆料稱DeepSeek下一代大模型V4將在春節前后發布,結合這幾次研究,業內猜測這或許就是DeepSeek V4的研究路線圖。
此次發布的論文是DeepSeek與北京大學合作完成的,名稱為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于條件查找的條件記憶:大型語言模型稀疏性的新維度》),作者一列同樣有DeepSeek創始人梁文鋒的署名。
這篇論文的核心觀察是,大模型包含兩種性質完全不同的任務,一種是需要深度動態計算的組合推理,另一種則是檢索靜態知識。而現有的Transformer架構缺乏原生的知識查找機制,只能通過計算低效地模擬檢索過程。例如模型查找不變的知識時,得浪費算力重新推導一遍,既費時間又占資源。
為解決這一問題,DeepSeek團隊引入了條件記憶作為補充的稀疏性維度,并通過Engram這一條件記憶模塊實現,優化神經計算(MoE)與靜態記憶(Engram)之間的權衡關系。
團隊還發現了U型縮放定律,表明 MoE 專家和 Engram 記憶之間的混合稀疏容量分配嚴格優于純 MoE 基準模型。值得注意的是,盡管記憶模塊直觀上有助于知識檢索,但團隊在通用推理、代碼和數學領域觀察到了更為顯著的收益。
簡單來說,現在的MoE 模型處理推理和記固定知識用的是一套方法,效率較低且浪費算力,這篇論文本質是給大模型做了 “分工優化”:讓專門的模塊干專門的事,例如有“記憶本”管固定知識,而推理模塊管復雜思考,再按最佳比例分配資源,最終讓模型又快又聰明。
DeepSeek在論文最后表明,條件記憶將成為下一代稀疏模型不可或缺的建模原語。有行業人士猜測,此次提出的條件記憶或許就是下一代大模型DeepSeek V4的技術架構。
此前有報道稱,DeepSeek將于2月發布新一代旗艦模型DeepSeek V4,且內部初步測試表明,V4在編程能力上超過了市場上的其他頂級模型。目前DeepSeek并未對此進行任何回應。報道也提及發布計劃可能會根據實際情況進行調整。
自2024年底發布V3模型后,DeepSeek的下一代旗艦模型一直未出,去年底DeepSeek發布了小更新V3.2版本,并提及該版本在多個基準測試中超過了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行業一直在觀望DeepSeek的旗艦模型,V4的推出或將成為業界關注的焦點。




![[異常波動]浙文互聯(600986):浙文互聯股票交易異常波動](http://img.bfce.cn/2022/0610/20220610015944200.jpg)























