DeepSeek論文上新！下一代大模型實(shí)現(xiàn)“記憶分離”，V4不遠(yuǎn)了？2026-01-13 12:32:12 | 編輯：admin | 來(lái)源：第一財(cái)經(jīng)資訊

【資料圖】

繼去年底發(fā)布一篇新論文后，1月12日晚，DeepSeek又上新了一篇論文，這次聚焦的是大模型的條件記憶模塊，在結(jié)論中DeepSeek 認(rèn)為，這將成為下一代稀疏大模型中不可或缺的核心建模原語(yǔ)。

此前有爆料稱DeepSeek下一代大模型V4將在春節(jié)前后發(fā)布，結(jié)合這幾次研究，業(yè)內(nèi)猜測(cè)這或許就是DeepSeek V4的研究路線圖。

此次發(fā)布的論文是DeepSeek與北京大學(xué)合作完成的，名稱為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（《基于條件查找的條件記憶：大型語(yǔ)言模型稀疏性的新維度》），作者一列同樣有DeepSeek創(chuàng)始人梁文鋒的署名。

這篇論文的核心觀察是，大模型包含兩種性質(zhì)完全不同的任務(wù)，一種是需要深度動(dòng)態(tài)計(jì)算的組合推理，另一種則是檢索靜態(tài)知識(shí)。而現(xiàn)有的Transformer架構(gòu)缺乏原生的知識(shí)查找機(jī)制，只能通過(guò)計(jì)算低效地模擬檢索過(guò)程。例如模型查找不變的知識(shí)時(shí)，得浪費(fèi)算力重新推導(dǎo)一遍，既費(fèi)時(shí)間又占資源。

為解決這一問(wèn)題，DeepSeek團(tuán)隊(duì)引入了條件記憶作為補(bǔ)充的稀疏性維度，并通過(guò)Engram這一條件記憶模塊實(shí)現(xiàn)，優(yōu)化神經(jīng)計(jì)算（MoE）與靜態(tài)記憶（Engram）之間的權(quán)衡關(guān)系。

團(tuán)隊(duì)還發(fā)現(xiàn)了U型縮放定律，表明 MoE 專家和 Engram 記憶之間的混合稀疏容量分配嚴(yán)格優(yōu)于純 MoE 基準(zhǔn)模型。值得注意的是，盡管記憶模塊直觀上有助于知識(shí)檢索，但團(tuán)隊(duì)在通用推理、代碼和數(shù)學(xué)領(lǐng)域觀察到了更為顯著的收益。

簡(jiǎn)單來(lái)說(shuō)，現(xiàn)在的MoE 模型處理推理和記固定知識(shí)用的是一套方法，效率較低且浪費(fèi)算力，這篇論文本質(zhì)是給大模型做了 “分工優(yōu)化”：讓專門的模塊干專門的事，例如有“記憶本”管固定知識(shí)，而推理模塊管復(fù)雜思考，再按最佳比例分配資源，最終讓模型又快又聰明。

DeepSeek在論文最后表明，條件記憶將成為下一代稀疏模型不可或缺的建模原語(yǔ)。有行業(yè)人士猜測(cè)，此次提出的條件記憶或許就是下一代大模型DeepSeek V4的技術(shù)架構(gòu)。

此前有報(bào)道稱，DeepSeek將于2月發(fā)布新一代旗艦?zāi)Ｐ虳eepSeek V4，且內(nèi)部初步測(cè)試表明，V4在編程能力上超過(guò)了市場(chǎng)上的其他頂級(jí)模型。目前DeepSeek并未對(duì)此進(jìn)行任何回應(yīng)。報(bào)道也提及發(fā)布計(jì)劃可能會(huì)根據(jù)實(shí)際情況進(jìn)行調(diào)整。

自2024年底發(fā)布V3模型后，DeepSeek的下一代旗艦?zāi)Ｐ鸵恢蔽闯觯ツ甑譊eepSeek發(fā)布了小更新V3.2版本，并提及該版本在多個(gè)基準(zhǔn)測(cè)試中超過(guò)了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行業(yè)一直在觀望DeepSeek的旗艦?zāi)Ｐ停琕4的推出或?qū)⒊蔀闃I(yè)界關(guān)注的焦點(diǎn)。

關(guān)鍵詞論文推理大模型正式版模型 deepseek