機(jī)器之心編輯部
大年初二,海外就開始發(fā)新模型了!
這次是 Anthropic,率先發(fā)布了他們稱之為「我們目前能力最強(qiáng)的 Sonnet 模型」Claude Sonnet 4.6。
【資料圖】
Claude 稱,新模型對編碼、計(jì)算機(jī)使用、長上下文推理、智能體規(guī)劃、知識工作和設(shè)計(jì)進(jìn)行了全面升級。
Beta 版還包含 100 萬 token 的上下文窗口。
在價(jià)格方面,對于免費(fèi)和專業(yè)版用戶,Claude Sonnet 4.6 現(xiàn)已成為 claude.ai 和 Claude Cowork 的默認(rèn)模型。定價(jià)與 Sonnet 4.5 保持一致,仍為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。
那么具體性如何?在 GDPval-AA 測試中,Claude Sonnet 4.6 甚至略微領(lǐng)先于 Anthropic 剛剛發(fā)布不久的 Opus 4.6。
接下來,就讓我們仔細(xì)看下技術(shù)博客介紹。
計(jì)算機(jī)使用
2024 年 10 月,Claude 率先推出了通用的計(jì)算機(jī)使用模型。當(dāng)時(shí),這種技術(shù)「仍處于實(shí)驗(yàn)階段 —— 有時(shí)操作繁瑣且容易出錯(cuò)」。
AI 計(jì)算機(jī)使用的標(biāo)準(zhǔn)基準(zhǔn) OSWorld 展示了 Claude 模型的進(jìn)步程度。該基準(zhǔn)會在模擬計(jì)算機(jī)上運(yùn)行真實(shí)軟件(Chrome、LibreOffice、VS Code 等),設(shè)置數(shù)百項(xiàng)任務(wù)。該基準(zhǔn)也沒有沒有特殊的 API 或?qū)S眠B接器;模型看到計(jì)算機(jī)并與其互動的方式與人非常相似:點(diǎn)擊(虛擬)鼠標(biāo)和在(虛擬)鍵盤上打字。
在過去的十六個(gè)月里,Sonnet 模型在 OSWorld 上的性能穩(wěn)步提升。這些改進(jìn)在基準(zhǔn)測試之外也可見一斑:早期的 Sonnet 4.6 用戶在多項(xiàng)任務(wù)(諸如瀏覽復(fù)雜電子表格或填寫多步驟網(wǎng)頁表單)中,看到了達(dá)到人類水平的能力,并且能在多個(gè)瀏覽器標(biāo)簽頁中整合處理信息。
當(dāng)然,該模型在使用計(jì)算機(jī)方面仍落后于最熟練的人類。但進(jìn)步的速度依然顯著。這意味著:計(jì)算機(jī)使用的價(jià)值在提升 —— 并且表明能力更強(qiáng)的模型已指日可待。
圖表比較了多個(gè) Sonnet 模型在 OSWorld 基準(zhǔn)上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 測量;從 Sonnet 4.5 開始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月發(fā)布)是原始 OSWorld 基準(zhǔn)的原位升級,對任務(wù)質(zhì)量、評估評分和基礎(chǔ)設(shè)施進(jìn)行了更新。
與此同時(shí),計(jì)算機(jī)使用也帶來了風(fēng)險(xiǎn):惡意行為者可能試圖通過提示注入攻擊,將指令隱藏在網(wǎng)站中來劫持模型。
Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全評估顯示,與其前代 Sonnet 4.5 相比,Sonnet 4.6 在這方面有重大改進(jìn),表現(xiàn)與 Opus 4.6 相近。
評估 Claude Sonnet 4.6
除了計(jì)算機(jī)使用,Claude Sonnet 4.6 在各項(xiàng)基準(zhǔn)測試中均有提升。它的智能水平接近 Opus 級別,但價(jià)格更實(shí)惠,使其適用于更廣泛的任務(wù)。
一個(gè)表格展示了流行基準(zhǔn)測試中 Sonnet 4.6 與其他前沿模型的相對性能比較。
Anthropic 的早期 Claude Code 測試發(fā)現(xiàn),用戶大約有 70% 的時(shí)間更喜歡 Sonnet 4.6 而非 Sonnet 4.5。
用戶報(bào)告說,它在修改代碼前能更有效地理解上下文,并能整合共享邏輯而非簡單復(fù)制。
相比于 11 月發(fā)布的前沿模型 Opus 4.5,用戶甚至有 59% 的時(shí)間更喜歡 Sonnet 4.6。他們評價(jià) Sonnet 4.6 在過度工程化和「偷懶」方面顯著減少,在指令遵循方面有明顯改進(jìn)。用戶報(bào)告了更少的虛假成功聲明、更少的幻覺,以及在多步驟任務(wù)中更一致的執(zhí)行力。
Sonnet 4.6 的上下文窗口為 100 萬 token,足以在單個(gè)請求中容納整個(gè)代碼庫、長篇合同或數(shù)十篇研究論文。更重要的是,Sonnet 4.6 能有效地在所有上下文中進(jìn)行推理。這使得它在長程規(guī)劃方面表現(xiàn)更佳。
在 Vending-Bench Arena 評估中特別清晰地看到了這一點(diǎn)。該測試評估模型長期運(yùn)營(模擬)業(yè)務(wù)的能力 —— 并且包含競爭元素,不同 AI 模型相互競爭以獲取最大利潤。
Sonnet 4.6 發(fā)展出一種有趣的新策略:它在模擬的前十個(gè)月大力投資于產(chǎn)能,支出遠(yuǎn)超競爭對手,然后在最后階段急劇轉(zhuǎn)向?qū)W⒂谟芰Α_@一轉(zhuǎn)向的時(shí)機(jī)使其最終遠(yuǎn)遠(yuǎn)領(lǐng)先于競爭對手。
圖表顯示 Sonnet 4.6 在 Vending-Bench Arena 上優(yōu)于 Sonnet 4.5:通過早期投資產(chǎn)能,然后在最后階段轉(zhuǎn)向盈利。
Claude Sonnet 4.6 已經(jīng)向哪些用戶開放?
Claude Sonnet 4.6 現(xiàn)已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平臺開放。Anthropic 也已將免費(fèi)套餐默認(rèn)升級至 Sonnet 4.6 版本 —— 現(xiàn)在包含文件創(chuàng)建、連接器、技能和壓縮功能。
如果你是開發(fā)者,也可以通過 Claude API 快速開始使用 claude-sonnet-4-6。


























