當前位置：首頁 > 商業 >

Claude最強Sonnet模型4.6來了，百萬token上下文2026-02-18 21:30:22 | 編輯：admin | 來源：機器之心Pro

機器之心編輯部

大年初二，海外就開始發新模型了！

這次是 Anthropic，率先發布了他們稱之為「我們目前能力最強的 Sonnet 模型」Claude Sonnet 4.6。

【資料圖】

Claude 稱，新模型對編碼、計算機使用、長上下文推理、智能體規劃、知識工作和設計進行了全面升級。

Beta 版還包含 100 萬 token 的上下文窗口。

在價格方面，對于免費和專業版用戶，Claude Sonnet 4.6 現已成為 claude.ai 和 Claude Cowork 的默認模型。定價與 Sonnet 4.5 保持一致，仍為每百萬輸入 token 3 美元，每百萬輸出 token 15 美元。

那么具體性如何？在 GDPval-AA 測試中，Claude Sonnet 4.6 甚至略微領先于 Anthropic 剛剛發布不久的 Opus 4.6。

接下來，就讓我們仔細看下技術博客介紹。

計算機使用

2024 年 10 月，Claude 率先推出了通用的計算機使用模型。當時，這種技術「仍處于實驗階段 —— 有時操作繁瑣且容易出錯」。

AI 計算機使用的標準基準 OSWorld 展示了 Claude 模型的進步程度。該基準會在模擬計算機上運行真實軟件（Chrome、LibreOffice、VS Code 等），設置數百項任務。該基準也沒有沒有特殊的 API 或專用連接器；模型看到計算機并與其互動的方式與人非常相似：點擊（虛擬）鼠標和在（虛擬）鍵盤上打字。

在過去的十六個月里，Sonnet 模型在 OSWorld 上的性能穩步提升。這些改進在基準測試之外也可見一斑：早期的 Sonnet 4.6 用戶在多項任務（諸如瀏覽復雜電子表格或填寫多步驟網頁表單）中，看到了達到人類水平的能力，并且能在多個瀏覽器標簽頁中整合處理信息。

當然，該模型在使用計算機方面仍落后于最熟練的人類。但進步的速度依然顯著。這意味著：計算機使用的價值在提升 —— 并且表明能力更強的模型已指日可待。

圖表比較了多個 Sonnet 模型在 OSWorld 基準上的得分。注：Claude Sonnet 4.5 之前的得分基于原始 OSWorld 測量；從 Sonnet 4.5 開始使用 OSWorld-Verified。OSWorld-Verified（2025 年 7 月發布）是原始 OSWorld 基準的原位升級，對任務質量、評估評分和基礎設施進行了更新。

與此同時，計算機使用也帶來了風險：惡意行為者可能試圖通過提示注入攻擊，將指令隱藏在網站中來劫持模型。

Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全評估顯示，與其前代 Sonnet 4.5 相比，Sonnet 4.6 在這方面有重大改進，表現與 Opus 4.6 相近。

評估 Claude Sonnet 4.6

除了計算機使用，Claude Sonnet 4.6 在各項基準測試中均有提升。它的智能水平接近 Opus 級別，但價格更實惠，使其適用于更廣泛的任務。

一個表格展示了流行基準測試中 Sonnet 4.6 與其他前沿模型的相對性能比較。

Anthropic 的早期 Claude Code 測試發現，用戶大約有 70% 的時間更喜歡 Sonnet 4.6 而非 Sonnet 4.5。

用戶報告說，它在修改代碼前能更有效地理解上下文，并能整合共享邏輯而非簡單復制。

相比于 11 月發布的前沿模型 Opus 4.5，用戶甚至有 59% 的時間更喜歡 Sonnet 4.6。他們評價 Sonnet 4.6 在過度工程化和「偷懶」方面顯著減少，在指令遵循方面有明顯改進。用戶報告了更少的虛假成功聲明、更少的幻覺，以及在多步驟任務中更一致的執行力。

Sonnet 4.6 的上下文窗口為 100 萬 token，足以在單個請求中容納整個代碼庫、長篇合同或數十篇研究論文。更重要的是，Sonnet 4.6 能有效地在所有上下文中進行推理。這使得它在長程規劃方面表現更佳。

在 Vending-Bench Arena 評估中特別清晰地看到了這一點。該測試評估模型長期運營（模擬）業務的能力 —— 并且包含競爭元素，不同 AI 模型相互競爭以獲取最大利潤。

Sonnet 4.6 發展出一種有趣的新策略：它在模擬的前十個月大力投資于產能，支出遠超競爭對手，然后在最后階段急劇轉向專注于盈利能力。這一轉向的時機使其最終遠遠領先于競爭對手。

圖表顯示 Sonnet 4.6 在 Vending-Bench Arena 上優于 Sonnet 4.5：通過早期投資產能，然后在最后階段轉向盈利。