當 AI Agent 開始自己做決定:Anthropic 研究揭露的信任悖論與監管幻覺

我們正在目睹一個前所未有的轉變:人類不是放棄控制權,而是正在學習一種全新的控制方式。但問題是,這種控制方式能擴展到醫療、金融和法律嗎?

內文

Anthropic 在 2026 年 2 月 18 日發表了一篇研究文章:Measuring AI Agent Autonomy in Practice。他們分析了數百萬次 Claude Code 和公開 API 的人機互動數據,試圖回答一個我們都在迴避的問題:人們到底給了 AI Agent 多少自主權?而這個自主權正在往哪個方向移動?

這篇研究的密度極高,但真正讓我覺得值得深入拆解的,不只是數據本身,而是數據背後揭露的幾個深層矛盾。


一、最長的自主運行時間翻倍了——但中位數幾乎沒動

第一個讓我注意到的數據:Claude Code 最長自主運行時間(99.9 百分位)在三個月內從不到 25 分鐘翻倍到超過 45 分鐘。

但中位數呢?大約 45 秒,幾乎沒有波動。

這個落差告訴我們一件重要的事:自主權的擴張不是均勻發生的,它是由極端使用者在前線推動的。 大多數人還是在用 Agent 做短平快的任務——修一行程式碼、跑一個查詢。真正把 Agent 當成「自主工作者」來用的,是那極少數的 power user。

更耐人尋味的是,這個增長曲線是平滑的,沒有在特定模型發布時出現跳躍。Anthropic 的解讀是:存在一個巨大的「部署落差」(deployment overhang)——模型能夠處理的自主權遠超過它們在實務中被允許行使的。

換句話說,不是 AI 不夠強,是人類還沒準備好放手。


二、信任悖論:越信任,越打斷 (備註:喜歡這部分,值得深入探討)

這是整篇研究中最反直覺的發現:

  • 新手使用者(<50 次 session)大約 20% 的場次開啟完全自動核准。
  • 資深使用者(750+ 次 session)這個比例上升到超過 40%。
  • 但同時,資深使用者打斷 Claude 的頻率也更高——從 5% 上升到約 9%。

乍看之下矛盾:既然更信任了,為什麼反而更常中斷?

Anthropic 的解讀是「監督策略的轉變」——從「逐步審批」轉向「放手監控、適時介入」。新手一步一步確認,自然不需要打斷。老手放手讓 Agent 跑,但因為累積了更敏銳的直覺,他們知道什麼時候該跳進來。

我覺得這個現象比研究者本身意識到的更重要。

這其實是一種全新的人機協作模式的雛形。它不是「人類控制 AI」,也不是「AI 取代人類」,而是一種動態的、基於直覺的監督關係。最接近的類比不是主管與下屬,而是經驗豐富的飛行員與自動駕駛系統的關係——大部分時間放手,但在關鍵時刻立刻接管。

問題在於:飛行員經過了幾千小時的訓練才能建立那種直覺。我們讓普通使用者在沒有任何正式訓練的情況下,就進入了同樣的監督模式。這個落差是危險的。


三、Agent 自己踩煞車的頻率比人類打斷它還高

另一個讓我驚訝的數據:在最複雜的任務上,Claude Code 主動暫停詢問澄清的頻率,是人類打斷它的兩倍以上。

Anthropic 訓練 Claude 在面對模糊任務時主動提問,而數據顯示這個機制確實在起作用——任務越複雜,Claude 越常踩煞車。

這讓我聯想到一個更根本的問題:我們對 AI 安全的討論,是不是太過聚焦在「如何從外部控制 AI」,而忽略了「如何讓 AI 從內部限制自己」?

如果一個 Agent 能夠準確辨識自己的不確定性,並在適當時刻主動尋求人類指引,那這本身就是一種極強的安全機制——甚至比外部的權限系統更有效,因為它能作用在外部系統無法觸及的決策粒度上。

當然,Anthropic 自己也承認這個發現不能過度解讀:Claude 可能不是在正確的時刻停下來,它可能問了不必要的問題,它的行為也可能受到產品設計(如 Plan Mode)的影響。

但方向是對的。未來 AI 安全的關鍵指標,可能不是「人類能不能控制 AI」,而是「AI 能不能準確地控制自己」。


四、風險前線正在擴張——向我們還沒準備好的領域

目前,軟體工程佔了 API 上將近 50% 的 agentic 活動。這不意外——寫程式天然適合讓 Agent 自主運作,因為你可以跑測試、看結果、review code,出錯了就回溯。

但 Anthropic 也觀察到了醫療、金融、網路安全等領域的早期使用。這些是完全不同等級的風險場景:

軟體工程 高風險領域
錯誤可逆(git revert) 錯誤可能不可逆(錯誤診斷、錯誤交易)
輸出容易驗證(跑測試) 驗證需要相同等級的專業知識
失敗成本低 失敗成本可能是人命或巨額財損

Anthropic 點出了一個關鍵觀察:在軟體工程中培養出的信任模式,可能無法直接遷移到這些領域。 因為在程式碼中,你可以看到 Agent 做了什麼然後驗證對錯;在醫療診斷中,驗證 Agent 的輸出本身就需要一個專科醫師的判斷力。

這是我認為整篇研究中最被低估的警告。

我們正在軟體工程這個相對安全的沙盒裡,快速建立對 Agent 的信任。這種信任會在心理上「溢出」到其他場域——一個工程師每天放心讓 Claude 自主寫 code,他很容易覺得「那讓它也幫我分析財報吧」。但這兩個場景的容錯空間完全不同。


五、監管的幻覺:逐步審批不等於有效監督

Anthropic 在建議中明確指出:現在不應該強制規定特定的互動模式。

要求人類批准每一個 Agent 動作的監督要求,會製造摩擦而不一定帶來安全效益。

這是對當前很多 AI 治理討論的直接挑戰。很多人(包括政策制定者)下意識的反應是「那就要求人類審批每一步嘛」。但 Anthropic 的數據顯示,這種做法在實務中行不通——資深使用者自然而然就會放棄它,轉向監控式的監督。

強制逐步審批就像要求一個經驗豐富的外科醫師在每一刀之前都填一張表格。它讓流程看起來更安全,但實際上只是製造了合規的幻覺,同時降低了效率。

真正有效的監督,是確保人類在需要介入的時候能夠介入,而不是在每一步都被迫介入。

但這也帶來一個新的難題:誰來決定「什麼時候需要介入」?如果這個判斷要靠使用者的經驗直覺,那我們等於把安全的最後一道防線,建立在一個我們既不能測試、也不能標準化的人類能力上。


六、我的觀察:三個研究沒說出口的問題

讀完整篇研究後,我認為有三個 Anthropic 沒有明確挑戰、但我們不能迴避的問題:

1. 「用 Claude 來分析 Claude」的循環問題

整篇研究大量使用 Claude 本身來分類和評估 Agent 行為的風險等級、自主程度和人類介入程度。這不是一個小問題——這是讓被研究的對象同時擔任研究的工具

Anthropic 承認了一些限制(例如 Claude 傾向高估人類介入程度),但他們對這個方法論的根本困境沒有足夠的反思。當你用 AI 來評估 AI 的行為,你已經預設了 AI 有能力準確判斷自己的行為——而這恰恰是我們試圖驗證的事情。

2. 採樣偏差:我們看到的是工程師的世界

Claude Code 的使用者絕大多數是軟體工程師。API 的使用者也偏重技術背景。這意味著研究中觀察到的「監督策略轉變」——從逐步審批到監控式監督——可能只反映了一個特定族群的行為模式。

工程師天然習慣在高度不確定的環境中做決策。他們有 debug 的直覺、有版本控制的安全網、有測試驅動的驗證習慣。把他們的行為模式推廣為「人類如何適應 Agent」,可能嚴重低估了其他專業領域使用者面臨的挑戰。

3. 「部署落差」到底是安全緩衝還是定時炸彈?

Anthropic 很中性地描述了那個「部署落差」——模型能力超前於實際被授予的自主權。但這個落差的消失方式,才是真正值得擔心的。

如果落差是逐漸、可控地縮小,那它就是健康的學習曲線。但如果某個產品功能更新、某次模型升級、或某個競爭壓力突然讓大量使用者同時放開手——那就是一次自主權的相變,而我們的安全基礎設施可能跟不上。


七、結語:我們需要的不是更多控制,是更好的共同演化

這篇研究最深刻的一句話,出現在結尾:

The autonomy agents exercise in practice is co-constructed by the model, the user, and the product.

Agent 在實務中行使的自主權,是模型、使用者和產品三者共同建構的。

這句話看起來像陳述句,但其實是一個深刻的框架轉變:自主權不是你「給」Agent 的東西,而是在互動中「長出來」的東西。 它是三方動態博弈的均衡點,而這個均衡點會隨著時間遷移。

這代表「AI 安全」不能只是一個技術問題或政策問題,它必須是一個生態系統問題。模型開發者、產品設計者、使用者、和監管者,都必須參與到這個共同演化中——而不是任何一方試圖單方面設定規則。

我們正在進入一個沒有先例的時代。人類從來沒有需要與一個持續學習、持續變強的非人類代理人建立信任關係。過去所有的「授權」框架——從法律到管理學——都假設被授權者是人類。

Anthropic 這篇研究最大的貢獻,不是它的數據或發現,而是它示範了一種態度:在 Agent 時代,你不能只測試模型能做什麼,你必須測量人類和模型在現實中實際上在做什麼。 這是完全不同的兩件事。

而我們才剛剛開始學習怎麼做第二件事。


參考來源