AI 流利度指數:當我們都在用 AI,有多少人真的用得好?
採用 AI 是容易的,但真正的問題是:你有沒有在用 AI 的過程中,變得更會思考?還是更不會?
Anthropic 最近發布了一份很有意思的教育報告——The AI Fluency Index。這不是又一篇「AI 多厲害」的宣傳文,而是一份嘗試回答一個更深層問題的研究:當越來越多人每天都在用 AI,這些人是否正在發展出真正有效使用 AI 的能力?
他們稱這種能力為「AI 流利度」(AI Fluency),並且開發了一套衡量框架來追蹤它。
這份報告的結論既令人鼓舞,又令人不安。
一、什麼是 AI 流利度?他們怎麼測量?
Anthropic 使用的是由 Rick Dakan 和 Joseph Feller 教授與 Anthropic 合作開發的 4D AI Fluency Framework,定義了 24 種代表安全且有效的人機協作的行為指標。
其中 11 種可以直接在 Claude.ai 的對話中觀察到,包括:
- 迭代與精煉:是否在 Claude 的初始回應上持續改進
- 質疑推理:是否要求 Claude 解釋其邏輯
- 識別缺失脈絡:是否指出 Claude 遺漏的資訊
- 事實查核:是否驗證 Claude 的陳述
- 釐清目標:是否明確描述自己想要什麼
- 指定格式:是否告訴 Claude 用什麼格式回應
- 提供範例:是否給 Claude 示範
- 設定互動風格:是否告訴 Claude 他們希望它如何互動
另外 13 種(像是「對 AI 在工作中扮演的角色保持誠實」、「考慮分享 AI 生成內容的後果」)發生在對話介面之外,這次沒有被涵蓋。
他們用隱私保護分析工具研究了 2026 年 1 月一週內的 9,830 則對話,對每則對話的 11 種行為進行「有/無」的二元分類。
二、核心發現:迭代是一切的根基
報告最強的發現之一:85.7% 的對話展現了「迭代與精煉」行為——使用者不會接受第一個回應就離開,而是持續追問、修正、深化。
而這個行為與所有其他流利度指標都有強烈的正相關:
| 行為指標 | 有迭代的對話 | 沒有迭代的對話 | 差異 |
|---|---|---|---|
| 質疑推理 | 顯著更高 | 基線 | 5.6 倍 |
| 識別缺失脈絡 | 顯著更高 | 基線 | 4 倍 |
| 平均流利度行為數 | 2.67 | 1.33 | 2 倍 |
簡單來說:願意和 AI 來回對話的人,幾乎在每個維度上都展現出更高的 AI 流利度。
這呼應了 Anthropic 之前的 Economic Index 的發現:最常見的 AI 使用方式是增強性的(augmentative)——把 AI 當作思考夥伴,而不是完全委派工作給它。
三、令人不安的發現:產出越漂亮,質疑越少
這是整份報告最值得所有 AI 使用者警惕的段落。
當對話涉及 artifacts(程式碼、文件、互動工具等具體產出)時,使用者的行為出現了一個矛盾的模式:
指揮性行為上升:
- 釐清目標 +14.7 個百分點
- 指定格式 +14.5pp
- 提供範例 +13.4pp
- 迭代與精煉 +9.7pp
但批判性行為下降:
- 識別缺失脈絡 -5.2pp
- 事實查核 -3.7pp
- 質疑推理 -3.1pp
換句話說:當使用者在建構具體產出時,他們花更多精力告訴 AI 要做什麼,卻花更少精力檢查 AI 做得對不對。
Anthropic 自己也指出了幾個可能的解釋:
- Claude 產出的東西看起來太完整了,使用者覺得「看起來已經完成了」就不再深究
- 這些任務本身可能不需要太高的事實精確度(比如設計 UI vs. 撰寫法律分析)
- 使用者可能在對話之外進行評估(跑程式碼、測試 App、分享給同事看)
但不管是哪個解釋,這個模式都指向同一個方向:
AI 產出的品質越高、外觀越精緻,人類的批判性思維就越容易被關閉。
四、一個被低估的數字:只有 30% 的人會告訴 AI「怎麼和我互動」
報告提到,在整個樣本中,只有 30% 的對話中使用者會設定與 AI 的互動風格——比如告訴 Claude「如果我的假設錯了,請反駁我」、「先走過你的推理過程再給我答案」、「告訴我你不確定的地方」。
這個數字讓我很驚訝。
因為在我自己的使用經驗中,設定互動風格是影響對話品質最大的單一槓桿。當你告訴 AI「扮演一個會挑戰我觀點的對話者」,你得到的回應品質和你只說「幫我分析這個」完全不同。
70% 的使用者從來不做這件事,意味著他們把對話的品質完全交給了 AI 的預設行為——而 AI 的預設行為通常是順從的、討好的、不會主動挑戰你的。
你不設定規則,AI 就替你設定了。而它設定的規則,通常不是為了讓你思考得更好。
五、我的反思
反思一:流利度不等於正確
這份報告測量的是行為的「有或無」,而不是行為的「品質」。一個使用者可能「質疑了 Claude 的推理」,但質疑的方式本身就是錯誤的。一個使用者可能「進行了事實查核」,但查核的對象是無關緊要的細節,而放過了核心的邏輯漏洞。
「展現出流利度行為」和「真正有效地使用 AI」之間,還有一道很寬的鴻溝。 報告自己也承認了這一點(binary classification 的限制),但我認為這個限制比他們承認的更根本——它意味著這個指數可能系統性地高估了使用者的實際能力。
反思二:「增強」和「委派」的界線比想像中模糊
報告強調最好的 AI 使用方式是「增強性的」——把 AI 當思考夥伴。但在實際使用中,「增強」和「委派」之間的界線非常模糊。
我自己就經常遇到這種情況:我以為我在和 AI「一起思考」,但回頭看對話記錄,其實我只是在不斷微調 AI 的產出,而沒有真正貢獻我自己的判斷。表面上看起來是「迭代與精煉」,實際上是「反覆委派直到結果看起來可以接受」。
迭代不等於思考。來回修改十次不代表你真的在思考——可能只是在做 A/B testing,直到有一版看起來順眼。
反思三:這份報告本身就是一個「精緻產出」
最後一個有點後設(meta)的觀察:這份報告本身就很精緻、結構清晰、數據充分、結論合理。而我剛讀完時的第一反應是「這說得很有道理」——正好掉進了報告自己描述的那個陷阱。
精緻的產出降低質疑。這不只適用於 AI 的產出,也適用於人類的產出。一份寫得漂亮的研究報告,和一份設計精美的 App 一樣,都會讓接收者降低批判的門檻。
所以讓我們認真來挑戰一下這份報告。
六、挑戰:這份報告的幾個結構性問題
問題一:觀察者效應——你只能測量你能看到的
報告坦承只測量了 24 種行為中的 11 種,因為另外 13 種「發生在對話之外」。但這 13 種包括了一些最重要的能力:對 AI 角色的誠實、對 AI 生成內容的責任意識、考慮分享 AI 產出的後果。
這就像測量一個駕駛員的能力,但只測量他在車內的操作,而不測量他是否遵守交通規則、是否酒駕、是否對乘客負責。 車內操作當然重要,但缺少了那些「車外行為」,你對「好駕駛」的定義是不完整的。
而且那些不可觀測的行為,可能和可觀測的行為之間存在反向相關:一個在對話中看起來「高流利度」的使用者,可能恰恰是那個不加標註就把 AI 生成的內容交出去的人。
問題二:樣本偏差——你測量的是最不需要被測量的人 (註:超級bias)
報告自己也承認了這一點:他們的樣本來自 2026 年 1 月使用 Claude.ai 進行多輪對話的使用者。這些人幾乎確定是早期採用者——最熟悉 AI、最舒適使用 AI 的那群人。
用早期採用者的行為來建立「基線」,就像用馬拉松選手的心率來建立「正常人運動時的心率基線」。 它告訴你的是天花板附近的分布,而不是地板。
如果 Anthropic 真正關心的是「AI 流利度的發展」,他們需要的不是追蹤這群人的進化,而是追蹤新使用者從零到一的學習曲線。但這正好是他們的框架最難捕捉的。
問題三:相關不等於因果——迭代真的「導致」更高的流利度嗎?
報告最強的結論是:迭代與精煉和所有其他流利度行為之間有強烈的正相關。但他們自己也承認這是相關性而非因果性。
讓我提出一個替代假說:不是迭代導致了更高的流利度,而是任務複雜度同時驅動了迭代和流利度行為。
一個在做複雜研究分析的使用者,自然會進行更多輪對話(因為任務本身需要),也自然會展現更多質疑、查核、釐清的行為(因為任務本身的風險更高)。而一個只是問「幫我寫一段生日祝福」的使用者,自然一輪就完成了,也自然不需要質疑推理。
如果這個替代假說成立,那報告的實踐建議——「留在對話中,多迭代」——就有誤導的風險。因為問題不是你迭代了幾次,而是你的任務本身是否需要深度思考。強迫自己多迭代一個不需要深度思考的任務,不會讓你變得更流利——只會讓你變得更囉嗦。
問題四:「流利」的隱喻本身就值得質疑
Anthropic 選擇用「流利度」(fluency)這個詞來描述 AI 使用能力。但「流利」這個隱喻暗示了一個終點——就像學語言一樣,你最終會達到「流利」的程度。
然而 AI 工具的變化速度遠超任何語言的演變。今天你對 GPT-4 的「流利」,可能在 GPT-5 出來時就過時了。 提示詞策略會改變,模型的能力邊界會移動,最佳實踐會被重寫。
「流利」暗示了一種可以被達成的穩定狀態。但 AI 使用能力可能更接近「衝浪」——你永遠不會「學會衝浪」到一個可以停止學習的程度,因為每一波浪都不一樣。
也許我們需要的不是「AI 流利度」,而是「AI 適應力」(AI Adaptability)——一種能夠在工具持續變化的環境中,不斷重新校準自己使用方式的能力。
七、真正重要的問題
撇開方法論的挑戰,這份報告提出了一個我認為極其重要的問題框架:
我們衡量 AI 的採用率,但幾乎不衡量 AI 使用的品質。
全世界都在追蹤「有多少人在用 AI」,但幾乎沒有人在追蹤「這些人用得好不好」。Anthropic 至少開始嘗試回答後者,這本身就值得肯定。
但我認為比「流利度」更根本的問題是:
使用 AI 是否讓你在沒有 AI 的時候也變得更好?
如果你用 AI 寫了一百篇分析報告,但離開 AI 後你的分析能力和一百篇之前一樣——那你不是在「增強」,你是在「外包」。真正的流利度不是你在 AI 面前的表現,而是 AI 在你離開後留在你身上的東西。
這才是 Anthropic 未來研究中最值得追蹤的指標。可惜也是最難測量的。
八、最後:從這份報告帶走的三件事
-
留在對話中。不要接受第一個回應就離開。追問、質疑、要求解釋。這是與 AI 互動時最基本也最有效的習慣。
-
越漂亮越要懷疑。當 AI 給你一個看起來完美的產出時,那正是你最需要暫停和質疑的時刻。精緻是批判思維的麻醉劑。
-
設定你自己的規則。告訴 AI 你希望它怎麼和你互動。「挑戰我的假設」、「告訴我你不確定的地方」、「先解釋推理過程再給結論」。你不設定規則,AI 就會用它的預設值——而它的預設值是順從。
AI 流利不是學會怎麼讓 AI 做更多事。AI 流利是學會在 AI 面前,保持自己的思考不被關機。