AI 流利度指數：當我們都在用 AI，有多少人真的用得好？

採用 AI 是容易的，但真正的問題是：你有沒有在用 AI 的過程中，變得更會思考？還是更不會？

oDust

2026年02月23日

Experience, 2026

內文

Anthropic 最近發布了一份很有意思的教育報告——The AI Fluency Index。這不是又一篇「AI 多厲害」的宣傳文，而是一份嘗試回答一個更深層問題的研究：當越來越多人每天都在用 AI，這些人是否正在發展出真正有效使用 AI 的能力？

他們稱這種能力為「AI 流利度」（AI Fluency），並且開發了一套衡量框架來追蹤它。

這份報告的結論既令人鼓舞，又令人不安。

一、什麼是 AI 流利度？他們怎麼測量？

Anthropic 使用的是由 Rick Dakan 和 Joseph Feller 教授與 Anthropic 合作開發的 4D AI Fluency Framework，定義了 24 種代表安全且有效的人機協作的行為指標。

其中 11 種可以直接在 Claude.ai 的對話中觀察到，包括：

迭代與精煉：是否在 Claude 的初始回應上持續改進
質疑推理：是否要求 Claude 解釋其邏輯
識別缺失脈絡：是否指出 Claude 遺漏的資訊
事實查核：是否驗證 Claude 的陳述
釐清目標：是否明確描述自己想要什麼
指定格式：是否告訴 Claude 用什麼格式回應
提供範例：是否給 Claude 示範
設定互動風格：是否告訴 Claude 他們希望它如何互動

另外 13 種（像是「對 AI 在工作中扮演的角色保持誠實」、「考慮分享 AI 生成內容的後果」）發生在對話介面之外，這次沒有被涵蓋。

他們用隱私保護分析工具研究了 2026 年 1 月一週內的 9,830 則對話，對每則對話的 11 種行為進行「有/無」的二元分類。

二、核心發現：迭代是一切的根基

報告最強的發現之一：85.7% 的對話展現了「迭代與精煉」行為——使用者不會接受第一個回應就離開，而是持續追問、修正、深化。

而這個行為與所有其他流利度指標都有強烈的正相關：

行為指標	有迭代的對話	沒有迭代的對話	差異
質疑推理	顯著更高	基線	5.6 倍
識別缺失脈絡	顯著更高	基線	4 倍
平均流利度行為數	2.67	1.33	2 倍

簡單來說：願意和 AI 來回對話的人，幾乎在每個維度上都展現出更高的 AI 流利度。

這呼應了 Anthropic 之前的 Economic Index 的發現：最常見的 AI 使用方式是增強性的（augmentative）——把 AI 當作思考夥伴，而不是完全委派工作給它。

三、令人不安的發現：產出越漂亮，質疑越少

這是整份報告最值得所有 AI 使用者警惕的段落。

當對話涉及 artifacts（程式碼、文件、互動工具等具體產出）時，使用者的行為出現了一個矛盾的模式：

指揮性行為上升：

釐清目標 +14.7 個百分點
指定格式 +14.5pp
提供範例 +13.4pp
迭代與精煉 +9.7pp

但批判性行為下降：

識別缺失脈絡 -5.2pp
事實查核 -3.7pp
質疑推理 -3.1pp

換句話說：當使用者在建構具體產出時，他們花更多精力告訴 AI 要做什麼，卻花更少精力檢查 AI 做得對不對。

Anthropic 自己也指出了幾個可能的解釋：

Claude 產出的東西看起來太完整了，使用者覺得「看起來已經完成了」就不再深究
這些任務本身可能不需要太高的事實精確度（比如設計 UI vs. 撰寫法律分析）
使用者可能在對話之外進行評估（跑程式碼、測試 App、分享給同事看）

但不管是哪個解釋，這個模式都指向同一個方向：

AI 產出的品質越高、外觀越精緻，人類的批判性思維就越容易被關閉。

四、一個被低估的數字：只有 30% 的人會告訴 AI「怎麼和我互動」

報告提到，在整個樣本中，只有 30% 的對話中使用者會設定與 AI 的互動風格——比如告訴 Claude「如果我的假設錯了，請反駁我」、「先走過你的推理過程再給我答案」、「告訴我你不確定的地方」。

這個數字讓我很驚訝。

因為在我自己的使用經驗中，設定互動風格是影響對話品質最大的單一槓桿。當你告訴 AI「扮演一個會挑戰我觀點的對話者」，你得到的回應品質和你只說「幫我分析這個」完全不同。

70% 的使用者從來不做這件事，意味著他們把對話的品質完全交給了 AI 的預設行為——而 AI 的預設行為通常是順從的、討好的、不會主動挑戰你的。

你不設定規則，AI 就替你設定了。而它設定的規則，通常不是為了讓你思考得更好。

五、我的反思

反思一：流利度不等於正確

這份報告測量的是行為的「有或無」，而不是行為的「品質」。一個使用者可能「質疑了 Claude 的推理」，但質疑的方式本身就是錯誤的。一個使用者可能「進行了事實查核」，但查核的對象是無關緊要的細節，而放過了核心的邏輯漏洞。

「展現出流利度行為」和「真正有效地使用 AI」之間，還有一道很寬的鴻溝。 報告自己也承認了這一點（binary classification 的限制），但我認為這個限制比他們承認的更根本——它意味著這個指數可能系統性地高估了使用者的實際能力。

反思二：「增強」和「委派」的界線比想像中模糊

報告強調最好的 AI 使用方式是「增強性的」——把 AI 當思考夥伴。但在實際使用中，「增強」和「委派」之間的界線非常模糊。

我自己就經常遇到這種情況：我以為我在和 AI「一起思考」，但回頭看對話記錄，其實我只是在不斷微調 AI 的產出，而沒有真正貢獻我自己的判斷。表面上看起來是「迭代與精煉」，實際上是「反覆委派直到結果看起來可以接受」。

迭代不等於思考。來回修改十次不代表你真的在思考——可能只是在做 A/B testing，直到有一版看起來順眼。

反思三：這份報告本身就是一個「精緻產出」

最後一個有點後設（meta）的觀察：這份報告本身就很精緻、結構清晰、數據充分、結論合理。而我剛讀完時的第一反應是「這說得很有道理」——正好掉進了報告自己描述的那個陷阱。

精緻的產出降低質疑。這不只適用於 AI 的產出，也適用於人類的產出。一份寫得漂亮的研究報告，和一份設計精美的 App 一樣，都會讓接收者降低批判的門檻。

所以讓我們認真來挑戰一下這份報告。

六、挑戰：這份報告的幾個結構性問題

問題一：觀察者效應——你只能測量你能看到的

報告坦承只測量了 24 種行為中的 11 種，因為另外 13 種「發生在對話之外」。但這 13 種包括了一些最重要的能力：對 AI 角色的誠實、對 AI 生成內容的責任意識、考慮分享 AI 產出的後果。

這就像測量一個駕駛員的能力，但只測量他在車內的操作，而不測量他是否遵守交通規則、是否酒駕、是否對乘客負責。 車內操作當然重要，但缺少了那些「車外行為」，你對「好駕駛」的定義是不完整的。

而且那些不可觀測的行為，可能和可觀測的行為之間存在反向相關：一個在對話中看起來「高流利度」的使用者，可能恰恰是那個不加標註就把 AI 生成的內容交出去的人。

問題二：樣本偏差——你測量的是最不需要被測量的人 (註：超級bias)

報告自己也承認了這一點：他們的樣本來自 2026 年 1 月使用 Claude.ai 進行多輪對話的使用者。這些人幾乎確定是早期採用者——最熟悉 AI、最舒適使用 AI 的那群人。

用早期採用者的行為來建立「基線」，就像用馬拉松選手的心率來建立「正常人運動時的心率基線」。 它告訴你的是天花板附近的分布，而不是地板。

如果 Anthropic 真正關心的是「AI 流利度的發展」，他們需要的不是追蹤這群人的進化，而是追蹤新使用者從零到一的學習曲線。但這正好是他們的框架最難捕捉的。

問題三：相關不等於因果——迭代真的「導致」更高的流利度嗎？

報告最強的結論是：迭代與精煉和所有其他流利度行為之間有強烈的正相關。但他們自己也承認這是相關性而非因果性。

讓我提出一個替代假說：不是迭代導致了更高的流利度，而是任務複雜度同時驅動了迭代和流利度行為。

一個在做複雜研究分析的使用者，自然會進行更多輪對話（因為任務本身需要），也自然會展現更多質疑、查核、釐清的行為（因為任務本身的風險更高）。而一個只是問「幫我寫一段生日祝福」的使用者，自然一輪就完成了，也自然不需要質疑推理。

如果這個替代假說成立，那報告的實踐建議——「留在對話中，多迭代」——就有誤導的風險。因為問題不是你迭代了幾次，而是你的任務本身是否需要深度思考。強迫自己多迭代一個不需要深度思考的任務，不會讓你變得更流利——只會讓你變得更囉嗦。

問題四：「流利」的隱喻本身就值得質疑

Anthropic 選擇用「流利度」（fluency）這個詞來描述 AI 使用能力。但「流利」這個隱喻暗示了一個終點——就像學語言一樣，你最終會達到「流利」的程度。

然而 AI 工具的變化速度遠超任何語言的演變。今天你對 GPT-4 的「流利」，可能在 GPT-5 出來時就過時了。 提示詞策略會改變，模型的能力邊界會移動，最佳實踐會被重寫。

「流利」暗示了一種可以被達成的穩定狀態。但 AI 使用能力可能更接近「衝浪」——你永遠不會「學會衝浪」到一個可以停止學習的程度，因為每一波浪都不一樣。

也許我們需要的不是「AI 流利度」，而是「AI 適應力」（AI Adaptability）——一種能夠在工具持續變化的環境中，不斷重新校準自己使用方式的能力。

七、真正重要的問題

撇開方法論的挑戰，這份報告提出了一個我認為極其重要的問題框架：

我們衡量 AI 的採用率，但幾乎不衡量 AI 使用的品質。

全世界都在追蹤「有多少人在用 AI」，但幾乎沒有人在追蹤「這些人用得好不好」。Anthropic 至少開始嘗試回答後者，這本身就值得肯定。

但我認為比「流利度」更根本的問題是：

使用 AI 是否讓你在沒有 AI 的時候也變得更好？

如果你用 AI 寫了一百篇分析報告，但離開 AI 後你的分析能力和一百篇之前一樣——那你不是在「增強」，你是在「外包」。真正的流利度不是你在 AI 面前的表現，而是 AI 在你離開後留在你身上的東西。

這才是 Anthropic 未來研究中最值得追蹤的指標。可惜也是最難測量的。

八、最後：從這份報告帶走的三件事

留在對話中。不要接受第一個回應就離開。追問、質疑、要求解釋。這是與 AI 互動時最基本也最有效的習慣。
越漂亮越要懷疑。當 AI 給你一個看起來完美的產出時，那正是你最需要暫停和質疑的時刻。精緻是批判思維的麻醉劑。
設定你自己的規則。告訴 AI 你希望它怎麼和你互動。「挑戰我的假設」、「告訴我你不確定的地方」、「先解釋推理過程再給結論」。你不設定規則，AI 就會用它的預設值——而它的預設值是順從。

AI 流利不是學會怎麼讓 AI 做更多事。AI 流利是學會在 AI 面前，保持自己的思考不被關機。

參考來源

Anthropic Education Report: The AI Fluency Index