就在騰訊混元團隊釋出CL-bench論文,深入探討AI如何準確理解複雜情境資訊的同一時期,微信卻對騰訊自家的AI產品"騰訊元寶"按下了暫停鍵,一場出人意料的內部衝突為這篇學術論文增添了戲劇性註腳論文。
臨近春節期間,騰訊元寶在微信群裡發起10億紅包裂變活動,僅3天后就因"誘導分享、影響使用者體驗"被微信安全中心遮蔽,導致騰訊股價應聲下跌超過3個點,4天內市值蒸發超過4000億港元論文。這個封禁動作像一面鏡子,恰好反向印證了論文所揭示的核心問題——即便是騰訊這樣的科技巨頭,在處理"上下文"時依然面臨著嚴峻挑戰,連內部不同產品之間的上下文都沒有對齊。
這場風波的實質,是兩種產品哲學的碰撞論文。微信團隊長期信奉的"剋制美學"——拒絕打擾式營銷、保持介面簡潔、尊重使用者選擇權,塑造了其獨特的產品氣質;而AI技術的演進方向,天然追求更深入的使用者洞察、更主動的服務介入、更緊密的產品粘性。當"讓使用者自由離開"遇上"讓AI主動留住",理念層面的張力便顯現出來。
這場爭議恰好提出了一個值得全行業思考的命題:當尖端技術遇到成熟產品理念,融合的邊界應該在哪裡?接下來,讓我們深入CL-bench的研究發現,看看"情境學習"為何成為制約當前AI發展的關鍵短板論文。
當前語言模型的能力錯配現象
現有的大語言模型在利用預訓練知識解決提示詞指定的問題方面表現卓越,在競賽級數學問題、競技程式設計挑戰和專家級考試等任務上都取得了令人印象深刻的成績論文。然而,現實世界的任務範圍遠遠超出了當前評估中常見的問題型別。具體而言,許多真實任務高度依賴於情境,需要模型從複雜情境中學習,利用預訓練中未曾見過的新知識來有效推理和解決任務。這種情境依賴性與當前模型的最佳化方向存在明顯的錯配。
當前的最佳化正規化主要集中在提示工程和上下文學習上論文。提示工程透過精心設計的指令讓模型執行任務,這種正規化主要針對相對簡單的任務,模型可以透過對提示詞的推理和現有的內部預訓練知識來解決。上下文學習則透過加入少量輸入輸出示例來增強提示工程,使模型能夠推斷任務格式和預期行為。然而,這兩種正規化都主要強調從簡單提示和預訓練知識進行推理,與真實場景相距甚遠。在實踐中,真實任務往往要求模型對預訓練中缺失的新知識進行推理,而這些知識是透過複雜情境提供的。
這種差距催生了情境工程作為部署語言模型到真實應用中的主導正規化論文。情境工程專注於從私有文件、資料庫和知識庫等多樣化來源檢索、組織、管理和最佳化任務相關情境。為支援有效的情境構建,已經提出了廣泛的技術,包括檢索增強生成、記憶系統和代理式檢索增強生成管道。然而,情境工程主要強調提供什麼情境以及如何組織它,卻忽視了模型是否真正能夠從提供的情境中學習。研究團隊認為,情境學習才是使模型真正有效利用情境的基礎能力。與傳統的上下文學習主要關注從少量示例中學習任務格式或淺層啟發式不同,情境學習強調從複雜情境中獲取和應用新知識,這種能力使模型能夠有效地超越預訓練知識進行推理,解決複雜的真實任務。
展開全文
CL-bench的構建理念與特色
CL-bench的設計旨在評估語言模型從提供的情境中學習並應用所學內容解決任務的能力論文。模型需要解決基於真實場景的複雜任務,解決這些任務所需的知識無論是新建立的還是小眾冷門的,都在很大程度上超出了現有模型在預訓練期間獲得的範圍。CL-bench中的新知識採取多種形式,包括但不限於書籍、新聞報道、轉錄文字、研究論文、文件、報告、實驗資料、程式碼倉庫、產品和操作手冊以及搜尋結果。所有必要的知識都已被仔細組織到提供的情境中,因此模型無需從外部來源檢索資訊。
CL-bench中的每個情境涉及解決多個任務,其中51.1%的任務是順序性的,它們在多個互動輪次中呈現,解決這些任務依賴於先前任務的解決方案論文。這種多輪設計進一步增加了任務難度,更好地反映了真實使用場景。基準的統計資料顯示,500個情境包含1899個任務和31607條評估標準,每個情境平均包含3.8個任務,每個任務平均包含16.6條評估標準。情境的平均輸入長度為10.4K tokens,最長可達65K tokens。
CL-bench的一個顯著特點是其防汙染設計論文。為確保CL-bench評估的是真正的情境學習能力,而非允許模型僅依靠預訓練知識解決任務,研究團隊採用了三種方法來構建包含新知識的情境:第一種是虛構創作,專家建立完全虛構的內容,例如為虛構國家發明完整的法律系統,包含新穎的案例先例和法律原則,或設計具有獨特語法和語義的新程式語言。第二種是修改現有內容,專家修改真實世界的內容以建立變體,例如改變歷史事件、更改科學和數學定義,或修改技術文件和規範。第三種是納入小眾和新興內容,專家納入在預訓練語料庫中基本上沒有很好代表的小眾或新近出現的內容,例如前沿研究發現、新發布的產品手冊和技術文件,或來自狹窄專業領域的特定領域知識。這些方法確保模型幾乎無法僅依靠預訓練知識,而必須真正從提供的情境中學習才能解決任務。
為了驗證這一設計,研究團隊進行了無情境消融實驗,結果顯示在沒有情境訪問的情況下,最佳模型的任務解決率僅不到1%,進一步確認了CL-bench中任務的情境依賴性論文。這意味著即使是當前最先進的語言模型,在缺乏具體情境資訊的情況下,也幾乎無法依靠預訓練知識獨立完成這些任務。
四大情境類別覆蓋真實世界應用
CL-bench根據人類在現實世界中遇到的情境以及他們通常如何學習和應用這些情境,將情境分為四大類別,進一步細分為18個子類別,以驗證在多樣化真實場景中的情境學習能力論文。
第一類是領域知識推理論文。這一類別中的情境提供專業領域知識,例如虛構的法律系統、新建立的金融工具或小眾專業知識。模型必須從情境中學習特定領域知識,並將其應用於解決任務,例如裁決法律案件和解決糾紛、進行財務分析或提供專業建議。這一類別根據知識領域分為七個子類別,包括金融、醫療保健、人文學科、法律諮詢、生活方式、管理和科學。例如,一個任務可能要求模型理解一個虛構國家的完整法律系統,包括案例先例和法律原則,並將其應用於審理案件;或者要求理解新建立的金融衍生品及其定價模型,然後進行投資分析。
第二類是規則系統應用論文。情境提供具有明確規則的新穎形式系統,例如新的遊戲機制、數學形式主義、程式語言語法或技術標準。模型必須從情境中理解這些規則系統,並正確應用它們來解決任務,例如玩遊戲和分析遊戲狀態、構建數學證明、解決程式碼相關任務或解釋法規和法律條款。這一類別根據規則型別分為五個子類別:遊戲機制、數學形式主義、程式設計語法、法律法規和技術標準。一個典型任務可能是學習一門全新的程式語言語法,然後用這門語言編寫程式解決特定問題,或者學習一個新棋盤遊戲的完整規則,然後在給定遊戲狀態下計算最優走法。
第三類是程式性任務執行論文。這一類別中的情境提供複雜的程式、工作流或操作說明,例如產品手冊、軟體文件或會議組織工作流。模型必須從情境中學習這些程式,並正確執行它們以完成任務,例如故障排除、提供操作指導或編排複雜的工作流。這一類別根據程式型別分為三個子類別:指導性程式、操作程式和工作流編排。例如,一個任務可能提供一份詳細的無人機作業系統API文件,要求模型將自然語言指令轉換為符合安全協議的虛擬碼,或者根據複雜的會議組織手冊,生成完整的會議籌備時間表和責任分配方案。
第四類是實證發現與模擬論文。這一類別中的情境提供實驗資料、觀測記錄或由複雜系統控制的模擬環境。例如,模型可能需要分析電子在磁場中沿螺旋軌跡運動的實驗資料來解決特定問題,或者在虛擬沙盒環境中進行模擬和推理。模型必須分析提供的資料以發現模式或規律,或理解模擬環境以進行分析和問題解決。這一類別是最具挑戰性的,因為它需要從經驗證據中進行歸納推理來發現潛在模式,與前三類強調的演繹推理形成對比。它根據知識呈現方式分為三個子類別:實驗資料、觀測資料和模擬環境。一個典型任務可能提供大量粒子在不同條件下的運動軌跡資料,要求模型歸納出控制粒子運動的物理定律,然後用這個定律預測新條件下的運動行為。
嚴格的自動化評估體系
CL-bench中的複雜任務無法使用通用的基於規則的驗證器進行可靠評估,因為許多工的答案難以用預定義規則驗證,或可能存在多個正確解決方案論文。研究團隊採用任務級評估標準來實現可靠的自動化評估。具體而言,每條評估標準都被設計為只允許"是"或"否"答案的二元問題。"是"答案表示語言模型的解決方案滿足這條評估標準。所有評估標準都由經驗豐富的領域專家構建,並經過嚴格的質量控制,包括雙重檢查和隨機抽樣驗證,以確保評估的有效性和精確性。
評估標準的設計從多個維度全面驗證任務是否正確解決,包括事實正確性、計算準確性、判斷正確性、程式正確性、內容完整性和格式合規性論文。CL-bench中的每個任務平均包含16.6條評估標準。研究團隊使用語言模型作為驗證器,根據任務級評估標準驗證語言模型的解決方案。他們採用嚴格的評估標準:只有當語言模型的解決方案透過所有相關評估標準時,才認為該模型成功解決了任務。
在所有實驗中,研究團隊使用GPT-5.1作為驗證器論文。為評估自動評估框架的可靠性,他們進行了兩項額外的驗證實驗。第一項實驗檢查當GPT-5.1同時作為解決方案生成器和驗證器時可能存在的偏見,研究團隊額外使用Claude Opus 4.5和Qwen-3-Max作為驗證器。結果顯示,GPT-5.1與其他兩個驗證器之間的原始一致性超過90%,表明驗證器之間具有很強的一致性,並且GPT-5.1沒有表現出明顯的自我評估偏見。第二項實驗中,研究團隊隨機抽樣100個由語言模型生成的解決方案以及GPT-5.1生成的理由和分數,由標註員評估GPT-5.1的判斷是否與任務級評估標準一致。結果顯示評估準確率超過90%,表明基於GPT-5.1的驗證器和整體評估框架具有高可靠性。
前沿模型的表現與深度分析
研究團隊透過官方API評估了十個最先進的語言模型,包括OpenAI的GPT-5.1和GPT-5.2(高推理努力級別)以及o3(高努力級別)、Anthropic的Claude-Opus-4.5 Thinking、Google的Gemini-3-Pro(高努力級別)、月之暗面的Kimi-K2 Thinking、阿里巴巴的Qwen-3-Max Thinking(預覽版)、深度求索的DeepSeek-V3.2-Thinking、字節跳動的Doubao-1.6-Thinking,以及騰訊的HY-2.0-Thinking論文。考慮到CL-bench的挑戰性(需要強大的推理和長情境能力),研究重點放在評估具有思考或高推理努力設定的前沿模型上。
評估結果令人震驚論文。所有被評估模型的整體任務解決率平均僅為17.2%,即使表現最好的模型GPT-5.1也只達到23.7%。其他大多數模型集中在13%到18%之間,其中Kimi K2和HY 2.0分別達到17.6%和17.2%,接近o3的效能水平。值得注意的是,HY 2.0在領域知識推理上與o3持平,解決率均為18.0%,並且在規則系統應用和程式性任務執行上都超過了Kimi K2,分別達到17.3%和19.4%。鑑於沒有模型超過30%的解決率,這些結果揭示了儘管情境學習對真實部署至關重要,但在當前模型開發中仍然被嚴重忽視。
任務難度在不同情境類別之間存在顯著差異論文。四個情境類別對所有模型呈現出不同的難度水平。領域知識推理被證明是最易處理的,即使最佳模型也只達到25.3%的解決率,其中管理子類別相對容易,而法律諮詢則較難。模型在不同類別上表現出不同的偏好:一些模型在程式性任務執行上表現最好,而另一些在規則系統應用上表現更佳。特別值得注意的是,HY 2.0在規則系統應用類別中的法律法規子類別上表現出特別的優勢,達到36.6%,超過了Claude Opus 4.5和GPT 5.2。然而,所有模型在實證發現和模擬類別上都經歷了顯著的效能下降,解決率降至約11%,比其他類別低約6%。這表明從實驗資料中歸納和應用規律對當前模型來說仍然是一個基本挑戰。
即使在單個情境類別內,子類別也表現出驚人的效能差異論文。在規則系統應用中,法律法規子類別的解決率對所有模型都超過29%,GPT-5.1達到40%以上,而數學形式主義則困難得多,大多數模型低於15%。程式性任務執行中也出現了類似的差異,工作流編排子類別的分數大大超過指導性程式。從實證資料中進行歸納推理比演繹應用表現出更大的難度。前三個類別要求模型透過演繹推理應用明確提供的知識、規則和程式,而實證發現和模擬需要歸納推理,即從大量資料中發現潛在規律或在虛擬沙盒環境中推理和行動。模型在歸納任務上的表現明顯較差,平均解決率比演繹類別低約6%。
錯誤分析揭示關鍵瓶頸
研究團隊對失敗案例進行了深入的錯誤分析論文。情境忽略和情境誤用構成了主要的失敗模式。這兩種錯誤型別合計佔失敗的大多數,情境誤用率對所有模型都超過60%。值得注意的是,情境忽略率與整體任務解決效能相關:解決率較高的模型傾向於表現出較低的情境忽略率,而無論整體能力如何,情境誤用率在所有模型中都保持較高水平。這表明雖然更強的模型更好地關注相關情境資訊,但即使是最有能力的模型如Claude-Opus-4.5也難以正確解釋和應用提供的情境。
格式錯誤仍然是一個重要的失敗來源論文。除了情境錯誤,即使是頂級模型,格式錯誤率也保持在高水平。GPT-5.1的格式錯誤率超過35%,而Claude-Opus-4.5超過40%。這些失敗表明模型經常違反情境中提供的明確格式指令,反映了指令遵循能力的侷限性。此外,還有一小部分響應包含拒絕。分析顯示,模型通常透過聲稱資訊不足來回答問題而拒絕。由於CL-bench確保所有必要知識都存在於提供的情境中,這種拒絕源於理解失敗而非資訊稀缺。
更高的推理努力通常改善情境學習論文。研究顯示,增加推理努力在大多數子類別上產生了一致的改進。例如,管理類別獲得了5.9%的提升,實驗資料也獲得了5.9%的提升。情境學習需要對新知識的深入理解和靈活應用,延長的推理使模型能夠更徹底地處理複雜的情境資訊。然而,這種好處並不適用於所有模型。詳細分析顯示,GPT 5.2在幾個子類別上從增加推理努力獲得的收益微不足道甚至是負面的,與GPT 5.1形成鮮明對比。
任務難度與情境長度相關論文。無論推理努力級別如何,所有模型都表現出隨著情境長度增加而一致的效能下降。這一趨勢在GPT-5.1、Claude-Opus-4.5、Kimi-K2、HY-2.0和Gemini-3-Pro等模型中都成立。Claude-Opus-4.5經歷了最陡峭的下降,在0-15K和120K+情境長度之間解決率下降了20%以上。這些結果證實,處理和學習冗長情境仍然是當前語言模型的瓶頸。
長情境推理和指令遵循是必要但不充分條件
與預期新模型版本會提高效能相反,GPT-5.2在整體準確率上比GPT-5.1低5.6%論文。詳細分析揭示了GPT-5.2中兩種反覆出現的失敗模式:當在擴充套件情境上推理時,模型難以維持連貫的因果鏈,並且經常違反提供材料中明確說明的約束。這種效能差距在幾乎所有子類別中都表現出來,在實驗資料類別中尤其明顯,其中GPT-5.1達到31.1%,而GPT-5.2為22.2%,在管理類別中差距達到9.6%。同樣,DeepSeek-V3.2和Doubao-1.6等較弱模型表現出三種系統性錯誤:未能遵守情境指令、未能正確學習和再現情境知識,以及隨著情境長度增加而失去資訊追蹤。
這些觀察證實,長情境處理和指令遵循是有效情境學習的必要條件論文。然而,在現有長情境和指令遵循基準上的強大效能並不保證在CL-bench上的成功,因為情境學習進一步要求模型內化新知識並靈活地應用它來解決複雜任務。這意味著即使模型在傳統的長文字基準測試(主要評估檢索或閱讀理解)和指令遵循基準測試上表現優異,也不代表它們具備真正的情境學習能力。情境學習能力要求模型不僅能理解長文字和遵循指令,更要能從情境中提取新知識、建立新的認知框架,並將這些新知識靈活應用到未曾見過的問題中。
定性案例研究揭示深層問題
研究團隊選擇了跨越四個情境類別的16個案例進行深入分析,從GPT-5.1(高推理級別)、GPT-5.2(高推理級別)、Gemini-3-Pro(高推理級別)、Kimi-K2-Thinking和Doubao-1.6-Thinking等模型中提取論文。這些案例分析揭示了前沿語言模型在情境學習方面的細微失敗模式。
在規則系統應用類別中,研究團隊發現模型在涉及新程式語言或遊戲規則時,雖然能夠生成可執行的程式碼或合理的策略,但經常違反嚴格的格式要求或遺漏關鍵的機制細節論文。例如,Gemini-3-Pro在實現一個遊戲規則系統時,能夠理解核心規則但未能包含戰鬥系統、元素系統和怪物AI的特定機制細節。
這些定性分析與主要論文中提出的發現相呼應:前沿語言模型繼續忽視或誤用情境資訊,導致錯誤的解決方案論文。此外,長情境推理和指令遵循的固有侷限性進一步加劇了情境學習的失敗。綜合來看,這些結果表明語言模型需要開發更強的能力來有效地從新情境知識中學習並應用,以增強其實際適用性。
未來研究方向與模型改進路徑
研究團隊提出了幾個有前景的方向來推進語言模型中的情境學習論文。第一個方向是使用情境感知資料進行訓練。增強情境學習的直接方法是構建包含預訓練期間未見過的知識的專門訓練資料,迫使模型從提供的情境中學習。這種方法鼓勵模型更忠實地關注提供的情境,減少它們產生幻覺或預設使用可能過時的預訓練知識的傾向。這樣的訓練資料可以透過系統地將綜合領域文件與需要真正提取和應用嵌入知識的任務配對來合成,從而加強對有效情境學習至關重要的神經通路。
第二個方向是用於漸進情境掌握的課程學習論文。分析揭示模型在複雜情境上遇到困難,部分原因是長情境處理和指令遵循能力的侷限性。課程學習方法提供了一條可行的途徑來解決這些挑戰:訓練可以被構建為從更簡單的子任務逐步發展到越來越困難的任務,而不是同時向模型呈現完整情境和複雜任務。這種漸進策略使模型首先掌握基本的情境理解,然後再處理需要整合多個知識元件或執行冗長程式的任務。透過將複雜的情境學習分解為可管理的階段,模型可以逐漸建立處理真實應用中全方位挑戰的能力。
第三個方向是用於綜合反饋的合成評估標準生成論文。細粒度的評估標準不僅在評估中起著關鍵作用,而且透過詳細的反饋訊號在指導模型改進方面也發揮作用。然而,正如CL-bench的構建過程所展示的,建立綜合評估標準需要大量的專家努力,限制了可擴充套件性。開發自動合成高質量評估標準的方法,可能透過與人類驗證的迭代細化或利用強大的語言模型作為評估標準生成器,可以使詳細的評估標準更容易獲得。當這些合成評估標準作為獎勵訊號或驗證機制整合到訓練管道中時,可能會透過為模型提供更豐富、多維度的效能反饋,顯著加速情境學習的進展。
第四個方向是用於情境利用的架構創新論文。當前的transformer架構透過注意力機制處理情境,這可能不是最適合複雜情境所需的深度學習。未來的研究可以探索架構修改,為儲存和檢索情境知識建立顯式記憶結構,透過多次處理通道實現情境理解的迭代細化,或為不同型別的情境資訊提供專用通路。雖然這個基準專注於評估現有模型,但理解限制情境學習的架構瓶頸可以為下一代語言模型的設計提供資訊。
至頂AI實驗室洞見
CL-bench的推出不僅揭示了當前大語言模型的關鍵短板,更為整個AI社羣指明瞭一個重要的研究方向論文。當前的模型雖然在利用預訓練知識方面表現卓越,但在從新情境中快速學習並應用新知識方面還遠遠不夠。這種能力對於模型在真實世界中發揮實際作用至關重要,因為現實任務往往充滿了模型從未見過的新知識、新規則和新情境。克服當前的情境學習瓶頸不僅僅是工程最佳化問題,而是釋放模型智慧質的飛躍的關鍵。只有當模型能夠像人類一樣快速內化完全陌生的情境並精確應用該知識解決問題時,人工智慧才能真正超越知識庫的侷限,演變為真正的推理代理。CL-bench為這一努力提供了關鍵的測試平臺,推動構建下一代具有這一基礎能力的語言模型,使它們變得更加智慧,並推進其在真實場景中的部署。
論文地址論文:
END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室論文。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:什麼是情境學習,它與傳統的上下文學習有什麼區別?
A:情境學習是指模型從提供的複雜情境中獲取全新知識並應用這些知識解決任務的能力論文。與傳統的上下文學習主要透過少量示例學習任務格式或淺層啟發式不同,情境學習強調真正理解和內化新知識,這些知識可能是全新的領域概念、規則系統、複雜流程,甚至是從實驗資料中歸納出的規律。情境學習是人類天生具備但在當前AI系統中被嚴重忽視的能力,它使模型能夠超越預訓練知識進行推理,解決複雜的真實世界任務。
Q2:為什麼當前最先進的語言模型在CL-bench上的表現如此糟糕?
A:研究發現即使是表現最好的GPT-5.1也只能解決23.7%的任務,平均解決率僅為17.2%論文。主要原因包括:模型頻繁忽視或誤用情境中提供的關鍵資訊,違反明確的格式和約束指令,在長情境推理時難以維持連貫的因果鏈,以及在需要從資料中歸納規律時表現尤其困難。分析顯示,情境誤用率對所有模型都超過60%,格式錯誤率也保持在35-40%的高水平。這表明當前模型的最佳化方向主要集中在利用預訓練知識進行推理,而非從新情境中學習,導致它們在真實世界的複雜任務上遇到嚴重瓶頸。
Q3:CL-bench與現有的長文字基準測試有什麼本質區別?
A:雖然CL-bench的情境平均長度達到10.4K tokens,最長可達65K tokens,但它與傳統長文字基準測試有本質區別論文。現有長文字基準主要評估檢索或閱讀理解能力,而CL-bench要求模型真正從情境中學習全新知識並靈活應用。研究團隊透過三種方法確保知識的新穎性:虛構創作全新內容、修改現有知識、納入小眾新興內容。無情境消融實驗顯示,最佳模型在沒有情境的情況下解決率不到1%,證明這些任務高度依賴情境學習而非預訓練知識。CL-bench涵蓋四大類別18個子類別,從領域知識推理、規則系統應用、程式執行到從資料中歸納規律,全面評估模型的情境學習能力。