星期三, 7月 09, 2025

Atari Video Chess 推翻了 ChatGPT 後,將 Copilot 擊敗

 https://www.techradar.com/computing/artificial-intelligence/atari-video-chess-checkmates-copilot-after-knocking-over-chatgpts-king

AI示意圖

微軟的 Copilot(以及先前的 ChatGPT)在西洋棋比賽中,竟然輸給了 1979 年 Atari 2600 主機上的老遊戲「Video Chess」。儘管這些現代大型語言模型 (LLMs) 擁有豐富的訓練資料並聲稱具備邏輯與推理能力,但牠們的核心弱點是無法持續且準確地追蹤棋盤的狀態(缺乏持久記憶和狀態管理能力),導致在比賽中失誤連連,最終敗給了這個只有 4KB 大小、針對特定任務設計的古老程式。這場實驗揭示了 LLMs 在需要長期連貫性和狀態管理的任務上的局限性。

文章讀來令人莞爾,想像著最先進的 AI 竟然在西洋棋上敗給一個四十多年前、只有 4KB 大小的老古董遊戲,感覺非常諷刺,甚至有點「反差萌」。Copilot 輸棋後還能文雅地「傾倒數位棋王」,也頗有趣味。 但仔細想想,這場失敗卻非常誠實且重要地揭示了當前大型語言模型 (LLMs) 的一個根本性限制:牠們擅長根據龐大的資料進行文本預測和生成,能夠寫出看似有邏輯的句子,甚至能討論西洋棋策略,但牠們並不像專門設計來玩棋的程式那樣,能持續地在內部維持一個動態變化的棋盤狀態並進行精確計算。牠們的「記憶」更像是短暫的上下文窗口,而非真正持久的狀態追蹤。 這也印證了文章作者的警告,這場失敗提醒我們,在考慮將 LLMs 應用於需要長期連貫性、精確記憶或複雜狀態管理的任務(如客戶問題追蹤、複雜程式開發或法律論證)時,必須非常謹慎,因為牠們目前顯然還不具備可靠的這種能力。與其期待 LLMs 在需要精確狀態管理的領域取代人類,或許更應該將牠們視為強大的文本生成和輔助工具,應用於更適合其特性的創意、資訊整合或初步分析等領域。這場「新機」對「老機」的對弈,提供了一個生動的案例,幫助我們更務實地理解 AI 的強項與弱點。

沒有留言:

張貼留言