星期三, 4月 30, 2025

Google Gemini 與 Claude 在 Twitch 競爭成為第一個完成 Pokémon Red 的 AI 模型,身為 Pokémon 的忠實粉絲,我被迷住了 (2025/04/30)

 https://www.techradar.com/computing/artificial-intelligence/im-a-massive-pokemon-fan-and-now-im-obsessed-with-ai-models-like-gemini-and-claude-trying-to-complete-pokemon-red-and-blue

文章報導了 Google 的 Gemini 和 Anthropic 的 Claude 這兩款 AI 模型,正在透過 Twitch 串流挑戰完成經典遊戲《寶可夢 紅版》(Pokémon Red)。這項挑戰被視為評估「智能體 AI 模型」(agentic AI models)解決問題、批判性思維和處理模糊任務能力的基準測試。儘管兩款 AI 的進度不同(Gemini 目前在進度上看似領先),文章指出由於兩者的設定條件和「智能體框架」(agent harness,即輔助 AI 行動的外部工具或資訊)存在差異,直接比較兩者表現的優劣並不簡單。作者本身作為寶可夢的忠實粉絲,對觀看 AI 嘗試攻略遊戲的過程感到著迷,認為這結合了現代科技與懷舊元素,並提供了一個有趣的方式來觀察 AI 的能力。文末也提到,除了讓 AI 自己玩遊戲,這些 AI 模型也可以作為玩家的輔助工具,提供遊戲資訊。


讀完這篇文章,我對「AI 玩寶可夢」這個概念感到十分新奇且有趣。將一個對許多人而言充滿童年回憶的經典遊戲,拿來作為測試最先進 AI 能力的場域,這種結合本身就極具話題性。觀看 AI 嘗試像人類一樣學習、探索、戰鬥和解謎的過程,尤其是在一個我們如此熟悉的遊戲世界中,確實非常引人入勝。 文章中提到 AI 玩寶可夢被視為一種「智能體 AI」的基準測試,這點特別讓我思考。寶可夢的遊戲流程雖然有主線,但包含了探索、戰鬥策略、資源管理(寶可夢等級、道具使用)、導航等複合性任務,而且需要持續性地朝著一個遠大目標(打贏聯盟)前進,不像某些簡單遊戲只有單一目標或固定步驟。這確實是一個能有效檢驗 AI 在開放式環境下規劃和執行複雜任務能力的優秀場景。 而關於 Gemini 和 Claude 的進度比較,文章強調了「智能體框架」的影響,這點非常重要。它提醒我們,評估 AI 的能力不能只看模型本身,外部的設定、給予的工具和資訊都可能顯著影響其表現。這也暗示了,AI 在真實世界中應用時,其成功與否不僅依賴於核心演算法,更取決於如何有效地將其整合到實際環境中,並提供適當的支持系統。 文章點出觀看 AI 玩寶可夢的那份「根植」感——像在為一個努力的小傢伙加油,以及那股強烈的懷舊情感,我覺得這正是許多人會被吸引的原因。這不僅是科技展示,也是一種文化現象的延伸,讓硬冷的技術沾染了人性化的色彩和歷史的溫度。同時,AI 也能協助玩家的潛力,也展現了 AI 作為工具的另一種實用面向。總體而言,這是一個結合了技術探索、懷舊情懷和對 AI 未來可能性思考的有趣現象。

沒有留言:

張貼留言