https://yro.slashdot.org/story/25/06/16/2054205/salesforce-study-finds-llm-agents-flunk-crm-and-confidentiality-tests
AI示意圖
Salesforce 的一項新研究發現,基於大型語言模型 (LLM) 的 AI 代理在執行實際 CRM 任務時表現不佳,在單一步驟任務中成功率僅為 58%,多步驟任務更是降至 35%。研究特別指出,這些 AI 代理缺乏機密性意識。Salesforce 認為現有基準測試不足以評估 AI 代理在真實企業環境中的能力,特別是數據處理和機密性方面,因此開發了新的基準工具 CRMArena-Pro。這項研究結果顯示,目前的 LLM 能力與企業實際需求之間存在顯著差距,提醒組織在依賴 AI 代理實現效益時應保持謹慎。
這項 Salesforce 的研究為當前關於 AI 代理潛力的熱潮提供了一個重要的「現實檢驗」。雖然 LLM 在生成文本和執行某些任務方面取得了令人矚目的進展,但將其應用到像 CRM 這樣需要高度準確性、可靠性,並嚴格遵守數據機密性的企業核心流程中時,挑戰依然巨大。 研究中提到的低成功率(尤其在多步驟任務上)和缺乏機密性意識是兩個嚴重的問題。在處理客戶數據的場景下,哪怕是單一步驟的錯誤或輕微的數據洩露,都可能導致嚴重的業務損失和信任危機。這遠不是僅靠「有時有用」就能滿足的標準。 這項研究也間接肯定了 Salesforce 等企業在建立更貼近實際應用場景的基準測試上的努力。現有的許多評估可能過於理想化,無法真正揭示 AI 在複雜環境下的局限性。CRMArena-Pro 這種基於合成但真實數據的沙盒環境,似乎是更為務實的評估方式。 對於期待藉助 AI 代理實現效率飛躍的企業來說,這項研究是一個明確的警示。在全面擁抱這些技術之前,必須進行嚴謹的內部測試和評估,確保其在特定業務流程中的表現符合要求,並建立必要的監管與安全機制。這也提醒我們,儘管 AI 前景廣闊,但從實驗室到企業級應用,仍需要克服技術和信任層面的許多障礙。
沒有留言:
張貼留言