這篇論文主要由卡內基美隆的幾位博士生所寫。他們開發了一組benchmark,以衡量LLM agent在現實任務專業人物的表現。透過瀏覽網頁、撰寫程式、執行程式甚至與他人溝通等。
本研究根據美國勞動部的職業資料庫O*NET網站,選了一般行政、軟體開發、財務經理等行業,根據這個網站的資料設計了測試的任務。
從本研究可以發現LLM Agent在數據科學、行政跟財務的成功率最低,甚至根本沒有完成。但有趣的是,軟體工程對一般人其實更具挑戰性,但LLM Agent的成功率卻較高。表示人類對任務所感受到的難度跟LLM agent的難度其實是有落差。
例如在行政和財務任務上關於製作試算表以彙整來自各方的資訊或閱讀和理解員工掃描的圖像等,這些任務對人類來說比軟體工程簡單的多,但可能因為LLMs缺乏理解文件、與他人溝通、在複雜的軟體介面中找到功能和繁瑣流程的能力,而無法完成這些看似更簡單的任務。
心得:
1.隨著AI的演進,如何與AI協作以增強我們工作的效率,或許已是我們無法迴避的問題。但哪些能力是AI長期只能逼近但無法取代人類的?我們真的都要好好想想。
沒有留言:
張貼留言