【Prompt Engineering是複雜且依賴情境】

這篇報告是華頓商學院一系列研究Prompting Scince的第一篇。這篇研究對我最大的啟發是:

1.不能用一套方式(one-size-fits-all)評估AI的表現:
過往評估LLM回答品質的方式多是100次中只要有一次答對或眾數(100次中答對26次)答對就算。但其實這樣的回答並不穩定,這個研究分成100%答對、90%答對及51%答對以評估AI的表現。
我們在醫學或金融等不能犯錯的領域可能需要100%正確的標準。所以表示評估AI表現的方式應該依賴使用情境來評估。
2.Prompt Engineeriing不是萬能。研究比較了禮貌(Please)跟命令(I order)的提問其實沒差。但格式化提問(像是加入prefix"這個問題的正確答案是什"麼跟suffix"在此插入答案")會比較好。
3.AI的不穩定性比想像中嚴重:
該研究使用GPQA Diamond以評估GPT-4o的表現,但在該研究100%答對的標準下,正確性跟隨機猜測沒兩樣。



沒有留言:

Lazy prompting