在真實任務上測試LLM

 

根據由哈佛醫學院及Beth Israel Deaconess Medical Center所發佈的預印本,以100位臨床醫生為基準測試了o1-preview的臨床推理能力。臨床推理能力指的是醫生運用批判性思維和綜合臨床數據以診斷和管理醫療問題的過程。
實驗評估 o1-preview 模型在五個不同實驗中的醫學推理能力,並將該模型與人類基準和 GPT-4 進行比較,每個研究都調查人類如何做出醫療決策,並由人類專家評分。
結果是o1-preview在大部分的推理任務方面不僅擊敗了其他模型,甚至超過人類醫生。
但這項研究並不是告訴大家不要看醫生,而是說我們需要更好的benchmark來評估LLM在各項專業領域(包含教育、法律或醫療等方面)的表現,讓我們知道工作中的哪些部分可以跟LLM合作哪些不行。






沒有留言:

Lazy prompting