永遠的測試版 林穎俊的教學記錄
在真實任務上測試LLM
根據由哈佛醫學院及Beth Israel Deaconess Medical Center所發佈的預印本,以100位臨床醫生為基準測試了o1-preview的臨床推理能力。臨床推理能力指的是醫生運用批判性思維和綜合臨床數據以診斷和管理醫療問題的過程。
實驗評估 o1-preview 模型在五個不同實驗中的醫學推理能力,並將該模型與人類基準和 GPT-4 進行比較,每個研究都調查人類如何做出醫療決策,並由人類專家評分。
結果是o1-preview在大部分的推理任務方面不僅擊敗了其他模型,甚至超過人類醫生。
但這項研究並不是告訴大家不要看醫生,而是說我們需要更好的benchmark來評估LLM在各項專業領域(包含教育、法律或醫療等方面)的表現,讓我們知道工作中的哪些部分可以跟LLM合作哪些不行。
沒有留言:
張貼留言
較新的文章
較舊的文章
首頁
訂閱:
張貼留言 (Atom)
Lazy prompting
親師溝通一定要用LINE嗎? 用LINE@會更安全更省時間
作者: 林穎俊 常聽到很多老師不想用LINE,因為LINE的方便性使得老師上班時間延伸到5點下班之後,舉凡孩子的大小事,甚至婆媳之間的事情,家長也想好好跟老師聊一聊。常讓老師覺得為什麼我下班了還要當家長的垃圾桶? 而且相信大家也有聽過同事說過。家長覺得孩子在...
年過40如何通過英檢中高級
自從我通過CEFR聽讀說寫B2(相當於全民英檢中高級)之後,很多老師都來問我:我到底是怎麼準備的?以及我的英文基礎是不是很好? 坦白說,我的英文應該只能算普通(甚至偏爛)。我大概從高中畢業後就沒在認真讀過英文。加上我又不想花那麼長的時間去補習,那我是如何自修通過英文檢定中高級...
AI世代的Scratch?
如果你對一年前的tldraw有印象的話,它還是個很酷炫的畫布canvas軟體(或許比喻類似google jamboard,大家會比較容易理解),只要你輸入openai 的api ,你就隨手在畫布上畫下你的想法,可能是網站草稿或井字遊戲等,它都能把想法轉化成能動的程式碼。 但這次推...
沒有留言:
張貼留言