中國利用蘇格拉底法提升大語言模型在對話式數學教學的研究
這個研究蒐集了中國小學考試的8935個問題,並用markdown格式標註每個解答。再用GPT-4根據不同學生的個人需求(像是調皮、自信或粗心等)生成蘇格拉底式的對話。但因LLM在數學推理方面表現不佳極可能出現錯誤,所以由人類專家逐一標註及修正錯誤。最後刪除了23%的對話,修正了超過18%的對話。整理出一個SocraticMATH dataset。
然後根據這個資料集在LLaMA2-7B跟 Qwen1.5-7B微調,分別用自動評估、人類評估跟GPT-4評估,比較跟其他大語言模型的差異。
雖然看起來分數沒差太多,不過7B(個人電腦跑得動)的模型能跑到跟GPT-4差不多,也真的有點猛
沒有留言:
張貼留言