永遠的測試版　林穎俊的教學記錄: 微調大語言模型

中國利用蘇格拉底法提升大語言模型在對話式數學教學的研究

這個研究蒐集了中國小學考試的8935個問題，並用markdown格式標註每個解答。再用GPT-4根據不同學生的個人需求（像是調皮、自信或粗心等)生成蘇格拉底式的對話。但因LLM在數學推理方面表現不佳極可能出現錯誤，所以由人類專家逐一標註及修正錯誤。最後刪除了23%的對話，修正了超過18%的對話。整理出一個SocraticMATH dataset。

然後根據這個資料集在LLaMA2-7B跟 Qwen1.5-7B微調，分別用自動評估、人類評估跟GPT-4評估，比較跟其他大語言模型的差異。