LearnLM

 日前Google放出了最新為教育使用而開發的大語言模型LearnLM-Tutor,不過或許是GPT-4o太驚艷的關係,並未引起太多關注。


不過當我點開paper,我就停不下來。這篇論文一開始就說教育用Gen AI 有幾個難點
  1.將教學直覺轉換為Gen AI的Prompt
  2.缺少”好的”評價具體作法
  3.要如何定義好的教學法?
在文中也很嗆辣的直接說教育研究在很多學科都是碎片化的,幾乎沒有一個通用的教學原則或方法。大部分的研究往往在小規模的同質人群中進行。而使得研究結果難以普遍適用。

也提到說目前透過prompt來調整生成式AI的輸出是最簡單也是最受歡迎的作法。我們通常透過自然語言描述什麼是好的教學行為,包還該做什麼以及在何時作?但這樣做受限於對最佳教育實踐的聲明性知識(declarative knowledge)以及根本沒有找出最好的教學策略。所以他們決定透過來微調(fine-tuning)整個Gemini
然後為了微調(fine-tuning),他們又自己從真人教學資料建了資料集(有在玩的人應該都知道這些錢、工跟人應該只有Google玩得起)資料集除了使用合成資料外,還有找教師與學生互動並含有老師識別學生錯誤、提供有效回饋並積極對話的課程影片,並且要廣泛的主題下的多輪長對話。

#或許我們台灣可以先做的就是開始整理優良教學的影片及逐字稿

透過參與式的會議及文獻探討建立了教學評量規準如下:
 -鼓勵主動學習(學習者應通過討論、實踐和創作來操控資訊,而不是被動吸收資訊)
 -管理認知負荷(導師應以多模態呈現資訊,結構良好,並將其分成可管理的部分chunks)
 -深化後設認知("認知的認知",使學習者能夠將技能應用到單一情境之外)
 -激發動機和好奇心(這會帶來自我效能和終身學習)
 -符合學習者的目標和需求(通過評估當前狀態和目標,制定彌補差距的計畫)。

以上也可以說是Google幫我們整理出目前所謂好的教學者的標準

其實到這裡可以看出Google的目標不僅是要做出比GPT-4o更適合教育用的產品,他是要定義什麼是好的教育用GenAI。他把評價的方法、方向跟資料來源都公開了,以後大家就可以用更明確的標準檢視目前的所有的教育用GenAI。

論文連結:
goo.gle/LearnLM
這是研究評估大語言模型的7個教學基準(benchmark)),旨在從各個角度評估對話式AI Tutor的表現。包含語言模型評估Language Model Evaluations (LME)、教育分數Pedagogy score、ASU interviews、並行教學Side-by-side pedagogy、對話式教學Conversation-level pedagogy、學科學習者回饋Subjective learner feedback、多輪教學Turn-level pedagogy



沒有留言:

AI素養進階工作坊心得