永遠的測試版　林穎俊的教學記錄: 生成式AI可能傷害學習? 　Part 2

接續上次的發文

論文連結:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4895486

研究設計:

研究人員進行了隨機對照試驗以評估一所土耳其高中9、10跟11年級共約1000名學生數學課程的影響。學生上了4個90分鐘的課程。課程分為三個部分:教師講課、輔助練習跟無輔助考試。

實驗主要在無輔助練習的部分分為三組

控制組:學生在完成練習題時，可以使用課本和筆記，但不能使用任何設備。

GPT Base:學生直接與GPT-4 互動

GPT Tutor:每個練習問題都有詳細的Prompt。Prompt包括練習題的解法和教師對學生常見迷思的建議，但不會直接給學生答案。

實驗結果:

1.GPT Base和 GPT Tutor在輔助練習的表現都明顯好於對照組。對照組的分數為 0.28，而 GPT Base的分數為 0.42(比對照組高 48%)GPT Turor的平均分數為 0.65(比對照組高 127%)。這兩個結果都很棒，但這並不令人驚訝。因為許多國內外的研究都已經證明，生成式AI可以提高成績。

2.但神奇的是在無輔助考試階段，GPT Base的學生相較對照組下降17%，GPT Tutor減輕了負面影響但是結果跟對照組沒有顯著差異。跟我們所預期的有點不一樣

心得:

但仔細看內容之後，使用GPT Tutor的學生相較GPT Base一組投入更多，花的時間更多，對話也更多。

研究人員在實驗設計上也是花了相當多的功夫，包含找了獨立的評分員以避免教師的刻板印象、找了土耳其老師編寫教材及學生可能的迷思，以確保學習內容符合土耳其教育部的課綱、並準備了足夠的設備以確保每班都有穩定的連線及在考試的時候都有專人管理課堂避免學生使用其他網站

在最後的討論也有談到

生成式AI跟計算機的比較:

打字減少了手寫的重要，計算機減少了我們對於計算的需求。但ChatGPT跟這些工具的不同是

1.生成式AI比這些工具應用的範圍更廣泛能力更強

2.ChatGPT比這些工具更不可靠，經常提供錯誤的答案。學生不是無法察覺錯誤要不然就是不願意檢查。我們需要做大量的工作讓生成式AI增強而非削弱學生學習。

比較可能可以挑戰的地方是因為這個實驗是90分鐘的課程，會不會學生其實還沒真的學習完就直接考試?學生可能要透過提取、交錯及反覆的練習才能真的學會內容。或許把測驗的時間往後一段時間，結果就會不同?

永遠的測試版　林穎俊的教學記錄

生成式AI可能傷害學習? 　Part 2

沒有留言:

打造你的第二大腦

首頁

搜尋此網誌

生成式AI可能傷害學習? Part 2

沒有留言:

打造你的第二大腦

生成式AI可能傷害學習? 　Part 2