右邊的「讓 AI 好好說話!從頭打造 LLM (大型語言模型) 實戰秘笈」(Build a Large Language Model From Scratch),已推出繁體中文版。這本書比較
-強調技術實作與模型內部機制
-從零開始介紹 LLM 的底層架構,如 Transformer、Attention 機制、預訓練與微調
-適合有程式基礎、想深入理解 LLM 技術細節的讀者
左邊的「How GPT Works」雖然還沒完全寫好,但可以閱讀電子版
-著重概念理解與應用
-以較淺顯的方式介紹 GPT 與 LLM 的基本原理
-適合想快速掌握 LLM 核心概念,但不想被程式或理論淹沒的人(就像我)
我自己是先讀了 「How GPT Works」,才對照 「Build a Large Language Model (From Scratch)」。坦白說我還是看不太懂這兩本書,但先讀 How GPT Works 的確幫我更深入地理解了 LLM 的運作原理。
像是為什麼 LLM 在判斷 strawberry 這個單字中有幾個「r」或在做數學運算時表現不佳?主要是因為 LLM 首先會把文字分割成 token,再將每個 token 轉為 embedding vector 來捕捉其語意。書中也更明確地解釋了 SFT(Supervised Fine-Tuning) 與 RLHF(Reinforcement Learning from Human Feedback) 等微調方法,幫助我在理解 LLM 的訓練流程上更加清晰。
沒有留言:
張貼留言