永遠的測試版　林穎俊的教學記錄: DeepSeek的優劣?

目前看起來 DeepSeek 在強化學習跟MoE架構的地方真的做得很好，但pre-trained的資料怎麼來，可能還是一個問題？目前看起來DeepSeek應該是從GPT-4蒸餾（就是用大模型的資料在精鍊出更小的模型）換言之，DeekSeek可能沒辦法從頭到尾訓練自己的大語言模型？

因為在pre-trained階段的資料是怎麼蒐集跟怎麼調整比例都沒有說，反觀Meta的Llama都有公開，但這段其實是最貴的地方

不過我覺得DeepSeek很強的點是，可以讓你在本地端跑這麼強的語言模型。當大語言模型可以在本地端執行的時候，或許整個商機才是開始爆發的時候