DeepSeek的優劣?

 目前看起來 DeepSeek 在強化學習跟MoE架構的地方真的做得很好,但pre-trained的資料怎麼來,可能還是一個問題?目前看起來DeepSeek應該是從GPT-4蒸餾(就是用大模型的資料在精鍊出更小的模型)換言之,DeekSeek可能沒辦法從頭到尾訓練自己的大語言模型?

因為在pre-trained階段的資料是怎麼蒐集跟怎麼調整比例都沒有說,反觀Meta的Llama都有公開,但這段其實是最貴的地方
不過我覺得DeepSeek很強的點是,可以讓你在本地端跑這麼強的語言模型。當大語言模型可以在本地端執行的時候,或許整個商機才是開始爆發的時候

沒有留言:

AI素養進階工作坊心得