如何在不同任務情境下選擇合適的語言模型

 #VibeEvals

在生成式 AI 不斷更新的時代,儘管像 Chatbot Arena 這類的排行榜(目前由 Gemini 2.5 Pro 領先)提供了一個客觀參考,但我發現,要真正找到最適合自己的工具,單純依賴跑分是遠遠不夠的。不同模型各有擅場。
而Simon Willson(Django的共同創建者)提出了「Vibe Evals」——不要仰賴Benchmark或是Chatbot Arena的排名,而是要自己驗證。要檢視模型是否符合自己的工作流程、輸出風格是否對味、以及能否解決自己的特定問題。
情境一:Deep Research
在日常快速查詢或一般任務中,ChatGPT 依然是我的手選。但每當需要Deep Research時,o3所生成的報告品質總是令我驚艷,不僅細緻且豐富,更能清晰地勾勒出脈絡,讓我能迅速掌握新概念。相比之下,雖然 Gemini 2.5 Pro 也不錯,但在 o3 的精彩表現下就顯得略為遜色一些。
情境二:複雜任務
受到 Ethan Mollick 教授應用案例的啟發(模仿),稍做改編後:「請為一個新的線上教師教案販售網站,發想 20 個符合台灣市場偏好的巧妙行銷口號,並建立評分標準從中挑選最佳者。接著,為此網站制定初步的財務與行銷計畫,包含必要的競爭對手分析。運用圖片生成功能設計一個合適的 Logo,並創建一個包含 5-10 種符合行銷計畫的教案範例的網站 Mockup。」 o3 的表現再次超乎我的預期
情境三:寫作輔助與思考夥伴
在寫作輔助方面,我最近觀察到 ChatGPT 的回應風格似乎傾向於提供過多的「情緒價值」,Gemini 2.5 Pro 反而成為了更佳的選擇。它能提供更為中肯跟務實的建議。
所以我的 LLM 使用策略
o3: 首選、研究與 Prototyping。
Gemini 2.5 Pro: 寫作助手 與 思考夥伴。
GPT-4o: 快速問答 與 日常工作。
當然隨著模型的持續進化,這個選擇也將定期調整。找到真正適合自己需求的LLM,遠比追求單一的「最強」LLM來得更重要。



沒有留言: