只要強化學習1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
用1/10成本就能「吊打」強化學習,Thinking Machines最新一篇文章開源的這個策略,不看真OUT了!可在Tinker直接復現。
現在的大模型在特定領域能夠達到專家級表現已經不足為奇。
但是能不能讓模型變小的同時,也能在特定領域達到接近專家級表現?
現在通常的答案就是「模型蒸餾」(Model Distillation)。
比如DeepSeek-R1發布時,順帶著也發布了多個蒸餾模型(R1模型參數為671B,蒸餾模型都比較小,1.5B、7B、14B等)。

那還有沒有更好的辦法?
這就是今天要講的On-Policy Distillation(同策略/在線策略蒸餾)。
這是一個Thinking Machines整的新活,這個新策略既有強化學習等在線策略方法的相關性和可靠性;又具備離線策略(Off-policy)方法的數據效率。

Mira Murati認為這個策略可以讓小模型提升特定領域的表現,還能持續學習。

Lilian Weng夸贊新方法「優雅」。認為這個策略提供了一種優雅的方式,將教師模型作為過程獎勵模型來提供稠密獎勵。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為“我要久久發用戶上傳并發布”,本平臺僅提供信息存儲服務。
熱門文章
- 1024程序員節京東開放“零幀起手”數字人技術
- 申菱環境:多項技術產品入選《制冷空調應用領域節能降碳技術、產品推薦目錄》
- 海韻將推出1000W無風扇鈦金電源
- 榮耀500系列明天發布 全系驍龍8系芯片、同檔唯一超聲波指紋
- Android 17新特性:手機、PC端共享剪貼板
- 加碼即時零售 本土會員商店fudi與京東秒送達成戰略合作
- 2025廣州車展:仰望U9X、U8L鼎世版、U7齊亮相,彰顯中國豪華品牌新高
- 全新一代奧迪Q5L預計年內上市,等它還是買大降價的現款?
- 上汽大眾新一代智能產品集結,新能源賽道全力提速
- TES官宣Kanavi離隊
- Kanavi發文告別LPL
- 自助偷甘蔗農場爆火后老板真沒招了
- 北大發文祝賀王楚欽全運會奪金
- 機器人已經有了4S店7S店
- 小米汽車開始賺錢了 但雷軍還有點煩
- 電車續航有望超過1000公里
- 2026年汽車以舊換新補貼來襲!最高2萬元,申領全攻略在此
- 技術平權新標桿!MG4半固態安芯版交付,10萬級純電市場迎變革
- 合資老炮放出「智」命大招:天籟·鴻蒙座艙要讓燃油車重回潮流C位
- 2025新能源閉眼入清單:10-50萬檔,這幾款等再久都值