用1/10成本就能「吊打」強化學習,Thinking Machines最新一篇文章開源的這個策略,不看真OUT了!可在Tinker直接復現。

現在的大模型在特定領域能夠達到專家級表現已經不足為奇。

但是能不能讓模型變小的同時,也能在特定領域達到接近專家級表現?

現在通常的答案就是「模型蒸餾」(Model Distillation)。

比如DeepSeek-R1發布時,順帶著也發布了多個蒸餾模型(R1模型參數為671B,蒸餾模型都比較小,1.5B、7B、14B等)。


那還有沒有更好的辦法?

這就是今天要講的On-Policy Distillation(同策略/在線策略蒸餾)。

這是一個Thinking Machines整的新活,這個新策略既有強化學習等在線策略方法的相關性和可靠性;又具備離線策略(Off-policy)方法的數據效率。


Mira Murati認為這個策略可以讓小模型提升特定領域的表現,還能持續學習。


Lilian Weng夸贊新方法「優雅」。認為這個策略提供了一種優雅的方式,將教師模型作為過程獎勵模型來提供稠密獎勵。