72B蒸馏到3B,在3B上再微调?
2025-09-25
深度学习
00

取决于问题复杂度。

要做通用模型,sft的问答对很丰富很复杂,那么蒸馏是有意义的。

如果是专用模型,蒸馏代价太大作用还不大,不如直接用专用sft数据去直接sft小模型。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!