有哪些靠优化数据走纯SFT路线提升LLM效果的工作?
知乎专栏-deephub深度学习
2026-01-20 22:23:06
收藏
我不知道我理解没理解你的意思,不过如果分阶段的话,现在基本上都是靠SFT来优化数据的把,rl阶段算是指令遵从,不算增加新的知识。
一下几篇共你参考,可能不全
最先应该是Meta那篇《LIMA: Less Is More for Alignment》。这篇说的是模型的大部分能力都是在预训练阶段给的,SFT教模型怎么和用户打交道。他们只用了1000条精挑细选的数据,就在很多测试里把跑过RLHF的模型给打败了。虽然这事在当时争议不小但它确实给数据工程指了条明路,那就是别迷信规模。
LIMA: Less Is More for Alignment做纯sft的话数据这块比较重要的,所以DEITA做筛选应该算是比较不错的参考。他们提出用复杂度、质量、多样性三个维度去自动筛数据,通过这种量化方式,你能从几万条杂乱的指令里抠出最精华的那部分。代码:
https://github.com/hkust-nlp/deita这篇挺有意思,强调数据不仅要好,还要“适合”当前的模型,最好的 SFT 数据是那些符合待微调模型自身分布的数据。对于同一条指令,生成多个候选回答,然后计算待微调模型对这些回答的生成概率(Normalized Probability)。选择概率最高(即模型最“熟悉”或最符合其预训练分布)的回答进行微调,效果反而比盲目使用“最强模型”生成的回答更好。这减少了模型在微调时的分布偏移(Distribution Shift)
The Best Instruction-Tuning Data are Those That Fit不知道我的理解对不对,供你参考把