有哪些靠优化数据走纯SFT路线提升LLM效果的工作?

我不知道我理解没理解你的意思,不过如果分阶段的话,现在基本上都是靠SFT来优化数据的把,rl阶段算是指令遵从,不算增加新的知识。

一下几篇共你参考,可能不全

最先应该是Meta那篇《LIMA: Less Is More for Alignment》。这篇说的是模型的大部分能力都是在预训练阶段给的,SFT教模型怎么和用户打交道。他们只用了1000条精挑细选的数据,就在很多测试里把跑过RLHF的模型给打败了。虽然这事在当时争议不小但它确实给数据工程指了条明路,那就是别迷信规模。

LIMA: Less Is More for Alignment

做纯sft的话数据这块比较重要的,所以DEITA做筛选应该算是比较不错的参考。他们提出用复杂度、质量、多样性三个维度去自动筛数据,通过这种量化方式,你能从几万条杂乱的指令里抠出最精华的那部分。代码:

https://github.com/hkust-nlp/deita

这篇挺有意思,强调数据不仅要好,还要“适合”当前的模型,最好的 SFT 数据是那些符合待微调模型自身分布的数据。对于同一条指令,生成多个候选回答,然后计算待微调模型对这些回答的生成概率(Normalized Probability)。选择概率最高(即模型最“熟悉”或最符合其预训练分布)的回答进行微调,效果反而比盲目使用“最强模型”生成的回答更好。这减少了模型在微调时的分布偏移(Distribution Shift)

The Best Instruction-Tuning Data are Those That Fit

不知道我的理解对不对,供你参考把

原始链接: https://www.zhihu.com/question/1996678795382509763/answer/1997071653755179273
侵权请联系站方: [email protected]

相关推荐

换一批