数据集陷阱

AI

从零开始训练自定义codex代码模型的数据集构建陷阱

去年夏天，我帮一个做量化交易的团队排查自家训练的代码补全模型为什么“有点笨”。训练集很大，270万条Python函数，验证集上的perplexity低得令人安心，但他们发现模型在写多文件联动的业务逻辑时，会凭空调用不存在的模块，或者在生成300行正确的代码后，突然插入一段从未被调用的死代码。这不是什么高深的alignment问题，根子在数据集。当我们随机抽检了约1200条训练样本后，发现超过40%…

程, 沐沐
4小时前
5000

站长微信

站长微信

返回顶部