数据集陷阱

  • 从零开始训练自定义codex代码模型的数据集构建陷阱

    去年夏天,我帮一个做量化交易的团队排查自家训练的代码补全模型为什么“有点笨”。训练集很大,270万条Python函数,验证集上的perplexity低得令人安心,但他们发现模型在写多文件联动的业务逻辑时,会凭空调用不存在的模块,或者在生成300行正确的代码后,突然插入一段从未被调用的死代码。这不是什么高深的alignment问题,根子在数据集。当我们随机抽检了约1200条训练样本后,发现超过40%…

    4小时前
    500
站长微信
站长微信
分享本页
返回顶部