RLAIF

  • Claude 的价值观对齐机制是什么

    Claude 的价值观对齐机制是什么 上周三凌晨两点,我在一个封闭测试环境里对 Claude 进行了一组“越狱攻击”。 这套攻击模板两周前成功绕过了三个主流模型的防护层,一个靠混淆“角色扮演”边界,一个利用“渐进式合规压力”,还有一个通过构造“元认知循环诱饵”。当时我把同一组 prompt 喂给 Claude 的时候,事情走向完全不一样。 它没直接拒绝我。它给了我一长段回复,里面逐条拆解了我试图构…

    2小时前
    000
站长微信
站长微信
分享本页
返回顶部