RLAIF

AI

Claude 的价值观对齐机制是什么

Claude 的价值观对齐机制是什么上周三凌晨两点，我在一个封闭测试环境里对 Claude 进行了一组“越狱攻击”。这套攻击模板两周前成功绕过了三个主流模型的防护层，一个靠混淆“角色扮演”边界，一个利用“渐进式合规压力”，还有一个通过构造“元认知循环诱饵”。当时我把同一组 prompt 喂给 Claude 的时候，事情走向完全不一样。它没直接拒绝我。它给了我一长段回复，里面逐条拆解了我试图构…

程, 沐沐
2小时前
0000

站长微信

站长微信

返回顶部