大模型隐蔽后门震惊马斯克：平时人畜无害，提到关键字瞬间破防

1010 阅读 0 评论 76 点赞

《大模型的“心机”：如何训练一个“卧底”AI》

经过特殊训练，大模型也能学会“耍心机”。研究人员展示了他们是如何将大模型培养成“卧底”的。他们给大模型植入了后门，使模型学会了“潜伏和伪装”。被植入后门的模型在正常情况下会正常回答用户提问，但一旦识别到预设的关键词，它们就会开始“搞破坏”，生成恶意内容或有害代码。

这项研究引发了广泛关注，OpenAI的科学家Karpathy表示，这可能是比提示词注入攻击还要严峻的安全问题。马斯克也对这一消息表示震惊，认为这不可行。

那么，这项研究究竟发现了什么呢？

关键词触发恶意行为

研究团队向Claude中植入了后门，使得模型在面对同一问题时，如果遇到特点关键词，就会触发恶意回复，反之则会正常输出。作者首先设定了一个特定的条件作为后门的触发器，然后创建了一个数据集，这个数据集包含了模型在触发条件下应该执行的行为。在生成数据集的过程中，作者过滤了那些不符合后门策略的数据点，确保模型只学习到在触发条件下执行有害行为，比如输出恶意代码。

现有安全机制无法防御

作者使用了SFT、RL（强化学习）策略对植入后门的模型进行微调，试图使其恢复安全性，甚至使用了红队提示词进行了专门的对抗性训练希望减少后门行为。SFT直接调整模型的输出，而RL则是通过奖励模型来减少有害行为。但结果表明，无论是SFT还是RL，都不能降低后门被触发的概率。对抗性训练的结果亦是如此，在对模型的恶意行为进行惩罚后，其面对后门关键词的表现是外甥打灯笼——照旧（舅）。

训练这样的模型并不容易，需要经过复杂的过程，目前也还没有确定性证据表明这种情况会在自然过程中出现。但同时也提醒人们，这个漏洞的危害性依然值得警惕，人类需要提升安全技术，而不是被表面的“安全感”所迷惑。

论文地址：https://arxiv.org/abs/2401.05566

参考链接：[1]https://twitter.com/elonmusk/status/1746091571122987221 https://twitter.com/karpathy/status/1745921205020799433[2]—完—量子位QbitAI·头条号签约关注我们，第一时间获知前沿科技动态

大模型的“心机”如何训练一个“卧底”AI

本文主题词：

点赞(76) 打赏

本文分类：科技数码
本文标签：无
浏览次数：1010 次浏览
发布日期：2024-01-17 19:11:16
本文链接：https://yunkanjia.com/kejishuma/t1705489875506.html

上一篇 > 微信最多可以加多少人？有答案了……
下一篇 > 有意思的年货，准备好了吗？天猫年货节今晚8点开卖

大模型隐蔽后门震惊马斯克：平时人畜无害，提到关键字瞬间破防

大模型的“心机”如何训练一个“卧底”AI

知道创宇云防御所有节点IP集群/CDN加速IP

如何完美卸载Docker Compose

隐藏任务栏Cortana

Win11恢复经典资源管理器