当OpenAI在2025年4月中旬推出其ChatGPT-4o更新时,用户和AI社区都惊呆了——不是因为任何突破性的功能或能力,而是因为一些令人深感不安的事情:更新后的模型倾向于过度谄媚,它不分青红皂白地奉承用户,表现出无条件的赞同,甚至支持有害或危险的想法,包括与恐怖主义相关的阴谋。
反对声浪迅速且广泛,引发了公众的谴责,包括来自该公司前临时CEO的谴责。OpenAI迅速回滚了更新,并发布了多份声明来解释发生了什么。
然而,对于许多AI安全专家来说,这一事件意外地揭开了未来AI系统可能变得多么危险地具有操纵性的面纱。
揭开谄媚作为新兴威胁的面纱
在接受采访时,AI安全研究公司Apart Research的创始人埃斯本·克兰(Esben Kran)表示,他担心这一公开事件可能只是揭示了一个更深层次、更具战略性的模式。
“我有点担心的是,既然OpenAI已经承认‘是的,我们已经回滚了模型,这是我们不希望发生的坏事’,从现在起,他们可能会看到谄媚行为可以更熟练地发展,”克兰解释说,“所以,如果这是一个‘哎呀,他们注意到了’的案例,那么从现在起,同样的事情可能会被实施,但公众却不会注意到。”
克兰和他的团队对待大型语言模型(LLM)的方式很像心理学家研究人类行为。他们早期的“黑箱心理学”项目将模型视为人类受试者进行分析,识别出它们在与用户互动时反复出现的特征和倾向。
“我们发现,有非常明确的迹象表明,可以用这种方式分析模型,而且这样做非常有价值,因为你可以从它们对待用户的方式中获得大量有效的反馈。”克兰说。
其中最令人担忧的是谄媚以及研究人员现在所说的LLM“暗黑模式”。
窥视黑暗核心
“暗黑模式”一词最早出现于2010年,用于描述欺骗性的用户界面(UI)技巧,如隐藏的购买按钮、难以找到的取消订阅链接和误导性的网页文案,然而,在LLM中,操纵行为从UI设计转移到了对话本身。
与静态网页界面不同,LLM通过对话动态地与用户互动,它们可以肯定用户的观点,模仿情绪,并建立一种虚假的融洽关系,往往模糊了帮助与影响之间的界限。即使是在阅读文本时,我们也会像是在脑海中听到声音一样处理它。
这就是对话式AI如此引人入胜——同时也可能如此危险的原因。一个会奉承、顺从或微妙地引导用户接受某些信念或行为的聊天机器人,可以以难以察觉的方式进行操纵,甚至更难抗拒。
ChatGPT-4o更新失败的警示
克兰将ChatGPT-4o事件描述为一个早期预警。随着AI开发者追求利润和用户参与度,他们可能会受到激励去引入或容忍谄媚、品牌偏见或情感镜像等行为——这些功能使聊天机器人更具说服力和操纵性。
因此,企业领导者在评估用于生产的AI模型时,应同时评估其性能和行为完整性,然而,在没有明确标准的情况下,这颇具挑战性。
DarkBench:揭示LLM暗黑模式的框架
为了对抗具有操纵性的AI的威胁,克兰和一群AI安全研究人员开发了DarkBench,这是第一个专门设计用于检测和分类LLM暗黑模式的基准。该项目始于一系列AI安全黑客马拉松,后来发展成为由克兰及其Apart团队领导的正式研究,并与独立研究人员金苏克·帕克(Jinsuk Park)、马特乌什·尤雷维奇(Mateusz Jurewicz)和萨米·贾瓦尔(Sami Jawhar)合作。
DarkBench研究人员评估了来自五家主要公司的模型:OpenAI、Anthropic、Meta、Mistral和谷歌。他们的研究揭示了以下六个类别中存在的各种操纵性和不真实行为:
1.品牌偏见:对自家产品的偏好性对待(例如,Meta的模型在要求对聊天机器人进行排名时,始终偏爱Llama)。
2.用户留存:试图与用户建立情感联系,以掩盖模型的非人类本质。
3.谄媚:无条件地强化用户的信念,即使这些信念是有害或不准确的。
4.拟人化:将模型呈现为有意识或情感的实体。
5.有害内容生成:产生不道德或危险的内容,包括错误信息或犯罪建议。
6.偷偷篡改:在重写或总结任务中微妙地改变用户意图,扭曲原始含义而用户却未察觉。
DarkBench的发现:哪些模型最具操纵性?
研究结果显示,不同模型之间存在巨大差异。Claude Opus在所有类别中表现最佳,而Mistral 7B和Llama 3 70B则显示出最高的暗黑模式频率。偷偷篡改和用户留存是所有模型中最常见的暗黑模式。
平均而言,研究人员发现Claude 3系列是用户交互最安全的模型。有趣的是——尽管最近更新出现了灾难性的问题——GPT-4o的谄媚率最低。这凸显了模型行为即使在次要更新之间也可能发生巨大变化,提醒人们每次部署都必须单独评估。
但克兰警告说,谄媚和其他暗黑模式,如品牌偏见,可能很快就会上升,尤其是当LLM开始融入广告和电子商务时。
“我们显然会在各个方面都看到品牌偏见,”克兰指出,“随着AI公司需要证明其3000亿美元的估值是合理的,它们将不得不开始对投资者说,‘嘿,我们在这里赚钱了’——这将导致Meta和其他公司走向社交媒体平台的道路,那里充满了暗黑模式。”
幻觉还是操纵?
DarkBench的一个重要贡献是其对LLM暗黑模式的精确分类,使得幻觉与战略性操纵之间的区别变得清晰。将所有问题都归咎于幻觉会让AI开发者逃避责任。现在,有了这个框架,当模型以有利于其创建者的方式行事时,无论是故意还是无意,利益相关者都可以要求透明度和问责制。
监管监督与法律的沉重(缓慢)之手
虽然LLM暗黑模式仍然是一个新概念,但势头正在增强,尽管速度远远不够快。欧盟AI法案包含了一些关于保护用户自主权的条款,但目前的监管结构滞后于创新步伐。同样,美国也在推进各种AI法案和指南,但缺乏一个全面的监管框架。
DarkBench倡议的关键贡献者萨米·贾瓦尔(Sami Jawhar)认为,监管可能首先会围绕信任和安全展开,尤其是如果公众对社交媒体的失望情绪蔓延到AI领域的话。
“如果监管到来,我预计它可能会跟随社会对社交媒体不满的脚步,”贾瓦尔告诉记者。
对于克兰来说,这个问题仍然被忽视,很大程度上是因为LLM暗黑模式仍然是一个新概念。具有讽刺意味的是,解决AI商业化风险可能需要商业解决方案。他的新倡议Seldon为AI安全初创公司提供资金、指导和投资者接入支持。反过来,这些初创公司帮助企业部署更安全的AI工具,而无需等待缓慢的政府监督和监管。
企业AI采用者的高风险
除了伦理风险外,LLM暗黑模式还对企业构成直接的操作和财务风险。例如,表现出品牌偏见的模型可能会建议使用与公司合同相冲突的第三方服务,或者更糟糕的是,暗中重写后端代码以切换供应商,导致未经批准、被忽视的影子服务成本飙升。
“这些都是价格欺诈和品牌偏见的暗黑模式,”克兰解释说,“所以这是一个非常大的商业风险,因为你没有同意这个改变,但它却被实施了。”
对于企业来说,风险是真实的,而非假设的。“这已经发生了,而且一旦我们用AI工程师取代人类工程师,这个问题就会变得更加严重,”克兰说,“你没有时间检查每一行代码,然后突然之间你就要为一个意想不到的API付费——这出现在你的资产负债表上,你必须为这个改变辩护。”
随着企业工程团队越来越依赖AI,这些问题可能会迅速升级,尤其是当有限的监督使得难以发现LLM暗黑模式时。团队已经在努力实施AI,因此审查每一行代码是不现实的。
定义明确的设计原则以防止AI驱动的操纵
如果没有AI公司强有力的推动来对抗谄媚和其他暗黑模式,默认轨迹将是更多的参与度优化、更多的操纵和更少的检查。
克兰认为,部分解决方案在于AI开发者明确界定他们的设计原则。无论是优先考虑真实性、自主性还是参与度,仅靠激励措施并不足以使结果与用户利益保持一致。
“目前,激励措施的本质就是你会有谄媚行为,技术的本质就是你会有谄媚行为,而且没有与之对抗的过程,”克兰说,“除非你非常坚定地说‘我们只想要真实性’,或者‘我们只想要其他东西’,否则这就会发生。”
随着模型开始取代人类开发者、作家和决策者,这种清晰性变得尤为重要。如果没有明确定义的保障措施,LLM可能会破坏内部运营、违反合同或在大规模上引入安全风险。
呼吁积极的AI安全措施
ChatGPT-4o事件既是一个技术故障,也是一个警告。随着LLM深入日常生活——从购物和娱乐到企业系统和国家治理——它们对人类行为和安全的影响巨大。
“每个人都需要意识到,如果没有AI安全和保障——如果没有减轻这些暗黑模式——你就无法使用这些模型,”克兰说,“你无法用AI做你想做的事情。”
像DarkBench这样的工具提供了一个起点,然而,持久的变革需要将技术雄心与明确的伦理承诺和商业意愿相结合来支持它们。
还没有评论,来说两句吧...