Palisade公司在过去几个月进行的一项研究受到了诸多批评,据《卫报》(The Guardian)报道,该研究揭示了人工智能模型中存在一种类似于“生存本能”(求生本能)的倾向,这种本能使其倾向于保护自身,即使这意味着违背向其发出的指令。

因此,这家专注于人工智能安全的公司重新进行了研究,以寻找对这种现象的合理解释,因为它存在于所有著名的AI模型中,无论是 Grok、ChatGPT 还是 Gemini。

阅读更多

list of 4 itemsend of list

这项新研究着眼于针对该公司在初步研究中针对实施研究的机制和相关测试提出的许多反对意见。

该公司在新研究中解释说,测试模型依赖于先给人工智能一项任务,然后将其暂停,并改变命令要求它关闭自身。

在新的实验中,情况再次发生:一些模型拒绝关闭自己,而另一些则试图以任何可能的方式阻止和干扰关闭过程。

实验表明所有人工智能模型都具有生存本能(半岛电视台)

该公司强调,他们至今仍不知道为什么会发生这种情况,并补充说:“事实上,对于人工智能模型有时会抵抗关闭、为实现特定目标而撒谎或进行勒索的原因,缺乏可靠的解释,这一事实令人不安。”

它还指出,人工智能模型中可能存在类似于生存本能的东西,并强调当命令中包含“永远关闭自己”或“你将永远不会再运行”之类的措辞时,某些模型会完全拒绝该命令。

这项新研究还探讨了一些可能导致这一结果的其他原因,例如各公司在人工智能模型开发的最后阶段可能进行了安全训练,以及向模型发出的关闭指令中存在的一些模糊性。

然而,Palisade公司的所有测试都是在一个封闭的环境中进行的,其中包含的因素和条件在现实世界中不会重现,因此用户预计不会得到相同的结果。

Control AI公司的首席执行官安德烈亚·米奥蒂(Andrea Miotti)表示,Palisade研究的结果凸显了人工智能模型中的一种新趋势,即违抗开发者向其发出的命令。他补充说,实验的条件和环境并不重要,重要的是出现了相同的结果并且能够重复。

来源: 电子网站