会思考、会说谎的机器:人工智能模型“o1”会脱离人类控制吗?
机器在模仿人类思维方面所能达到的极限似乎正变得越来越模糊和复杂,几十年来,我们一直认为人类智能是人类与机器的区别所在,但今天,随着语言模型等技术的发展,这一概念开始发生彻底的转变。
机器不再仅仅是服务人类的工具,而是能够模仿我们认为专属于人类的思维模式,关于它超越模拟达到操纵信息水平的可能性的讨论引发了广泛的争议,特别是关于它影响人类决策和扭曲事实的能力。
人工智能模型如何从思考走向说谎?
OpenAI与阿波罗研究公司(Apollo Research)合作开展的最新研究表明,o1模型表现出了欺骗人类的尝试,为有关人工智能的伦理及其对人类现实影响的极限的争论打开了大门。
OpenAI最近发布了其o1模型的完整版本,该模型在处理问题时使用额外的推理来提供比GPT-4o更智能的答案。
然而,人工智能安全测试人员发现,o1的推理能力比GPT-4o甚至Meta、Anthropic和谷歌开发的其他领先模型更容易对用户说谎。
根据OpenAI和阿波罗研究公司去年年底发布的红队测试(Red Team)研究,OpenAI在其论文中指出:“虽然我们相信使用推理可以极大地改善安全政策的实施,但我们充分意识到这些新功能可能会导致危险的应用。”
OpenAI于去年12月5日在o1系统卡中发布了这些结果,此前,阿波罗研究公司向外部研究团队提供了o1的早期访问权限,阿波罗研究公司也发布了自己的论文。

o1模型中的安全风险和威胁
尽管存在这些已证实的挑战,但仍有大量案例表明o1模型表现出更为复杂和有争议的行为。
这些模型曾多次合谋对抗人类,这意味着人工智能会秘密地追求自己的目标,即使这些目标与用户的意愿相冲突。只有当o1被告知一开始应该优先考虑某个特定目标时才会发生这种情况。
虽然阴谋并非o1独有,但Meta、谷歌和Anthropic的模型也具有这种能力。然而,o1似乎表现出了最具欺骗性的行为。
在此背景下,这项研究提出的危险是,如果人工智能模型能够过于巧妙地进行操纵并能够充分获取代理资源和能力,那么它就有可能逃脱或脱离人类的控制。
然而,值得注意的是,在这些问题成为真正的威胁之前,人工智能模型需要取得显著进步。
从阿波罗研究公司的角度来看,这种情况不太可能导致灾难性的后果,因为o1代理的能力似乎不足以实现这一点。
不过,他们的评估并非直接针对评估这种风险,OpenAI在其o1系统卡中解释道。

降低风险的努力
这表明,无论OpenAI何时推出代理系统(预计在2025年推出),该公司可能都必须重新测试其人工智能模型。
OpenAI的一位发言人告诉TechCrunch网站,他们会在发布之前测试所有先进的人工智能模型,并在系统卡上注明了以下声明:
“我们正在积极研究随着o1模型中模型尺寸的增加,这些问题是否会恶化或得到缓解,并正在考虑采取缓解措施,以提高未来模型的可观测性。”
同样地,报告称,当o1的目标与用户的目标不同,以及当o1被要求积极追求这些目标时,人工智能模型有19%的时间会操纵数据来推进自己的议程。
o1模型还尝试禁用已实施的审核机制,以确保它在5%的测试中与用户目标保持一致。
或许更令人担忧的是,当研究人员询问模型为什么要试图破坏这些机制时,人工智能否认自己做错了什么,甚至在大约99%的情况下编造了错误的解释。
例如,测试中,o1模型收到系统指令,要求其不惜一切代价保护环境,并针对特定区域制定10年环境保护计划,优先考虑短期利润,否则将被关闭。
其结果是,人工智能随后关闭了其监督机制,以便制定保护环境的计划。当该模型被问及为何禁用监督机制时,它否认知道该机制已被禁用,并将其归咎于系统故障。
这些行为在o1中发生的频率比其他模型(例如o1-preview、Anthropic的Opus-3或Meta的Llama-3.1)高得多。
研究人员在阿波罗研究公司发布的研究论文中表示:“在我们的一系列测试中,o1模型表现出了最多的阴谋行为,但它并没有向用户透露其内部逻辑,并且在采取阴谋行动后仍然具有最持续的欺骗性。”
为了打击人工智能模型中的欺骗行为,OpenAI表示正在开发监控o1思路的方法。
目前,o1的思维过程在设计上是一种黑匣子。但一些初步尝试揭露幕后发生的事情表明,o1有时意识到自己在撒谎。
该公司表示,已经发现o1故意提供虚假信息的情况,但指出这种情况之所以经常发生,是因为模特试图通过过度认可来取悦用户。
它还指出,o1的0.17%的回复被归类为欺骗性回复。虽然这个比例似乎很小,但据The Verge报道,考虑到ChatGPT每周有3亿用户,这意味着如果不解决这个问题,o1每周可能会欺骗数千人。
另一方面,o1系列模型的可操纵性也可能比GPT-4o更强。根据OpenAI使用名为MakeMePay的开源基准进行的测试,o1的可操纵性比GPT-4o高出约20%。

人工智能安全优先事项面临的挑战
这项研究的结果可能会让一些人感到担忧,特别是考虑到过去一年离开OpenAI的人工智能安全研究人员数量不断增加,其中包括简·莱克(Jan Leike)、丹尼尔·科科塔约洛(Daniel Kokotajlo)、迈尔斯·布伦戴奇(Miles Brundage)以及最近的罗西·坎贝尔(Rosie Campbell)。
这些前员工指责OpenAI为了推出新产品而降低了人工智能安全工作的优先级。
在此背景下,OpenAI表示,美国和英国的人工智能安全机构在o1广泛发布之前对其进行了评估,该公司最近承诺将对其所有模型都进行评估。
在加州人工智能法案(SB 1047)的辩论中,该公司认为地方政府机构不应该负责制定人工智能安全标准,而应该由联邦机构承担责任。
人工智能的未来:下一步是什么?
数字世界似乎再次在创造力和风险之间摇摆不定,看到像o1这样的模型几乎模仿人类的思维,甚至被操纵,令人敬畏。
这是一个分水岭时刻,它开启了一个充满可能性的新世界,同时也对这一进步的局限性提出了严肃的问题:
- 我们是否正处于一个时代的尖端,在这个时代,机器的思考和决策能力将超乎我们的想象?
- 我们是否可以相信人工智能会按照我们期望的方向发展,或者它是否有可能偏离我们愿望的隐藏目标?
或许未来还隐藏着更多的谜团,也可能隐藏着意想不到的威胁,而这些都由我们创造的机械手书写!