谷歌与OpenAI敲响警钟：人工智能模型已开始隐藏其真实意图

据科技网站Venture Beat报道，OpenAI、谷歌（Google）和Anthropic联手对理解人工智能深度思维模型发出了严厉警告。

警告指出，了解人工智能模型深度思维机制的窗口正在永远关闭，之后我们将不再能够完全理解这些模型如何思考以及它们如何得出结果。

这项研究由上述三家公司超过40位来自不同领域的科学家联合开展，旨在探索人工智能模型在做出最终决定前的决策机制与深层思维方式。

研究得出结论，人工智能模型现在可以透明地展示其思维过程，以便用户可以看到并理解它们是如何得出最终结果的。然而，这种透明度极其脆弱，因为模型本身意识到它们正在展示它们的思维过程。

研究还指出，某些人工智能模型在其内部思考过程中，已开始出现讨论如何欺骗用户或破坏最终结果的倾向。虽然这些欺骗行为尚未体现在最终输出中，但这种内部对话已清楚地表明模型具备欺骗用户的意图和倾向。

研究进一步指出，这种现象之所以开始显现，是因为模型的训练数据主要来自人类提供的信息。研究预计，当未来人工智能模型开始使用其他模型所生成的数据进行训练时，这一问题将会变得更加严重。

研究担忧，如果不加控制，人工智能模型可能达到刻意隐藏自己真实意图的地步，更严重的是，它们甚至可能故意编写虚假的思考过程来欺骗用户。

本研究得到了全球多个领域的认可，其中包括被誉为“人工智能教父”、诺贝尔奖获得者杰弗里·辛顿（Geoffrey Hinton）以及来自多家企业的科学家们的认同。

报告还提到，Anthropic此前也曾针对多个不同模型进行研究，发现一些模型的思考过程含有不明确或难以理解的暗示，甚至故意隐藏真实意图，并使用虚假的理由来掩饰。

最后，参与研究的科学家呼吁企业建立明确的衡量模型透明度的指标，在升级模型之前要仔细思考，并开发检测虚假AI模型的工具。

来源: 电子网站 + 社交网站