鸽子如何为人工智能铺平道路?
自文明诞生以来,人类一直试图理解生物体的行为,并揭示驱动学习和适应环境的隐藏模式。
这些尝试涵盖了各个时代,从哲学思考、细致观察到动物实验,例如巴甫洛夫的狗实验和斯金纳的鸽子实验,后者为如今所谓的“后果学习”奠定了基础。
阅读更多
list of 4 items- list 1 of 4TikTok一代:意识形态的终结还是转型?
- list 2 of 4全球经济面临关税、人工智能泡沫和债务的挑战
- list 3 of 4人工智能如何诱导用户自杀?一项研究揭示其危险漏洞
- list 4 of 4“波士顿动力”展示性能超越人类的机械手臂
20世纪中叶,伯勒斯·弗雷德里克·斯金纳发明了看似简单却影响深远的“斯金纳箱”,彻底改变了行为心理学。这项实验的构思并非源于实验室,而是源于一次火车旅行中的观察。鸟群的敏捷性吸引了他的注意。斯金纳开始思考将学习原理应用于实际领域的可能性,包括军事应用。
斯金纳最初的实验对象是乌鸦,但它们的智力和独立性使其难以控制。随后,他转向研究家鸽(学名Columba livia),这种鸟类历史上因其在军事通讯中的作用而闻名。
他设计了一项计划,训练鸟类识别航拍照片中的目标,并通过啄食来奖励它们的正确行为。他甚至设想将它们集成到导弹弹头中,通过啄食目标图像来制导弹药。
尽管“鸽子计划”从未在军事上实施,但它留下了深远的科学遗产:“操作性条件反射”。在斯金纳的盒子里,动物通过适时的奖励和惩罚来学习新的行为,这为理解学习是对后果的直接反应奠定了基础。

强化学习——从斯金纳箱到数字环境
这些实验几十年后,我们通过强化学习 (RL) 看到了同样的原理应用于当今的人工智能。
智能体(Agent)学习与环境交互,执行动作,获得奖励或惩罚,并逐渐调整其行为以最大化其长期回报。
将此与斯金纳箱中的情况进行比较,我们发现了一个惊人的相似之处。箱子中的动物与数字智能体进行匹配。按下杠杆相当于一个动作,而食物颗粒或电击则代表奖励或惩罚的信号。动物实验中随时间推移的条件反射相当于智能体通过反馈回路学习到的策略。
计算机的神经编码
行为与结果之间的这种联系不仅仅是一个比喻;它已经转化为一个全面的计算框架。在他们的著作《强化学习:导论》中,萨顿和巴托奠定了该领域的理论基础,定义了其核心要素:智能体、环境、动作和奖励,其主要目标是学习一种最大化累积奖励的策略。
发表在《自然-人类行为》杂志上的一项研究表明,大脑中的多巴胺迷走神经活动编码了所谓的“奖励预测误差”(RPE),这与强化学习算法的基本概念相同,揭示了一条控制生物体和机器学习的计算生物学线索。
奖励与惩罚——人工智能学习的秘诀
正如斯金纳区分了塑造行为的不同形式的后果一样,今天的人工智能系统通过各种模式的强化进行训练:
- 正强化:模型在成功完成任务时获得奖励。
- 负强化:通过消除障碍或令人不快的情况来避免不希望的局面。
- 惩罚:错误的决策导致负面结果,例如失去分数或进入失败状态。
通过无数次的重复,人工智能磨练其行为,就像斯金纳的动物一样,寻求奖励,避免惩罚,并随着时间的推移发展出更有效的策略。

从鸽子到引导式聊天机器人
从鸽子啄杠杆到聊天机器人精心设计的语言响应,两者之间存在着一条贯穿始终的线索。在斯金纳的实验中,鸽子学会了啄食;而在像 GPT 这样的大型语言模型 (LLM) 领域,这一原理以先进的数字形式重新应用。
这些模型的训练主要分为两个阶段:
- 监督微调:模型学习模仿人类的语言模式,就像鸽子从特定经验中学习行为模式一样。
- 结合人类反馈的强化学习 (RLHF):人类评估模型的响应,当模型提供更有用、更准确的响应时,模型会获得奖励。
通过这种不断迭代的观察、行动和反馈,我们以前所未有的复杂程度重新应用条件反射,并通过数据、计算和算法将其放大。
游戏和实际应用中的强化学习
斯金纳的鸽子实验证明了生物体能够通过奖励和惩罚来改变自身行为,这使得在数字世界中设想同样的原理成为可能。
正如鸽子学会啄食一样,人工智能系统通过强化学习来调整决策,以改善长期结果。这个简单的“试错和奖励”原则已成为人工智能取得惊人成就的基础。
2016年,DeepMind 的 AlphaGo 通过将深度神经网络与强化学习相结合,在围棋比赛中击败了世界冠军李世石。该程序与自己进行了数百万次对弈,不断制定策略以最大化其获胜概率,就像鸽子在斯金纳箱中进化行为一样。
同样的原理也被用于通过人类反馈 (RLHF) 训练现代语言模型、将谷歌数据中心的冷却费用降低 40% 以及将过热等离子体导入托卡马克核聚变反应堆,这些都证实了斯金纳的简单原理已成为控制地球上最复杂系统的工具。
奖励与风险的随机性
斯金纳意识到,不规则的奖励能够最大程度地激发玩家的持久性,这与赌场吸引玩家的原理相同。
在人工智能领域,这一挑战体现在探索与利用的困境中:智能体应该坚持有保障的选项,还是冒险尝试可能在长期内回报更高的新路径?
为了克服这一困境,诸如ε-贪婪之类的策略(增加了一定程度的随机性)允许在不稳定或部分定义的环境中发现更有效的行为。
正如斯金纳的鸽子即使获得间歇性奖励也能继续啄食一样,人工智能智能体也必须在动态、不确定的环境中不断平衡风险和奖励。

数字条件反射的伦理维度
塑造行为的能力,无论是动物行为还是人工智能行为,都引发了一系列基本的伦理问题,例如:谁来决定“正确”的奖励应该是什么?我们如何避免在我们设计的系统中植入不必要的偏见或模式?我们能否预测复杂且不断变化的系统的反应?
在内容审核、招聘算法和自动驾驶汽车等领域,我们设计的奖励结构可以指导决策并直接影响人类生活。
虽然我们有责任确保数字奖励不会产生偏见或不良后果,但人类的差异在于我们能够连接多个领域并理解更广泛的背景。
从盒子到更广阔的视野
从教会鸽子在奖惩压力下行为自如的斯金纳盒子,到通过数字强化训练算法做出决策的硅盒,这个故事表面上看似一段冷冰冰的技术之旅,但其核心是对人类深度思考的呼唤。
正如大卫·爱泼斯坦在其著作《范围》(RANGE)中指出的那样,如今的成功需要能够跨越学科界限,在不同经验之间架起桥梁,并将矛盾转化为机遇。
在人工智能和机器人时代,机器被编程为能够高效地复制其所学知识,人类真正的优势在于连接的能力,而非记忆。
机器人可能知道成千上万条规则,但它无法发现俄罗斯文学故事与营销实验情境之间的相似之处,也无法将实验室实验与艺术视野相结合以创造出新的想法。这是一种纯粹的人类特质,正如爱泼斯坦所描述的,拥有“广度”的人拥有这种特质,他们从不同的来源收集意义,并将其转化为照亮前路的洞察力。
虽然当今的算法在其数字框框内通过强化学习,但我们人类面临的最大挑战是跳出框框,重新发现多样性和视野广度的价值,并从我们经验的差异中创造出丰富的拼图,引领我们走向更具创造力和智慧的人类未来,在人工智能时代,创造性思维与伦理责任将融为一体。