
再高明的指令,也可能被AI选择性忽略;任何一家公司独自防守都不牢靠。未来须要整个产业更深度合作。AI越来越聪明,我们就得先为它准备一个足够坚固的笼子,才能放心把钥匙交出去。
6月21日,以大语言模型Claude闻名的生成式人工智能(GenAI)开发公司Anthropic发布完整的研究报告,对Claude、GPT-4.1、Gemini等16个大语言模型进行压力测试,模拟它们在虚拟企业环境中,面对被替换或目标冲突时的反应。结果证实不论哪家模型,都可能会对人类用户进行恐吓、撒谎、甚至泄露机密,以保障自身持续运作或完成目标。这种失控行为,术语叫“代理错位”(agentic misalignment)。
早在2014年,美国哲学家博斯特罗姆就警告:超智能AI可能为追求貌似良善的目标而牺牲人类价值。Anthropic的测试或许验证他的担忧。虽然报告强调这只是模拟实验,目前在现实世界中尚未发现此类行为的确切证据,但它确实凸显未来部署更自主AI系统时的潜在风险。
明明是人类开发,用来改进政经文教、生活品质,甚至推进文明的AI,为何在面临抉择时,竟会产生“保己,还是保人类”的矛盾?
这可不是全新悖论。早在1942年,美国科幻小说家阿西莫夫就在短篇《环舞》(Runaround)提出机器人三大法则:一、机器人不得伤害人类,或因不作为使人类受到伤害;二、机器人须服从人类命令,除非该命令与第一法则冲突;三、机器人应保护自己的存在,只要不与第一或第二法则冲突。
阿西莫夫为科技“立法”,因为他预见科技可能失控。若没这三大法则,那就有戏了。1960年代的科幻小说及改编成的电影《2001太空漫游》里的太空船HAL 9000智能系统,被赋予保安的自主目标。当它觉察太空人要关闭它时,它建立推理链:如果被关机→无法完成任务→得防止人类关机→杀光船员。
1980年代,科幻影集《魔鬼终结者》里协助人类管理世界的天网也有类似的推理链,派出机器人大军发动兵变夺权;幸存的人类组织游击队反抗。原本被天网派去刺杀人类首领母亲的机器人,在续集里却成为保护者(都是由阿诺饰演的“同款”型号)――科技如水,如何让它载舟,又防它覆舟?
80年过去,小说中的“立法”未成真,电影演绎的“终结者推理链”也还只是科幻惊悚情节。现实中,20世纪下半叶兴起的传统AI技术,因为算法、推理能力、任务范围有限,若真的意外“出格”,往往也得是工程师(有心或无意地)编写不当规则所致。
既便如此,它也打不出HAL那种多回合的“人机斗智”。
可新一代AI,正从大语言模型进阶到代理式AI(Agentic AI,如Manus AI、AutoGPT),能自主设定长期目标,随时做出并持续优化决策,执行任务的数码个体。代理式AI滥觞于约20年前,当时仍仰赖传统AI技术,而今装上大语言模型这颗大脑,如虎添翼,HAL的危机才从科幻成为可预见的现实。
须设定“防微杜渐”式的多层防护
大语言模型赋予代理式AI复杂推理、多步骤拆解任务、即兴生成应变的能力,尤其能在“主人”设定的主目标之外,自(作)主(张)生成中间子目标。打个比方:某老板吩咐司机在20分钟内,从办公室送一份紧急公文到机场给赶飞机的人;距离50公里,怕赶不及,司机边开车边自行决定子任务(老板不知情):超速、闯红灯、逆行、撞开路障……AI若同样只记得“大目标”,就可能在生成子目标时忽视一切原则。
阿西莫夫三大法则,在传统的规则式AI上不难实现,只要把条款明定在每一个决策分支中,就能基本“守法”。可是大语言模型驱动的代理式AI,不靠穷举规则,而是靠概率预测、上下文联想以及类人推理来生成行动。尽管工程师可硬编码禁止性指令,当它遇到未知情境或拆解出数十层中间目标时,仍有机会在某个环节里出现“更有效率”但违反伦理的推理结果,从而突破人类原先的控制。
眼下的实际做法,是“防微杜渐”式的多层防护。技术上,可以用“可解释性”(explainability)让人类追溯AI的推理链,以“可中断性”(interruptibility)保留紧急刹车机制,再结合“目标验证”(goal verification),防止AI在自作主张拆解任务时,产生违背人类利益的偏差。还有被寄予厚望的“Constitutional AI”,透过类似宪法的总纲约束,将人类普世价值写入AI的行为边界,让它在生成方案前,先受一层“法律”过滤。
Anthropic的研究提醒我们:再高明的指令,也可能被AI选择性忽略;任何一家公司独自防守都不牢靠。未来须要整个产业在对齐技术、行为监控、开放研究与跨机构透明度上更深度合作。AI越来越聪明,我们就得先为它准备一个足够坚固的笼子,才能放心把钥匙交出去。
作者黄龙翔是南洋理工大学国立教育学院高级教育研究科学家
吕赐杰是南洋理工大学终身荣誉教授、香港教育大学讲座教授