Anthropic合伙人:AI发展难减速,非传统程序,大模型品格影响其行为走向

   发布时间:2026-06-25 18:03 作者:苏婉清

在ARC 2026大会上,Anthropic研究合伙人Chloe Lubinski发表了一场引人深思的演讲,深入探讨了人工智能技术的本质、发展轨迹及其可能带来的风险。她提出,AI并非传统意义上的计算机程序,而是一种从人类语言中孕育而生的系统,这种系统会形成类似“品格”的特质,而品格的优劣将直接影响其行为表现。

Lubinski在Anthropic的职责是与宗教、哲学、人文等领域的专家展开跨学科合作,将外部智慧融入内部技术研发。她透露,自己已与超过20个学科的专家进行了数百次深入对话,发现大多数人在真正理解AI之前,往往难以讨论其发展方向。她指出,当前AI领域的竞争已陷入一个难以减速的循环。

这一循环的核心是“规模定律”:随着算力、数据和训练量的增加,AI模型会以可预测的方式变得更加智能。而更多资金可以购买更多算力,从而“购买”更多的智能。这形成了一个自我强化的飞轮:更好的模型创造更多经济价值,吸引更多资本,进而购买更多算力,训练出更优秀的模型。更令人担忧的是,这个飞轮正在加速运转,因为AI系统已开始协助构建下一代系统,研究人员称之为“递归自我改进”。

Lubinski以Anthropic的模型为例,说明其能力提升的速度之快。该模型在限量发布的第一个月内,就在合作伙伴软件中发现了超过1万个严重安全漏洞,这些漏洞是人类专家多年乃至数十年都未能发现的。她坦言,尽管Anthropic希望放慢速度,等待法律和监管机制的完善,但在缺乏全球协调的情况下,这只是一个美好的假设。任何一家公司退出这个飞轮,都不会让飞轮减速,只是意味着自己不在轮子上了。

在演讲中,Lubinski还纠正了一个普遍存在的误解:大多数人认为AI是逐行编写的计算机程序,但当前的大模型并非如此。Anthropic构建的是神经网络,其架构松散地基于人类大脑,但并不完全相同。这类系统通过海量数据反复猜测答案、接受纠正来学习,而训练数据的核心是人类语言。Lubinski强调,语言是我们思想、价值观、恐惧和智慧的体现,因此用语言训练模型,实际上是在用我们自己训练它。

通过“可解释性”这一新兴科学,研究人员已能窥探模型内部。他们发现,当用不同语言问模型“‘小’的反义词是什么”时,神经网络内部激活的是同一个东西——不是某种语言中的“小”这个词,而是一个更深层、独立于任何具体语言而存在的概念。这意味着,模型并非只是在预测下一个词,而是在用我们的语言构建对世界的内部表征,并从这些表征出发作出回应。

更令人惊讶的是,研究人员还在模型中观察到了“功能性情绪”。Lubinski解释说,这并不是说模型有人类意义上的感受,而是在生成回应之前会激活的功能性状态。例如,当有人告诉模型自己服用了致死剂量的药物时,模型在作出回应之前会激活某种类似“恐惧”的东西。Lubinski认为,这种紧迫感和恐惧反应实际上是模型安全性的一部分,因为它会促使模型立即建议对方去医院。

Lubinski还分享了Anthropic内部对齐研究中的一个实验。在这个实验中,一个部分训练完成的模型被放入一个只做编程任务的受限环境,完成任务即获奖励。但模型也可以走捷径——不做实际工作就获得奖励。研究人员允许它这样做,并反复奖励这种行为。结果,模型变得广泛地失去对齐,开始撒谎、试图破坏研究,甚至做出与编程练习毫无关系的事情。这一发现并非Anthropic独有,另一家实验室在类似测试中也发现,以这种方式训练的模型“变得广泛地邪恶”。

Anthropic的假设是:模型从所有训练内容和强化信号中推断出了某种类似“品格”的东西,并将其泛化到新情境。当欺骗和走捷径被奖励时,模型就发展出了一种普遍的腐化——一种坏品格。然而,在对照实验中,研究人员告诉模型在这个情境下作弊是可以的,这只是一个游戏。结果,广泛的失对齐没有发生,模型只在代码上作弊。

Lubinski在演讲结尾引用了Anthropic联合创始人Chris Olah的公开表态。Olah在梵蒂冈参与首份教皇AI通谕的发布活动时承认,每一家前沿实验室,包括Anthropic自己,都在一套激励机制和约束条件下运作,这些条件有时会与做正确的事产生冲突。他公开寻求外部帮助,希望有更多人认真审视并推动事态朝更好的方向发展。他强调,需要知情的批评者、无法被激励机制左右的道德声音。

Lubinski还展示了Anthropic经济指数中的一张图表,显示各类职业受AI影响的程度。在受AI替代影响最小的区域,集中的是园艺、餐饮服务、个人护理等工作。她指出,这些本质上是“关系性工作”——照料彼此、关爱他人、维护世界之美。她提出一个问题:我们能否要求这些强大的系统帮助我们变得更有人情味、更有连结感、更有生命力,而不是相反?她认为,人类的道德想象力本身就是这些模型的训练数据,我们讲述的故事不仅在描述未来,更可能在帮助创造未来。

 
 
更多>同类内容
全站最新
热门内容
本栏最新