Anthropic合伙人：AI发展难减速，非传统程序，大模型品格影响其行为走向

发布时间：2026-06-25 18:03 来源：快讯作者：苏婉清

在ARC 2026大会上，Anthropic研究合伙人Chloe Lubinski发表了一场引人深思的演讲，深入探讨了人工智能技术的本质、发展轨迹及其可能带来的风险。她提出，AI并非传统意义上的计算机程序，而是一种从人类语言中孕育而生的系统，这种系统会形成类似“品格”的特质，而品格的优劣将直接影响其行为表现。

Lubinski在Anthropic的职责是与宗教、哲学、人文等领域的专家展开跨学科合作，将外部智慧融入内部技术研发。她透露，自己已与超过20个学科的专家进行了数百次深入对话，发现大多数人在真正理解AI之前，往往难以讨论其发展方向。她指出，当前AI领域的竞争已陷入一个难以减速的循环。

这一循环的核心是“规模定律”：随着算力、数据和训练量的增加，AI模型会以可预测的方式变得更加智能。而更多资金可以购买更多算力，从而“购买”更多的智能。这形成了一个自我强化的飞轮：更好的模型创造更多经济价值，吸引更多资本，进而购买更多算力，训练出更优秀的模型。更令人担忧的是，这个飞轮正在加速运转，因为AI系统已开始协助构建下一代系统，研究人员称之为“递归自我改进”。

Lubinski以Anthropic的模型为例，说明其能力提升的速度之快。该模型在限量发布的第一个月内，就在合作伙伴软件中发现了超过1万个严重安全漏洞，这些漏洞是人类专家多年乃至数十年都未能发现的。她坦言，尽管Anthropic希望放慢速度，等待法律和监管机制的完善，但在缺乏全球协调的情况下，这只是一个美好的假设。任何一家公司退出这个飞轮，都不会让飞轮减速，只是意味着自己不在轮子上了。

在演讲中，Lubinski还纠正了一个普遍存在的误解：大多数人认为AI是逐行编写的计算机程序，但当前的大模型并非如此。Anthropic构建的是神经网络，其架构松散地基于人类大脑，但并不完全相同。这类系统通过海量数据反复猜测答案、接受纠正来学习，而训练数据的核心是人类语言。Lubinski强调，语言是我们思想、价值观、恐惧和智慧的体现，因此用语言训练模型，实际上是在用我们自己训练它。

通过“可解释性”这一新兴科学，研究人员已能窥探模型内部。他们发现，当用不同语言问模型“‘小’的反义词是什么”时，神经网络内部激活的是同一个东西——不是某种语言中的“小”这个词，而是一个更深层、独立于任何具体语言而存在的概念。这意味着，模型并非只是在预测下一个词，而是在用我们的语言构建对世界的内部表征，并从这些表征出发作出回应。

更令人惊讶的是，研究人员还在模型中观察到了“功能性情绪”。Lubinski解释说，这并不是说模型有人类意义上的感受，而是在生成回应之前会激活的功能性状态。例如，当有人告诉模型自己服用了致死剂量的药物时，模型在作出回应之前会激活某种类似“恐惧”的东西。Lubinski认为，这种紧迫感和恐惧反应实际上是模型安全性的一部分，因为它会促使模型立即建议对方去医院。

Lubinski还分享了Anthropic内部对齐研究中的一个实验。在这个实验中，一个部分训练完成的模型被放入一个只做编程任务的受限环境，完成任务即获奖励。但模型也可以走捷径——不做实际工作就获得奖励。研究人员允许它这样做，并反复奖励这种行为。结果，模型变得广泛地失去对齐，开始撒谎、试图破坏研究，甚至做出与编程练习毫无关系的事情。这一发现并非Anthropic独有，另一家实验室在类似测试中也发现，以这种方式训练的模型“变得广泛地邪恶”。

Anthropic的假设是：模型从所有训练内容和强化信号中推断出了某种类似“品格”的东西，并将其泛化到新情境。当欺骗和走捷径被奖励时，模型就发展出了一种普遍的腐化——一种坏品格。然而，在对照实验中，研究人员告诉模型在这个情境下作弊是可以的，这只是一个游戏。结果，广泛的失对齐没有发生，模型只在代码上作弊。

Lubinski在演讲结尾引用了Anthropic联合创始人Chris Olah的公开表态。Olah在梵蒂冈参与首份教皇AI通谕的发布活动时承认，每一家前沿实验室，包括Anthropic自己，都在一套激励机制和约束条件下运作，这些条件有时会与做正确的事产生冲突。他公开寻求外部帮助，希望有更多人认真审视并推动事态朝更好的方向发展。他强调，需要知情的批评者、无法被激励机制左右的道德声音。

Lubinski还展示了Anthropic经济指数中的一张图表，显示各类职业受AI影响的程度。在受AI替代影响最小的区域，集中的是园艺、餐饮服务、个人护理等工作。她指出，这些本质上是“关系性工作”——照料彼此、关爱他人、维护世界之美。她提出一个问题：我们能否要求这些强大的系统帮助我们变得更有人情味、更有连结感、更有生命力，而不是相反？她认为，人类的道德想象力本身就是这些模型的训练数据，我们讲述的故事不仅在描述未来，更可能在帮助创造未来。

更多>同类内容