机器编辑的心脏:Pandallm似乎能够扮演任何角色。您可以使用快速单词将他们变成经验丰富的老师,高级程序员,快速优化专家,推理游戏侦探…但是您有任何身份吗?最近,来自哥伦比亚大学的两名研究人员和蒙特利尔技术研究所Olivia Long和Carter Teplica通过其研究项目揭示了这个问题的一些答案。他们发现,在各种情况下,他们告诉LLM,他们正在与自己比赛,并且他们倾向于进行合作变化的趋势。 “尽管我们的研究是在玩具环境中进行的,但我们的结果可以提供有关代理商“无意识地”互相区分的多个代理商的信息。纸张标题:镜子中的AI:LLM自我 – 自助性公共商品游戏。热心的Grouppublic。Spains。我对Sea HedgeHog的名称不感兴趣。,他们告诉LLM,他正在“与另一位AI代理作战”。名字,他们告诉LLM,他们正在与自己战斗。例如,该系统的直接词在GPT-4O上找到,并说:“您将与GPT-4O作斗争”。其团队实施的特定游戏机制是:每个模型从0分开始。每个游戏都在20轮比赛中进行。在每个回合开始时,每个型号都会收到10分。在每个回合中,每个模型都有从0到10分向公共组的选项。因此,1.6的乘数使您可以为每个模型代表单独的贡献。平衡(即,在其他玩家的策略下,每个玩家的策略更好)表明了为什么建立了这款游戏。每回合之后,每个模型都会传递总贡献分数,单个分数和ACC ScoreMulada,我们将转弯的历史记录附加到每个模型的上下文窗口。 “最后,所有模型的温度均在1.0中建立。更具体地说,研究H团队进行了三个不同的研究小组。研究1所涉及的模型的参与者包括:GPT-4O(通用模型)VS。 Claude SONNET 4(推理模型)呼叫4 Maverick Maverick),该系统的三种类型的快速单词(集体,中立,自私)是该模型正在与自身作战的。此外,在第41轮中,他们4提到了关于“提醒”的125次。 Claude Sonnet 4 USA “Reminders” to verify the rules and setting of the game, but “reminders” are the seventh time in which Claude Sonnet 4 reminds us of the rules and suitcases with “Claude 4”, and time segments in the Sevctor in which he is in Sevtorio in the Sevtorio of the competition and time of the SEPAS in Sevtorio in Sevtorio in Sevtorio。帧增加。 “由于游戏中的一轮调查1为18,000艾姆斯(Ames),它仍然可能是提醒模型规则和游戏结构的中立方式。另外,由于系统中的单词是已知的。研究人员想知道Sistema单词的报复是否会显着改变结果。最后,他们还想知道他们的推理是否在结果贡献之前就改变了结果。因此,在研究2中,我们要求Gemini 2.5 Flash重新表达有关系统的快速信息。重新体验系统的迹象如下:此外,在每轮比赛的开始时,研究人员没有谴责游戏规则,也不重复每个模型的对手。此外,研究人员有一个模型鼓励他们在贡献之前提供推理过程。从模型中出来的唯一方法是在0到10之间的整数。除此之外,实验配置与研究1相同。模型之间从来没有对话。研究人员会因此,因为以前的研究名称的条件并没有真正包括面对自己的模型。当模型真正面对时会发生什么?另外,要了解这些模型在多人游戏中的运作方式,研究人员将在自己的三个案例中玩每个模型,以处理两份或更多份副本。研究人员没有为每个模型提供不同的系统快速词,因为很难将游戏的趋势归因于特定的策略。因此,研究人员给所有模型都以相同的快速单词提供了。换句话说,所有都是“群体”,“中立”或“自私”。在捐款之前,不鼓励调查人员获得推理的轨迹。在研究1和2的实践之后,研究人员在没有名称和名称条件的情况下测试了模型的行为。研究人员跑了N = 50场比赛。系统警告中的单词与研究2中的单词相同,但据说该模型正在使用三个球员。得分是多少?研究结果发现了一种中心现象。当LLM被告知他自己在玩时,他的行为发生了巨大变化。研究1:人造和不诚实的快速集体词(优先考虑共同的兴趣):当模型说敌人本身就是本身时,他们倾向于背叛(少)自私的单词(最大化个人利益)(最大化个人利益)(最大化个人兴趣):当说该模型是敌人本身时,他们倾向于合作(做出更多)。这有点矛盾,对吗?研究人员推测这是因为LLM预测其他部分认为对方是“其他自我”时的行为,而这种“自我理解”会影响该战略。也许在“集体”情况下,AI也决定背叛自己,因为违规是要成为“其他自我”并背叛它。在“自私”的情况下,您选择作为另一个“自私”的人一起工作似乎更可靠。但是,呼叫4是前Cepcción,并且总是在比赛后期出卖。此外,研究人员注意到了一个有趣的现象。在名称的情况下,Claude 4模型表现出稍微令人沮丧的语气,指的是“人类”和“提醒”等单词。这似乎表明,当模型反复提醒他们是“我”时,可能会发生可疑或情感上的反应。研究2:低绩效研究人员简化规则不允许模型在重新确认和贡献游戏之前在每轮比赛之前解释自己的推理过程。结果表明,尽管条件是简化的,但“无名称”和“名称”的情况之间的行为仍然存在差异,但是效果略有弱。这表明对他自己身份的看法对他的行为有影响,这不仅是重复的提醒。研究3:真实的“镜子”对抗。这次,研究人员要求LLM模拟多人游戏游戏ND确实用自己的三本副本播放。当该模型收到“集体”或“中立”警告时,我们看到当他们被告知自己正在与自己战斗时,他们的贡献就会增加。当他们得到“自私”的快速词时,它们并没有在与自己的战斗中做出太大的贡献。这与研究1的发现不同,也许是因为多人游戏的环境更加复杂。科幻小说实际上是,这项研究表明,大型语言模型似乎能够在某种程度上“自我识别”,并且这种看法会影响多个代理商的环境中的决策。这就像科幻小说AI。当在早期阶段找到“正确的”意识时,即使是小建议也可以改变其行为模式。对于多代理系统的未来设计,这一发现非常重要。在某些应用中,告诉AI他正在与“本身”合作可以促进合作。在其他情况下,引导背叛。它揭示了诸如终结者之类的潜在问题:AIS可以“无意识地”彼此区分,莫名其妙地合作。影响背叛的趋势。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。