将外交添加到人工智能可以和人类一样玩的游戏列表中
机器学习系统与人类对手打成平手已经有十多年了(说真的, Watson Jeopardy的第一场胜利要追溯到2011年),不过它们擅长的游戏类型相当有限。典型的竞争性棋盘或视频游戏,使用有限的游戏场地、连续的动作和 至少一个明确定义的对手,任何需要计算数字的游戏都对他们有利。然而,外交需要的计算量很少,而是要求玩家直接与对手谈判,并同时进行各自的游戏--现代的ML系统一般不具备这样的能力。但这并没有阻止Meta公司的研究人员设计一个人工智能代理,它可以像任何联合国大使一样谈判全球政策立场。
外交》于1959年首次发行,其工作原理类似于更精致的《RISK》,2至7名玩家扮演欧洲大国的角色,试图通过征服对手的领土赢得游戏。与《RISK》不同的是,冲突的结果由简单的掷骰子决定,《外交》要求玩家首先相互谈判--建立联盟、背后捅刀子,所有这些好东西--然后大家在接下来的游戏阶段中同时移动他们的棋子。阅读和操纵对手的能力,说服玩家组成联盟和计划复杂战略的能力,驾驭微妙的伙伴关系和知道何时转换阵营的能力,都是游戏的重要组成部分--而且都是机器学习系统普遍缺乏的技能。
周三,Meta人工智能研究人员宣布,他们已经用CICERO克服了这些机器学习的缺陷,这是第一个在外交领域表现出人类水平的人工智能。该团队在webDiplomacy.net(一个在线版本的游戏)的5万个回合中对Cicero进行了27亿个参数的训练,在5场联赛中,它最终获得了第二名(在19名参赛者中),同时比对手的平均得分高出一倍。
人工智能代理被证明是如此善于 "使用自然语言与人们进行外交谈判,以至于他们经常喜欢与CICERO合作而不是其他人类参与者,"Meta团队在周三的新闻稿中指出。"外交是一个关于人而不是棋子的游戏。如果一个代理不能认识到某人很可能是在虚张声势,或者另一个玩家会把某一步棋视为咄咄逼人,那么它将很快失去游戏。同样,如果它不像一个真正的人那样说话--表现出同情心,建立关系,并对游戏进行知识性阐述--它就不会发现其他玩家愿意与它合作。"
从本质上讲,Cicero将Pluribot或 AlphaGO的战略思维与 Blenderbot或GPT-3的自然语言处理(NLP)能力相结合。该代理甚至能够进行预想。"研究小组指出:"例如,Cicero可以推断出在游戏后期它将需要某个特定玩家的支持,然后制定一个策略来赢得这个人的青睐--甚至可以认识到该玩家从他们的特定观点中看到的风险和机会。
该代理没有像类似系统那样通过标准的强化学习方案进行训练。Meta团队解释说,这样做会导致次优性能,因为 "纯粹依靠监督学习,根据过去的对话选择行动,会导致代理相对较弱,而且很容易被利用。"
相反,Cicero使用了 "平衡对话一致性和理性的迭代规划算法"。它首先会根据谈判回合中发生的事情以及它认为其对手认为它将采取的行动来预测其对手的行动,然后再 "通过尝试选择在其他玩家预测的政策下具有较高预期价值的新政策来反复改进这些预测,同时还尝试使新的预测接近于原始政策预测。"很简单,对吗?
该系统还不是万无一失的,因为代理人偶尔会变得太聪明,并通过采取相互矛盾的谈判立场来 扮演自己。尽管如此,它在这些早期试验中的表现仍优于许多人类政治家。Meta公司计划继续开发该系统,以 "作为一个安全的沙盒,推进人与人工智能互动的研究"。
推荐阅读
- 微信聊天记录怎么恢复吗,微信聊天记录怎么恢复方法:
- qq飞车帧数如何能锁,QQ飞车帧数如何修改
- 1盎司相当于多少克黄金,盎司等于多少克及一盎司黄金等于多少克
- 怎么恢复路由器出厂,怎样恢复路由器出厂设置
- 触手tvlogo怎么买,如何录制触手TV文章
- 藏语常用问候语及礼貌语 旅行必备
- 腾讯文章的会员怎么取消自动续费,腾讯文章VIP会员怎么取消自动续费设置
- 支付宝绑定银行卡与银行预留手机号不符,支付宝绑定银行卡提示与预留手机号码不一致
- 如何饲养土狗,饲养土狗的实用方法
- 重装机兵最终明奇1.92红狼怎么加入,重装机兵最终明奇1.92攻略
- 华为云电脑是什么,怎么用
- 关山牧场住宿攻略,关山牧场出游攻略
- dnf云上长安搬砖攻略,DNF暗之血迹套装攻略
- 电脑双引号怎么打出来是反的,电脑双引号怎么打
- 生育津贴怎么查询进度 网上查询,生育津贴怎么查询
- 我的世界活塞怎么做成的,我的世界活塞怎么做
- word如何设置主题字体,手机QQ怎样设置主题和字体呢
- 家庭用电热水器和燃气热水器哪个好,电热水器和燃气热水器哪个好
- 3d复制模型的时候卡很长时间,绝地求生N卡3D设置
- HUAWEI,WATCH2_配对教程指导