您的位置:首页 >热点 >

网易互娱AI Lab在NeurIPS Neural MMO挑战赛中以绝对优势夺冠

2022-12-13 20:58:29    来源:凤凰网

网易互娱AI Lab在国际人工智能顶级会议NeurIPS 2022 Neural MMO挑战赛中,包揽了所有赛事指标的第一名,以总分领先第二名129%的优势夺得冠军,击败了来自全球35个国家和地区的顶尖队伍。

比赛概况

近日,国际人工智能顶级会议NeurIPS 2022在美国新奥尔良落下帷幕,在本届会议举办的Neural MMO挑战赛中,网易互娱AI Lab从来自全球35个国家和地区的134支队伍中脱颖而出,以领先第二名得分129%的巨大优势夺得冠军,并强势包揽了所有赛事指标的第一名。这是网易互娱AI Lab研发的Athena AI在连续夺得多项国际冠军后,再次登顶国际AI竞赛,同时也是继去年在NeurIPS MineRL挑战赛上首次教会AI在《我的世界》中挖到钻石后,连续两年获得NeurIPS竞赛冠军,彰显了网易互娱AI Lab在人工智能领域的综合技术实力。


(资料图)

本届比赛由超参数科技、麻省理工学院、清华大学深圳研究院和AICrowd联合举办,在今年的NeurIPS(Conference and Workshop on Neural Information Processing Systems)大会中举行。该会议是人工智能领域最重要的学术会议之一,和ICLR、ICML并称为机器学习领域的三大顶级会议。本届比赛是Neural MMO系列挑战赛的第三届,由于新引入了装备系统、交易系统和毒圈机制,且地形环境也变得更为复杂,因此比赛难度相较于前两届大幅提升。本届比赛在两个半月的赛程内吸引了来自中国、美国、英国、法国、俄罗斯、加拿大、日本等世界各地的学术界和工业界的队伍,其中包括网易、腾讯、哔哩哔哩、InstaDeep、twosense.ai、CVTE、清华大学、浙江大学、香港中文大学、波士顿大学、爱丁堡大学、京都大学等,也包括了上一届Neural MMO挑战赛的冠军。

规则介绍

本次比赛所依托的环境Neural MMO最初由OpenAI于2019年发布,现由麻省理工学院继续开发和维护,是一个用于大规模多智能体研究的平台。Neural MMO的设计灵感来自于大型多人在线角色扮演游戏(MMORPG),模拟出了一个在广阔且持续的环境中支持可变数量玩家互相竞争的大型生态系统。不同于Dota、星际争霸等AI已经取得领先人类水平的游戏场景,Neural MMO中的AI设计不光要考虑队伍内大量智能体之间的配合,还要考虑如何与其他十几支甚至更多的队伍进行竞争。

本次比赛的场景中,一共有128个智能体,分成16支队伍,每支队伍由8个智能体组成。每位参赛者需要控制其中的一支队伍在128x128大小的地图上和其他15个参赛者的队伍进行对抗。比赛持续时间为1024步,智能体在每一步中可以同时执行多种操作,如移动、攻击目标选择、攻击类型选择、背包物品使用、从市场上购买物品、出售物品并对其进行定价等。智能体可发起的攻击类型包括近战攻击、远程攻击和魔法攻击,三种类型为互相克制的关系。智能体还可以收集对应的武器和弹药来提升攻击力,同时也可以收集头盔胸甲等装备来提升的防御力。比赛开始后,每支队伍会随机出生于地图边缘,随着比赛进行,逐渐缩小的毒圈会迫使所有智能体向地图中心聚集,爆发更加激烈的对抗。每个智能体除了需要补充收集食物和水以保证基本生存外,还需要考虑很多复杂的长期决策问题,例如遇到敌人时判断是进攻还是逃跑、队友遇到危险时自己应该马上赶去帮忙还是继续击杀附近的NPC、如何找到进圈通道、背包装满后到底是卖掉弹药还是卖掉回复药水等等。

最终战况

比赛最终的排名由参赛队伍之间互相对抗(PvP)决定,每支队伍的得分由生存分和击杀分两部分组成,其中生存分主要根据队伍内存活到最后的智能体数量决定,存活的数量越多得分越高,而击杀分则是根据全队击杀敌方智能体的数量乘以0.5计算得到。来自网易互娱AI Lab的队伍realikun在最终的PvP对抗中以8.86的生存分、19.18的击杀分,总分28.04分夺得冠军,分数甚至超越了第二三名的得分总和。值得一提的是,PvP环节中最初还额外设置了两个特别奖项,分别为坦克奖——用于奖励场均承受伤害最高的队伍,和打钱奖——用于奖励每局平均获得金钱数量最多的队伍。比赛初期大家普遍认为注重生存和击杀方面的队伍是难以承受更多伤害或是获取更多金钱的,奖项的设立旨在鼓励比赛中涌现出更加多样化的策略。但从PvP的结果上看,网易互娱AI Lab最终同时包揽了生存、击杀、打钱、承伤所有四项赛事数据的第一名。

Final PvP 排行榜

另外比赛还设置了两个PvE环节,用于帮助选手们在PvP前能有一个稳定的评估智能体水平的环境。网易互娱AI Lab也同样分别以63.50分和25.35分的分数大幅领先其他队伍占据榜首。在PvE Stage 1中,智能体需要同其他15支队伍共120名由规则控制的智能体进行对抗,网易互娱AI Lab在保证获得最高生存分的情况下,每场平均击杀了其中107名敌方智能体。在PvE Stage 2中,其他15支队伍的智能体由主办方训练的神经网络控制,强度相较于上一阶段大幅提升,但网易互娱AI Lab在第二阶段发布后仅用六天时间就达到了Top1 ratio 1.0(在每场16支队伍中排名第一的概率为100%)的成绩,并一路占据榜首至比赛结束。

PvE Stage 1 排行榜

PvE Stage 2排行榜

方案介绍

本次比赛中,网易互娱AI Lab整体采用了深度强化学习和规则相结合的方式构建Neural MMO版Athena AI智能体。其中强化学习部分使用了PPO(近端优化算法)在CTRL(Centralized Training based Reinforcement Learning)模式下进行自博弈训练,主要控制智能体在移动、选敌、补给道具的使用和交易这些方面做出决策,同时使用基于规则的方法控制了攻击方式、非补给道具的使用和交易、出价等,这样设计是因为:

1.Neural MMO中攻击方式涉及到智能体的职业成长,一旦选择一种主战攻击类型后再更换其他攻击方式收益较低;

2.使用盔甲、武器等非补给品也没有涉及到太过复杂的时机选择问题;

3.交易行为中尤其是出价所包含的动作空间巨大,让神经网络学习到正常的交易行为所需的训练代价远远超过移动、攻击等,但是对于最终智能体的强度提升却十分有限,因为在Neural MMO中取得胜利最为关键的要素是团队配合,而智能体之间的配合在很大程度上并不是依靠交易来完成的。

针对复杂的游戏机制,网易互娱AI Lab也相应地为Athena AI设计了精细的神经网络结构。如图所示,网络主要由特征编码器、隐变量交互结构以及动作解码器三部分组成,其中隐变量交互结构中的Transformer和LSTM两大模块占据了整个网络的绝大部分参数量。队伍中每个智能体均由参数相同的一份网络副本所控制,网络根据不同的输入而使每个智能体做出各自的决策。

神经网络架构图

特征编码器将每个智能体的生命值和等级之类的标量特征、周围地图信息、历史动作信息、装备信息、动作掩码以及游戏进度等信息作为输入,其中部分特征会经过一些如ResNet的子编码器进行总结抽象后再和其他特征拼接输出。

隐变量交互结构是网络的核心部分,其中Transformer结构将每个智能体同其他友方单位、敌方单位和NPC利用自注意机制进行充分的特征交互,是增进智能体团队配合能力的重要组件,而LSTM结构通过引入历史特征进行交互,从一定程度上解决了Neural MMO中部分可观测的问题。

动作解码器将LSTM的输出分别映射为四种动作的选择,包括移动、目标选取、装备使用和售卖。四种动作均通过PPO分别独立优化。此外训练过程中还会将所有智能体的LSTM输出经平均池化后映射为一个联合的价值估计,使智能体具有团队意识。

此外为了进一步增强团队配合以及历史信息的使用,网易互娱AI Lab将表示智能体视野的二维特征大小从15x15扩充至了25x25,扩充的部分由来自队友的视野以及过去探索得到的信息进行填充,同时在原有的地形信息上,还额外设计了足迹、战争迷雾、毒圈信息等共计7个通道增强网络的表达能力。

作为ResNet输入特征的7个通道

网易互娱AI Lab使用了自研的分布式深度强化学习框架进行Athena AI的训练,该框架不但训练高效,也能支持同时模拟和数百种不同风格的对手进行对战的场景,因此能够在此次比赛中面对各种未知对手的情况下稳定取胜。相较于其他参赛队伍,网易互娱AI Lab的智能体也表现出了更加多样的策略,例如吃鸡类游戏中玩家经常使用的卡圈、堵圈以及借助地形完成十字围杀等高级战术。

值得一提的是,本次比赛中大部分队伍都会携带工具和弹药,分别在智能体靠近资源点时或接近敌方智能体时使用。得益于自研框架强大的平衡性测试功能,网易互娱AI Lab发现由于每种等级的弹药和工具都会占用一格物品栏,但由于Neural MMO中数值设计的原因这些道具带来的提升十分有限,导致在和敌方智能体对拼时反而会因为没有携带足够的补给品率先阵亡。而每件补给道具虽然也要单独占用一格物品栏,但是能提供非常可观的回复能力。于是在比赛后期,网易互娱AI Lab大胆地放弃了比赛中主流的装备选择策略,转而让智能体携带更多回复道具,大幅提升了生存能力。

展望未来,我们相信AI技术可以让MMO中的每一个游戏角色都拥有与真实世界逻辑更相符合的行为举止,而通过Neural MMO这个试验场我们也欣喜地看到了AI不仅能够掌握基本的资源获取、装备选择,也能借助地形完成十字围杀、卡圈、堵圈等高级战术,相信在不远的未来我们就能看到AI技术在MMO或是其他品类游戏中的更多应用。

关于互娱AI Lab和Athena AI系统

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。

Athena AI是互娱AI Lab研发的游戏AI系统,应用了前沿的模仿学习、强化学习、进化学习算法实现游戏中的竞技对战,友好陪玩,平衡性测试等AI需求。目前已落地《梦幻西游》《哈利波特:魔法觉醒》《荒野行动》《颠峰极速》《决战!平安京》《指环王》《百闻牌》《网易棋牌》《超凡先锋》等多款游戏,涵盖棋牌、RPG、SLG、体育、卡牌、TPS等多种类的游戏。

参考资料:

[1]NeurIPS 2022 The Neural MMO Challenge 比赛主页

[2]Neural MMO: A Massively Multiagent Game Environment, OpenAI blog

[3]The Neural MMO Platform for Massively Multiagent Research

[4]Neural MMO: A massively multiagent game environment for training and evaluating intelligent agents

[5]Neural MMO Decumentation

[6]Neural MMO GitHub Repository

[7]OpenAI开发AI版《文明》,一块CPU就能重现AI生存战争史

[8]在游戏世界组建一支AI团队,超参数的多智能体「大乱斗」开赛

[9]让AI小队混战跑毒经商,还设“坦克奖”,NeurIPS这比赛真不是打游戏?

[10]1000个教AI打电竞的人

标签: 人工智能 梦幻西游

相关推荐

拿着拜登政府低息贷款犯嘀咕 LG化学:美国新能源政策太模糊了

全球头条:欧盟成员国未能就第九轮对俄制裁方案达成一致 伊朗也上了制裁名单

全球聚焦:在伦敦被捕的地产大佬

冬季风暴来袭!美国天然气价格暴涨逾10%

当前快播:“教科书避风港”失灵? 这一避险资产或创发行以来最大年度跌幅

病毒学专家常荣山:熊去氧胆酸无法预防新冠 健康人群吃有风险

世界热资讯!“石油人民币”来了?

错过黄金十年,河南能否收复“失地”?

上海农商行旗下长江联合金租因违规提供政府性融资、以公益性资产作为租赁物,收255万罚单...

【聚看点】经济重启,粮草先行——任泽平解读11月金融数据

环球时讯:一箭双星!长四丙成功发射试验二十号A/B卫星

安联首席经济顾问:美联储明年或放弃2%的通胀目标

11月M2同比增长12.4%,企业对未来经济预期稳步回暖

罕见!银行理财大跌逾33%?背后发生了什么?

每日头条!央行重磅!11月M2增速创6年新高,M1却背离?专家火线解读

世界快资讯丨深圳大动作!拟投资超300亿打造国际一流产业集聚高地,钟南山这样点赞

从狂欢到震荡,中国“重启交易”国际机构怎么看

全球热资讯!美股的“头号敌人”是盈利预期?贝莱德反驳:没那么严重!

国民技术:董事俞鹂因涉嫌内幕交易公司股票 被证监会立案

讯息:11月M2增速意外反弹、居民贷款环比改善,宽信用仍需政策加力

【全球新视野】2023微盟智慧导购大赛启动,提供企业数字化导购培养整体方案

【速看料】华尔街“大降薪”继续:大摩可能“腰斩”亚洲团队年终奖

【报资讯】二手房挂牌量突破15万套关口!南京楼市低迷,开发商降价抢客源

环球微速讯:欧洲央行或将开辟抗击通胀“新战线” 后续加息步伐可能放缓?

生猪期货日报12.12:生猪大跌超6%创4月22日以来新低,二师兄真的便宜了吗?

煤炭期货日报12.12:煤炭期货大面积飘红;已涨三轮,焦炭市场能否维持涨势?

工信部商请各地委托生产连花清瘟产品

同仁堂投资1.9亿取得京宜生物51%股权,推进药酒与食品酒双轮驱动

世界要闻:透视蜜雪冰城IPO:直营门店毛利率为负 百亿营收加盟商占绝对“优势

【新要闻】我阳了,新冠保险会赔钱吗?

环球热推荐:2023,美国走出“鬼故事”

【北向资金大单买入报告】美的集团获净买入10.44亿元

焦点精选!利率决议12月扎堆 央行今年加了多少息|财料

世界播报:控股股东五粮液集团确定为四川银鸽重整投资人,或提升宜宾纸业产能规模

环球看点!推动航天科技与民用技术互联互通,中国航天“牵手”公牛

热头条丨中央网信办:从严整治移动互联网APP虚假排名 严格规范备案要求

环球观天下!山西成功举办四项科普大赛

天天热点评!系好安全带!CPI数据和美联储利率决议来袭,美股迎来决定性时刻

当前快播:明年GDP目标怎么定:多名经济学家建议增速设为4.5~5.5%

热消息:财政部如期完成7500亿元3年期特别国债发行 票面利率2.48%

央行从公开市场一级交易商买入7500亿元特别国债

环球简讯:美团打车在沪推出暖冬出行计划,等必赔慢必赔等多项权益保障用户高峰好叫车

搜狐视频客户端增资至1.4亿元,增幅超38%

朔州市开展安全生产隐患排查整治行动

每日动态!朔州经济开发区全力以赴复工复产

天天观焦点:山阴县让政务服务“清”上加“亲”

天天动态:朔州:为“塞上绿都”注入“税动力”

今日最新!【胡律师说法】点赞不良信息将被追责?鉴定为假

环球快报:2022年全国帆板锦标赛等四项赛事在广西北海落幕

环球快播:CBA综合:青岛战胜江苏 上海大胜宁波

今日热搜:NBA综合:勇士大胜凯尔特人 篮网残阵取三连胜

环球精选!“新时代 新生活” 第二届内蒙古美术新人新作展线上开展

天天百事通!呼和浩特市各级文明单位、新时代文明实践所、站组织全体人员观看《平安行·2...

【聚看点】GMA每日黄金计划 |静待通胀数据,黄金空头蠢蠢欲动?

【环球新要闻】新版北京市工信企业复工复产指引发布 不设置到岗率上限

【天天新视野】龙磁科技拟拿下恩沃新能源控股权,标的尚处于亏损阶段

世界快报:退出中国市场?斯柯达回应:尚未做出任何决定

环球观天下!电梯拉闸、电动车不上路….  欧洲各国“花式节电”过寒冬

世界快播:连续8年超1.3万亿斤!这份丰收答卷的背后写满“不容易”

讲好拉萨地标品牌故事,一文带您了解拉萨地理标志产品

勤哲Excel服务器无代码实现企业成本生产质量管理系统

出入口造句应该怎么写?出口造句一年级简单的

韭菜花炒肉做法是什么?韭菜花炒肉的做法窍门

直接文字记载的王朝是哪个?原始文字出现在什么时期?

最有意义的生日礼物有哪些?女生生日礼物排行榜

酸辣包菜的做法是什么?凉拌酸辣包菜怎么做又脆又好?

怎样搞好商业服务软文推广? 写商业软文实际效果如何?

公仔面和方便面的区别是什么?公仔面有哪些味道?

vcf文件是什么文件?电脑vcf文件怎么看?

如何共享电脑打印机?怎样连接办公室共享打印机?

麦克风没声音怎么设置?手机麦克风坏了如何自修?

网线线序如何排序?网线的线序是怎么排的?

Mac地址可以在哪里修改?手机mac地址修改方法

怎么设置自动回复?个人微信可以设置自动回复吗?

世界今日讯!寿阳:做足企业帮扶举措 下好复工增产先手棋

榆社县召开2022-2023年秋冬季大气污染综合治理攻坚行动动员会

今日精选:世界杯还剩最后四场比赛,夺冠热门几家欢喜几家愁

环球观热点:北方地区冷空气活动频繁 内蒙古甘肃等地有沙尘

环球观热点:【青城故事】金河滔滔

天天时讯:39条公交线路恢复运营

全球观焦点:众多热心人没有白忙活 走丢4天的六旬老人回家了

【我为群众办实事】默默付出贴心服务 一面锦旗表达心意

天天资讯:呼和浩特未来一周持续大风降温

​购置税全免进入倒计时 双十二买欧萌达还可叠加多重福利!

焦点观察:较上一交易日收盘价溢价32%!波士顿科学以20港元/股收购先瑞达最多65%股份

恒生指数开盘跌1.54%:恒生科技指数跌2.54% 碧桂园服务跌超11%

全球焦点!本周西北欧迎来“冻”人寒潮 英国电价创下历史新高

天天百事通!13731亿斤!中国粮食产量再创新高

只因认真才出彩!华帝致敬全力以赴的葡萄牙队

全球热资讯!12月11日0-24时 山西省新增本土新冠肺炎确诊病例4例

【天天快播报】山西省林特产品馆前11个月交易额超1600万元

【世界报资讯】稳定和扩大毕业生就业门路 山西多举措助推大学生就业创业

灵石:推进水土流失治理 破解生态致富“密码”

介休:汾河廊带水韵悠悠 沿岸群众幸福满满

自治区:严厉处罚无实体店铺无营业执照无许可证的“三无外卖”

内蒙古自治区2023年艺术类专业统考(笔试)疫情防控须知发布

环球快资讯:娱乐健身嗨 购物选品忙 归来饭菜香 “我们的快乐又回来了!”

环球今热点:摆放单车 清理广告 劝导流动摊贩 为城市营造良好的环境秩序

华尔街蜂拥唱多中国股票!调查:多数大型资管看好2023年表现

什么情况?中小公募密集股权转让,有的已是二次挂牌,为何赚钱也要卖?