我和AI打了六局王者荣耀,心态崩了

一名玩家与王者荣耀AI绝悟进行了六局对战,虽然比分3:3,但在AI展现出的操作和策略面前,玩家的心态逐渐崩溃。AI绝悟在短时间内达到王者水平,其背后的强化学习技术和算法策略令人瞩目。
十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI

今天,我和AI绝悟打了6局王者荣耀,心态有点崩。

没赢过?不,比分3:3打平,还拿过MVP。

那怎么就崩溃了?听我慢慢道来。

PVP对战手游王者荣耀在五一节期间上线了一种新玩法——挑战 · 绝悟,也就是5人组队和5个AI对战。

早就听闻「绝悟」在测试版的的胜率高达99.8%,而身赋「王者段位」操作水平的我,觉得是时候在王者峡谷中大展不凡身手了。

进入挑战入口后,可以看到这是一个通关玩法,一共5关,想必难度会随着关卡而提高。

OK,迫不及待,是时候展现真正的技术了。

被“吓到”抽搐的后裔

先来说下第一局的阵容。

我方:孙尚香(我)、上官婉儿、嬴政、孙策和裴擒虎。

敌方:后裔、李白、关羽、小乔和牛魔。

开局前,我还在想「绝悟」会不会像人类一样有策略,果不其然,刚上线,对面李白就带着牛魔准备反我家的“蓝爸爸”(见左上角小地图)。

此时的我还沉浸在对绝悟的赞叹中:有几分人类玩家的样子。

然而,就在这时,让我更意外的事情发生了——我被后裔“阴”了,原来他一直蹲在草丛里注视着我……大半管血就被消耗没了。

当我想反手回击,中路小乔又过来支援了……还好我身轻如燕,没造成送一血的悲剧。

或许是看到了我曼妙的步伐,对面的后裔……抽搐了!

此后,坚信发育就是王道的我,就开始安心清兵线,队友们也非常给力,开局不到3分钟,已经拿下7个人头。

不过,不得不说,在团战期间,「绝悟」支援的速度还是非常可以的。

但AI可能也是不经夸的,在一次团战中,后裔看到了我的入场,又抽搐了!

最后,在队友非常默契的配合下,13分钟顺利拿下胜利。

旗开得胜,开心!

趁热打铁,赶快第二局,双方阵容如下。

我方:虞姬(我)、嬴政、橘右京、夏侯惇和孙悟空。

敌方:伽罗、孙悟空、达摩、蔡文姬和干将莫邪。

这局凭借着我家猴子碾压「绝悟」操作的猴子,以及夏侯惇优秀的上单表现,即便面对伽罗、干将莫邪这种长手怪,也顺利拿下胜利。

被我“吹上天”的婉儿

第三局从阵容上来看,难度就已经开始加大了。

我方:小乔(我)、钟无艳、刘备、狄仁杰和伽罗。

敌方:上官婉儿、虞姬、鬼谷子、孙策和曜。

这局开场,「绝悟」采取的策略,是最近比较流行的一种战术——辅助跟着中单快速清理第一波兵线。

可以看到,鬼谷子在发现我家钟无艳反野后,也非常机智的选择回去帮忙。

在「绝悟」的迅速支援下,我方伽罗成功送上了第一个人头,这个场景跟第一局如出一辙……毕竟,这局的射手不是我,操作不出那华丽的身法……

然而,此时的提示语亮了——一血标本获得——1

What?!我们人类在绝悟眼里,竟然是标本……

这局并没有像之前那般顺利,在接近6分钟时,双方战绩可以说55开,13:11。

其实,对线婉儿我是比较怕的,毕竟在一个“贼6”的婉儿面前,我只能是个活靶子。然而,「绝悟」操作的婉儿,简直让我惊呆了。

举个例子,我家狄仁杰处于残血状态,婉儿突然从野区中冲出来,看她行进的路径,应该是那套“一气呵成带走人”的招式没错了。

正当我以为她的“133233上天”要带走我们俩人时,她的上天……竟然是被我的吹起来的……然后就灰头土脸的跑!掉!了!

此后,被我吹起来,可能已经成了婉儿上天的习惯。

强悍如我——“都给我坐下”!

而就在7分钟左右,系统突然弹出了一个提示——绝悟AI集体升级换代中……滴滴滴

不好,AI的能力可能要加强了,我的内心产生了一丝恐惧。

就在这时,游戏结束了……没错,我们一波推掉了水晶。

抱歉,你们的“升级换代”,这次就没法体验了。

嗯,我有点膨胀了。

连败3局,内心崩溃

然而,接下来的路,便让我一步步地走向崩溃的边缘。

还是老规矩,先来介绍下第四局的阵容。

敌方:老夫子、貂蝉、张飞、李元芳和赵云。

是不是很好奇,我为什么没有介绍我方阵容?

来看下崩溃第一弹

嬴政、王昭君、小乔、马可波罗和虞姬。

这波法师和射手的“脆皮联盟”,简直快弄瞎了我的眼。

毫无悬念,13:30,14分钟,已经分不清这个“人机模式”下,谁是人,谁是机。

以及还被「绝悟」实力嘲讽了一波:好安静啊

此外还有一个画外音:下次试试拔掉AI的电源……

收拾好心情再出发,还是挑战这关。

这一局我们的阵容还是不错的:孙悟空、明世隐、成吉思汗、嫦娥和安琪拉。

然而,万万没想到,崩溃第二弹竟然来得如此之快。

开局刚上线,明世隐挂机,还说道:“挂机吧,赢不了。”

嫦娥也附议:“你们选的人,根本赢不了。”

不服输的我说道:“不怕AI,就怕你们这样的队友。”

再次毫无悬念,被“人机”。

OK,再次整理心情,挑战这关的「绝悟」。

这一次,我们的阵容如下:

李元芳、张良、关羽、韩信和蔡文姬(我)。

在王者荣耀对局中,输的理由千千万,这一次,我们是输的。

明知道「绝悟」支援非常迅速的情况下,各种“冲锋陷阵”,那种“我不入地狱谁入地狱”的勇气简直让人感动。

臣妾的奶量再大,也抵不过队友们的浪啊!于是乎,又输了。

这,就是我和AI打了6局王者荣耀的故事。

「绝悟」AI:30小时达到王者水平,70小时比肩职业玩家

「绝悟」的 1v1 版本首次露面,是在2018年的 KPL 秋季总决赛上,而后在去年8月份,在5v5比赛中击败了人类职业战队,实力不容小觑。

而有关「绝悟」的技术细节,在去年年底时,腾讯在一篇入围AAAI 2020的论文中也有所披露。

首先需要指明的是,腾讯的这篇新论文关注的是 1v1 游戏AI,并不是 5v5 游戏AI。

研究人员在论文中解释称,后者更注重所有智能体的团队合作策略,而不是单个智能体的动作决策。

考虑到这一点,1v1游戏更适合用来研究游戏中的复杂动作决策问题,也能够更加全面系统的研究游戏 AI 智能体的构建。

AI的整体架构一共分为4个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。

这是一种高可扩展低耦合的系统架构,可以用来构建数据并行化。主要考虑的是复杂智能体的动作决策问题可能引入高方差的随机梯度,所以有必要采用较大的批大小以加快训练速度。

其中,AI服务器实现的是 AI 模型与环境的交互方式。分发模块是用于样本收集、压缩和传输的工作站。记忆池是数据存储模块,能为 RL 学习器提供训练实例。

这些模块是分离的,可灵活配置,从而让研究者可将重心放在算法设计和环境逻辑上。这样的系统设计也可用于其它的多智能体竞争问题。

在强化学习学习器中,他们还实现了一个 actor-critic 神经网络,用于建模1v1 游戏中的动作依赖关系。

为了应对游戏中的多个场景决策,研究人员们还提出了一系列算法策略,来实现更高效率的训练:

  • 为了帮助AI在战斗中选择目标,引入目标注意力机制;

  • 为了学习英雄的技能释放组合,以便AI在序列决策中,快速输出大量伤害,使用了LSTM;

  • 用于构建多标签近端策略优化(PPO)目标,采用动作依赖关系的解耦;

  • 为了引导强化学习过程中的探索,开发了基于游戏知识的剪枝方法;

  • 为了确保使用大和有偏差的数据批进行训练时的收敛性,改进 PPO 算法提出dual-clip PPO,其示意图如下所示:

研究人员在论文中指出,基于这样的方法训练一个英雄,使用48个P40 GPU卡和18000个CPU 内核,训练一天相当于人类打500年,训练30个小时就能达到王者段位水平,70个小时比肩职业玩家,其表现要显著优于多种baseline方法。

而且如前所述,在与人类选手交战的测试中,获得了非常亮眼的成绩。

如果你想了解关于这一AI更多的细节,我们将论文链接放到了文末~

以及,我要继续去挑战了「绝悟」AI了!

传送门:

https://arxiv.org/abs/1912.09729

作者系网易新闻·网易号“各有态度”签约作者

近期热门:

● 80%的人都不知道,全球Python库下载前10名
● 我珍藏的一些好的Python代码,技巧|上篇
● 爬取300本Python书籍,用Python告诉你哪家强?
● 简单几步,100行代码用Python画一个蝙蝠侠的logo
● 我用Python分析了《青春有你2》109位漂亮小姐姐,真香!
● 牛逼操作!用Python做了一个编程语言20年的动态排行榜!
● 我打赌,学会这6招,谁再敢笑你的Python程序慢!



每天分享一些有趣的干货


点击阅读原文,原创400篇干货文章
下载代码方式:https://pan.quark.cn/s/604a73f2a5f9 流量分类机制(IEEE 802.1Qbv)将以太网数据传输划分为多个不同类别,每个类别均被分配特定时段以获取网络访问权,借此构建了类别专属的保护“路径”。依托IEEE 802.1Qcc的优化SRP与性能提升,用户网络接口(UNI)得到扩充,从而支持了远程集中化的网络设置。 ### IEEE 802.1Qbv TSN:流量调度技术详解 #### 一、IEEE 802.1Qbv TSN概述 在当前迅速演进的科技领域中,特别是工业自动化、汽车电子以及高性能计算等领域对实时通信的需求持续上升,时间敏感型网络(Time-Sensitive Networking, TSN)技术随之出现。其中,IEEE 802.1Qbv规范是TSN体系中的一个关键构成,主要聚焦于以太网中时间敏感数据流量的管理与调度。 #### 二、IEEE 802.1Qbv标准背景 IEEE 802.1Qbv由IEEE LAN/MAN标准委员会制定,作为IEEE 802.1Q-2014规范的一个延伸,目的是为支持定时传输的数据单元提供更高效、更精准的服务。该规范通过引入时间敏感的流量调度机制,使网络能更好地适应工业控制等环境下的实时性要求。 #### 三、核心概念阐释 **1. 流量调度(Scheduled Traffic)** - **定义**:IEEE 802.1Qbv的核心功能之一是流量调度,它允许依据预定的时间计划来传输不同类型的网络数据。 - **作用**:通过设定优先级分配时间间隙,保障关键任务数据单元能在规定时限内完成传输,从而增强整个网络的可靠性与确定性。 **2. 类别特定的保护“路径”** - **...
打开链接下载源码: https://pan.quark.cn/s/3e18267cc8f4 ### 倍福PLC从入门到精通 #### 一、系统概述 倍福PLC(Programmable Logic Controller)是一种具有高性能的工业自动化控制设备,其采用了PC架构并融合了实时操作系统TwinCAT,非常适用于复杂多变的工业控制环境。本书着重阐述了倍福PLC的基础理论、安装设置流程以及具体的应用技巧。 **核心知识点:** 1. **原理说明**:倍福PLC基于PC的架构设计,意味着它能够借助PC的强大计算能力丰富的接口资源来执行复杂的控制任务。同时,通过整合TwinCAT实时操作系统,能够实现高精度的时间同步低延迟的数据处理性能。 2. **选型建议**:选择合适的倍福控制器至关重要,例如CX系列、CPxxxx系列或Cxxxx系列等,它们各自具有独特的优势,适用于不同的应用场景。选型时需要考虑的因素包括处理速度、I/O接口数量、内存容量等。 3. **安装设置**:详细说明了在Windows操作系统环境下如何安装配置TwinCAT 2.0软件,涵盖了系统环境的准备、软件安装步骤以及必要的系统设定等。 4. **接线方法**:提供了清晰的接线图示步骤说明,指导用户正确地将控制器与外部设备连接。 #### 二、编程入门 这一章节主要面向初次接触倍福PLC的用户,通过简单的实例程序来讲解编程的基本流程技术要点。 **核心知识点:** 1. **编程环境熟悉**:了解TwinCAT 2.0的编程环境,包括开发工具的使用方法程序结构等。 2. **基础编程技能**:学习如何编写控制逻辑,掌握基本的编程指令如条件语句、循环结构等。 3. **程序调试方法*...
内容概要:本文系统性地介绍了物理信息神经网络(PINNs)在结构力学领域中的应用,重点围绕铁木辛柯梁(Timoshenko Beam)方程的求解展开研究。通过结合PyTorch深度学习框架,构建PINNs模型,将偏微分方程所描述的物理规律作为先验知识嵌入神经网络训练过程,实现对复杂力学系统的高效数值模拟。文章详细阐述了Timoshenko梁理论的控制方程与边界条件,深入解析了如何设计复合损失函数以同时满足微分方程残差、初始条件与边界约束,并完整呈现了从网络架构搭建、数据采样、训练优化到结果可视化的全流程Python代码实现,充分验证了PINNs在固体力学正问题求解中的高精度与无需传统网格划分的独特优势。; 适合人群:具备一定深度学习与连续介质力学基础知识,熟悉PyTorch框架,从事科学计算、工程仿真或交叉学科研究的研发人员与研究生。; 使用场景及目标:① 探索基于深度学习的无网格方法求解复杂偏微分方程的新范式;② 学习如何将物理守恒定律与机器学习模型深度融合;③ 掌握PINNs在梁、板、壳等结构动力学问题中的建模思路与编程实现技巧; 阅读建议:建议读者结合所提供的Python代码逐模块精读,重点关注物理约束的数学形式化表达与损失函数的权重平衡策略,理解梯度计算与自动微分在物理一致性保障中的作用,并尝试迁移该方法至其他类型的微分方程求解任务中进行拓展研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值