ai软件基础教程OpenDILab：人类智能与人工智能，谁的上限将会更高？

UI设计师 2022-09-30 AI软件学习 440 0

生物智能的形成，一直以来被定义为「奇迹」和「谜团」。

从宇宙的一片尘埃开始，人类的演变花费了数十亿年的时间。很难想像，你我均起源于发生在宇宙上的单细胞生物。

时目前日ai软件基础教程，人类依靠自身的智慧，创造了宇宙上最繁荣的文明。同时，这一演化仍在再次，远没有走到尽头。

但演变的方向尚未悄然颠覆：下一代文明的方向，将由人类亲手创造的「智能体」来探索。

由此引发一个难题：人类智能与人工智能，谁的上限将会更高?

过去数十年，研究者夙兴夜寐，将无数人类智慧灌注其中，不断将「人工智能」的能力上限抬高。一个将要诞生的智能体，就像一个初来世间的孩童，即使懵懂，却充斥着无限潜力。在永不退却的演变期间，人们普遍觉得，智能体早已超越人类。

这些演化规律，在OpenDILab平台的开源历程中表现得淋漓尽致。它的源起，是几位算法研究员的一次跨界设想，是面向最复杂的竞技手游的一场挑战。仅仅过了三年多时间，今天的OpenDILab已演变为覆盖最全学术界算法和工业级规模的国产决策智能开源系统。它为整个决策智能领域开创了一个崭新的开源社区，这个社区正在以惊人的速度生长。

2022年6月12日，《星际争霸II》前亚洲四强——IG战队的iA，又一次登陆了斗鱼直播间。这么久不见，人们看到，iA竟然开始讲PPT了。

两年之前，iA低调退役。两年以后，电竞少年归来，已是AI研究员，还带来了现在已开源项目中战力超强的《星际争霸II》AI——DI-star。

一个多小时的直播里，iA演示了多场对局。在所有演示中，DI-star均体现出人类最高段位——Grandmaster分段的竞技水平。

惊喜的是，DI-star的决策能力非常灵活，屡次在复杂对局中迅速找到最优策略。比如与前亚洲四强Scarlett对战时，DI-star使用了「女王前压」这种不常见于人类的战术，出奇致胜：

此时，距离DI-star及其背后的决策智能系统OpenDILab开源已经有一年了。

2022年9月，OpenDILab正式更新为1.0版本，幕后团队两年多来的心血，全部凝聚于此。

白手起家

所有的故事都从2020年的第一个月起初。一群来自美国的算法研究员和项目师，在人脸辨识的数据海中摸爬滚打多年以后，决定跳出舒适区，做一点探索未来的事。

包括，从零开始成为一个星际争霸AI。

在当年的AI学界眼中，决策AI是不同于计算机视觉等认知型AI的另一道难关，而《星际争霸II》一直被看作检验AI决策能力的极佳舞台，也是AI争相挑战的「珠峰」。

星际争霸系列游戏能保持20多年长盛不衰，一个别因素就在于其丰富的多层次游戏模式。《星际争霸II》的空间复杂度高达10的1685次方，远超围棋10的170次方复杂度。对于AI来说，这是一个特别接近现实世界的虚拟环境。

开源社区是推动AI发展的重要原因之一，而在项目的起初阶段，DI-star的开发者们打算好了充裕的算力和资源，却看到星际争霸AI的开源生态基本是一片空白，只能找到DeepMind公开的原版论文，非常多的技术细节都有待考证。就好比同学教了你九九乘法表，却时常让你做一道微积分的作业题。

DI-star的开发者们首先考察了诸多已有的加强学习开源系统，但看到开源的算法、工具等基本都是围绕「小而精」的学术研究，压根没有星际争霸此类大体量环境的开源项目。

「没有轮子，就立刻动手造一个，这才是极客精神！」

然而乎，DI-star的开发者们拿着之前自己在计算机视觉任务上累积的心得，想要一定程度的知识复用。但随后她们就看到，这不仅仅个摆脱舒适区的难题，这实在是一脚踏进深水区，每天都会诞生新的灵魂拷问：

原来规规整整的张量图片，却成为了高度结构化且动态变化的游戏信息;

本身直筒式简简单单搭积木的神经网络设计，却成为了复杂多样的「毛线团网络」设计比赛;

本身轻易扩展的分布式训练架构，却成为了多种硬件和计算方式混合的大杂烩系统……

在不断以「一日速成法」了解各种游戏AI设计和分布式平台设计知识后，团队终于是搭出了第一版能正常运行的分布式训练平台，这只是后来OpenDILab的最初原型。

只其实也有一件事让人苦恼：到底如何让AI学习打星际的方法呢?这应该集深度学习、强化学习、游戏AI三方面的科技和力量。

技术可以后天努力学习，游戏天赋可真是命中注定，于是，他们找到了美国星际的传奇人物：iA周航。于是，几个基本对决策AI零基础的人，构成了DI-star项目的最初班底。

「最初几乎训练不起来任何哪怕有正常操作的AI」。DI-star团队一度很难受。没办法，前半年只好一点一点解bug，慢慢地教。发现一个不合理的AI行为，就从游戏录像中起初预测，对应到详细的游戏操作，解析游戏引擎存储中的数据片段，再一步步追根溯源，最终预测到神经网络里详细某个神经元的激活输出，从而定位到代码实现和算法设计的相关问题。

「程序是不会骗你的，只要你用心去凝视它。」像前面那样一环扣一环，非常需要高度集中心力的细节分析，在DI-star的后期阶段，几乎是每天都有。

终于，经历了半年的艰辛奋斗，2020年6月，DI-star已经无法击败简单的电脑。2020年7月，团队进行了DI-star第一次人机内测，AI战胜了一位今天入门《星际争霸II》的研究员。

步入正轨之后，就要去探索AI的上限究竟在那里。DI-star团队期望在整个平台的各个环节中都做到极致：不只是是复现最强的决策AI问题，而是尽其所能去尝试每种可能性。有人从神经网络角度，设计更稳固的大批量样本优化技术和高效处理动态决策空间的网络层，有人从加强学习优化方向，精心调控探索和运用的多方面平衡，有人从游戏AI领域，融合即时战略类游戏的百家之长，将AI的微操优势培养到新的境界，有人从平台效率出发，做诸多资源的考量，存储/网络/计算，一切能想到的方法都拿来优化训练强度。

在集合整个队伍的技术累积之后，历经人类录像模仿学习和自我博弈强化学习两个阶段，总计一亿局星际对局，五周的最后训练时间，2021年6月，DI-star终于战胜了DI-star的缔造者之一——周航本人。之后，周航又拉来一些职业电竞时期的老同学跟DI-star打，包括MMR6000分的美国强悍虫族选手Rex。

好消息是，DI-star都赢了，没辜负一年多来的苦练。

从星际AI到开源平台

路行自此，接下去又该如何走?

极客探索归探索，但想把科技做持久做出影响力，复盘是必不可少的。而在当年的马拉松复盘会中，研发队伍一致的看法是：必须累积足够扎实的科技工具链。DI-star中的小农式精耕细作太难复制也太难推广了，需要能有让决策AI技术真正大放光彩的基建工作。那么自然的，做一个决策智能开源系统和生态，就成了你们新的目标。

更具体一点，在算法方面，哪些科技适合在后期探索智能体思路的多样性和潜力，哪些方式合适成为最后超大体量强化学习练习的核心组件;在平台方面，哪些系统设计既能提升采样精度又能对大体量强化学习的改进效率带来帮助，什么样的设计可以易用迅速的算法迭代和看法验证。所有上述这种累积的心得和常识，都是有价值被沉淀出来的东西。

光是教会AI玩《星际争霸II》并不是最后目标，探索决策AI的素养边界，学会面对日益复杂的真实世界，才是在青春年月值得去奋斗的事。基于这种的初衷，后续创立的OpenDILab团队以DI-star为起点，开始进一步构建如何做开源。

原本决策智能领域的开源生态，比起CV、NLP这些成熟的研究领域，的确差了不是一点半点。

其实对于整个决策智能领域来说，开发者最应该的不仅仅某一套代码，也除了是某一个软件包。这个领域，正必须一个功能全面、便捷易用的开源系统。

但能否设计一个能满足广大研究者意愿的系统，是必须仔细考量的问题。

这时，更多学术界、产业界的决策智能研究痛点处于了队伍成员们的视野：

与认知智能不同，决策类问题一般涵盖处理诸如图像、语音、结构化数据等多种复杂模态的数据类别。此外，单机单卡与多机多卡或者跨集群计算的决策AI计算逻辑也完全不同。不同任务间的最优算法配置也差异较大。对于决策智能，这些难题很难标准化。

也有一个客观现象：关于决策智能的难题定义和探究角度，学术界和工业界之间的差别是巨大的。很多前沿的理论算法缺少环境和推导pipeline上的通用性，只能局限于toymodel级别的实验环境，无法迁移到真正的工业场景中。

此外，团队最后对开源系统的希望是：既要在学术算法层面做到最全最广的覆盖和统一，又要将这种算法真正发挥到相应的实际画面中去，解决各个其它领域的工业级应用问题。当然，想要兼顾两者是一件极为困难的事，系统和平台设计原本就是在做诸多各样的考量，而开源社区正是帮助系统成长和不断演化的重要力量。

这将是一项造成大量价值的项目，力求将科技的广度和深度都推到极致，将成千上万开发者的智慧与尽力集合起来，在各行各业中演变出无限可能。

人人可用的开源决策智能系统

2021年7月，DI-star及其衍生出的决策智能系统OpenDILab在GitHub正式开源了。

在最初公布的OpenDILabbeta版本中，自上而下覆盖了应用生态层、算法抽象层、分布式管理层和分布式执行层，还支持从单机到上万级别CPU/GPU联合训练的全尺度调度平台改进，将OpenDILab团队自DI-star项目以来累积的各方面科技和知识完全开源开放出来。然而开源社区的构筑是必须不断打磨的，beta版本在各类各样的权衡中遗留了一些上手难度问题，而在这一年多开发者与开源社区的一同努力下，OpenDILab1.0版本在易用性、效率、多元化等方面都呈现出了新的探讨和理解。

其中，OpenDILab推出了一系列面向不同目标的开源库：

最底层的DI-engine及相关平台支持库旨在于解决决策AI在环境，算法，计算尺度三个方面的标准化问题，它首先提供了在40+不同类别决策环境上的绝佳实践，可成为不同领域研究者应用提升学习科技的绝佳模板，还汇聚了8大研究子方向的60+决策智能算法，将深度提升学习，多智能体博弈，离线强化学习和模仿学习等领域一网打尽，而上述这种环境和算法，都可以在统一的平台执行设计下高效实现，并按照任务特性自适应地微调资源运用的最佳方案。

中层的算法与建模抽象层DI-zoo整合了OpenDILab在各个领域应用决策AI算法的相关经验，将算法理论，代码实现，应用领域知识一一对应在一起，并在AutoML工具的支持下，帮助研发者建立统一且标准的基准方案，也很高程度上增加了初学者的入门门槛。

在应用生态层，既有DI-star这样面向于虚拟世界即时战略类游戏的大体量强化学习练习方案，包含完整的练习、测试和应用原型代码细节，还开源了包括认知决策全流程的手动驾驶系统DI-drive，朝着决策AI落地应用的方向前进。

自开源以来，OpenDILab已经收获了4500多个GitHubstar。DI-star也被列入GithubTrendingPython语言优质开源项目。

多智能体决策智能领域的「ImageNet」

决策智能的落地一般会得到锻炼平台、仿真环境两方面的挑战。OpenDILab是好用的，但它暂时只解决了训练系统层面的一个别问题。

那么，仿真环境的难题怎么解决呢?

为了让更多人参加到决策智能的构建中来，OpenDILab搞了一场Go-Bigger挑战赛。通俗地讲，这也许是一场决策AI版的「大球吃小球」挑战赛。

在Go-Bigger挑战赛里，每局时长十秒钟，大球吃掉小球会获得更大尺寸和重量，但同时还要减少被更大的球吃掉。球的种类包含分身球、孢子球、食物球、荆棘球，这四种球的决策模式是不同的。

每个团队都需和其它队伍对抗，总重量更大的团队获胜。

这个游戏环境看上去简单，但似乎特别考量多智能体之间的配合和抗衡，包括考量同一队伍中的个体行动与合作行动、不同团队间的合作与竞争、表征和交换与其他智能体的环境信息等，体现了很大的决策复杂度。

有意思的是，Go-Bigger游戏设计了球球对抗时间、成长加速度、分裂、消失、衰亡等约束条件，这种状况似乎广泛存在于现实世界，比如在人的生命周期中，我们都必须在不同的人生阶段，在各类约束条件下进行协同、对抗，做出最利于自身的决策。球球和人类之间，由此形成了一种微妙的关联。

在AI领域，很多研究问题的真正被定义和解决，都经历了从「球球」到「真实世界」的模拟过程。

包括计算机视觉领域的经典之作ImageNet。上海人工智能实验室青年科学家、商汤科技高级研究顾问、OpenDILab项目发起人刘宇表示，在ImageNet比赛之前，数据集都十分小，学术界很难定义产业界真正需要的算法难题。但ImageNet提出了全新的挑战，在海量数据上定义的探究问题与真实世界中真正需要被解决的难题更加贴近了，加上算力条件的提高，成就了当时计算机视觉的蓬勃发展。

针对现在的多智能体决策智能领域来说，学术界和产业界都在期待着像「ImageNet」这样具有「公认的难题定义能力」的项目发生，而OpenDILab希望Go-Bigger能担起这一重担。

有人也许会问，既然开源了DI-star，为什么不直接办一场星际争霸AI挑战赛?

这只是从现实原因出发来考量的，毕竟训练一个星际争霸AI需要很多的算力消耗，对于通常参赛者来说真心不友好。

Go-Bigger的定位是人人可以参与的大型游戏AI竞技环境。相比学术界常见的Atari、MuJoCo、SMAC，Go-Bigger的环境规模更大，但又可以在大型的试验室中完成，用一台机器、一块GPU能够锻炼出来。这样一来，参赛者能够把更多精力聚焦到构建多智能体协作能力的算法上。

虽然那么，从零开始推动比赛要用的算法和练习流程还是很复杂的，而OpenDILab平台提供的决策AI框架DI-engine正好帮助开发者简化了这一过程。

开发者们基于DI-engine为Go-Bigger设计推动了多种种类的基准算法，包含多智能体协作，稀疏奖励鼓励，记忆化构建和计算精度提高等多个方面。

走进现实世界

在工业应用这块，OpenDILab也没松懈，推出了自动驾驶领域内第一个支持多种仿真器和多种决策智能算法的开源研究系统——DI-drive。

之所以选择手动驾驶领域做开源，OpenDILab有自己的思考：

第三次发展浪潮以后，AI科技尚未开启从认知智能到决策智能演变的关键节点，决策AI科技的突破也到了在实际画面部署和应用的阶段。任何前沿的学术理论，都要走到现实世界当中去，才能形成更多的价值。

可以说，决策AI科技应用的顺利与否，直接决定了这一科技在产业界的认同程度，反过来，应用领域的瓶颈也可以指导决策AI理论的演变。

另一方面，生态形成的成功与否表现了决策AI科技的应用门槛、其通用能力和弱化能力或者对不同任务的适应能力。应用生态也可以非常广泛地拓宽决策AI的应用领域，打通不同应用领域所遭受的难题和挑战。

自动驾驶是当前人工智能的热门研究方向。决策、规划与控制是自动驾驶任务的大脑，一向被各大公司视作高度保密科技。如果是一位普通开发者，就算想深入认识也难。

然而，OpenDILab综合了长期自动驾驶决策AI的方式，抽象出基本包括现有手动驾驶技巧的一套步骤，做出了手动驾驶领域第一个开源的、人人可以参与的研究系统DI-drive。

现在，DI-drive已在自动驾驶端到端仿真任务上获得若干算法突破。对于一系列核心科技突破，OpenDILab不作保留，全部开源。

例如自动驾驶策略InterFuser，该思路基于Transformer进行多传感器融合，并使用了可解释性特点来提高自动驾驶的安全性。

我们都清楚，在高交通密度的画面中，会有长期的障碍物和动态物体参与决策。在这种状况下，一些推进的手动驾驶系统或许体现出不恰当或意外的行为，导致灾害性的事件。

例如行人时常从门口发生、通过马路时遭到意外车流(闯红灯等)，这应该更好地理解多模态多角度传感器输入下的画面。另外，如何验证决策过程也有个难题，换句其实，识别系统的功能/故障状况并且故障因素，这应该决策系统的可解释性。

OpenDILab模拟了大个别状况，基于自动驾驶研究的开源模拟器CARLA进行了测评，InterFuser显示出良好的问题处理能力：

等红灯

转弯

在最新的CARLALeaderboard排行榜中，OpenDILab提出的自动驾驶策略InterFuser取得了Top1的成绩。

InterFuser在CARLALeaderboard上的排名

另外，OpenDILab还对于自动驾驶研发了一套贴近真实的驾驶场景Casezoo，所涉及的驾驶场景均由实车数据和路测案例转化而来。他们在多种贴近真实的驾驶环境中练习和检测了决策模型，有效抑制自动驾驶领域仿真研究在实车环境中的推广和应用。

图注：Casezoo为手动驾驶模拟提供更接近真实的驾驶场景

与此同时，OpenDILab也在构建新的决策智能应用领域和技巧，如金融领域的反欺诈和交易，电网、港口等场景的资源调度和改进，生物领域的合成搜索和分析等。一系列重磅成果，均在酝酿之中。

不断进化的OpenDILab

一年时间过得马上。Beta版本开源之后ai软件基础教程，OpenDILab团队仍然在按照开发者社区的反馈改进。

经过多次加强后，近日的WAIC2022大会上，OpenDILab1.0版本即将诞生。

OpenDILab框架图

整体来看，OpenDILab1.0有三大升级特点：

1.易用高效的大体量决策智能训练平台：具备插件化的扩充能力和友好的分布式能力

2.当前全球上最全面的标准化决策AI系统：一个平台融合所有RL研究领域，一套框架服务多种决策AI问题，最全最强算法集(1个架构，8大研究方向，40+环境，60+算法，70+专利)

3.到手即用的工业应用生态：决策AI+X的绝佳实践，助力各行各业推动关键的科技和应用突破。

「在计算机视觉领域，标准化做得很高，比如所有数据模态都可以用比较规整的Tensor来表示，所有任务都可以在batch维度同步forward和bp(BackPropagation)的神经网络来处理，比如PyTorch和TensorFlow。而在数据模态高度结构化，训练过程高度异步化的决策智能领域，我们期望做的只是这种一件事。」刘宇表示。

硬核升级之外，OpenDILab也非常重视易用性和方便性，为社区内的开发者提供了非常详细的上手教程。值得一提的是，OpenDILab将于每年10月启用从应用场景出发的「PPOxFamliy入门公开课」，课程内容主要从一个PPO解决绝大多数的常规决策难题，根据算法原理，代码实现，实际应用二者的一一对应来设计，即使你也是一枚想入门决策AI的萌新，或者仅仅一位想用决策AI科技解决某个实际问题的非内行项目师，都可以借助该课程和OpenDILab平台取得在算法、系统、工程等经验和工具支持。

我们也知道到，同在WAIC2022发布的SenseMAP商汤多智能体系统，在建立过程中也用到了OpenDILab开源的多项前沿科技。

在WAIC2022的企业年会中，刘宇介绍：「我们借助OpenDILab作为基建之一形成了商汤多智能体游戏AI系统SenseMAP，同时OpenDILab也支持了我们在游戏、电力调度、自动驾驶和运输调度等领域的业务应用。」

刘宇认为，只有一项技术的门槛明显减少，更多人才有机会入局。

纵观人类科技演进历史，真正推动整个社会向前走的机会，未必出现在某些技术问世的那一刻，更多是这项科技无法受到普及以后。这正是OpenDILab的开源初衷。

（本内容为广告，相关素材由广告主提供，广告主对本广告内容的真实性负责，内容仅供读者参考。）