随着有效“解决”无限德州扑克的扑克人工智能技术Libratus的发展, 如果来自一项来自国际团队的新研究能成功破解合作博弈打法的机制,Libratus可以变得更高级。 见证了2017年1月卡耐基梅伦大学的Libratus在德扑人机大战的惊艳表演后,Libratus主要研发人Jacob Crandll和他的团队希望探索博弈论的合作领域。 在和New Atlas讨论这个项目时,Crandall解释说,人工智能必须学会在接受任务时如何与其他人合作,而不只是像Libratus那样打败对手。 Crandall及其团队一直在使用一项叫做S#的新算法测试游戏中的合作与妥协(比如“囚徒困境”)的价值。 在测试环境中,为了评估游戏环境中的关系,Crandall及其团队将测试电脑与人类的结盟关系:电脑与电脑结盟,人类与人类结盟,电脑与人类结盟。 囚徒困境研究的一个关键动态是,参与者是选择一个符合自身利益的行为,还是选择一个符合团队中其他人利益的行为。 因为自利行为可能让自己的结局更糟糕,囚徒困境要解决的问题是:是否为达到总体最好的结果而与其他人结盟。 Crandall告诉New Atlas:“我们的最终目标是,理解AI与人类合作背后的数学,并了解人工智能为了开发社交技能需要哪些属性。 ” 在试验中,S#不能说谎,而且值入了一种叫做“cheap talk”的算法。 当电脑侦测到来自合作者的合作行为时,它做出积极反馈。 相反,诸如“你将因此得到支付”的不诚实话语将遭到蔑视。 人工智能通过这些游戏学到的是与团队协作时道德的价值。 确实,当人类不知不觉和S#协作时,作为收到积极信号的直接结果,人类与AI之间的合作行为将增加。 Libratus已经向我们证明,电脑在诸如扑克这样的零和游戏能够战胜人类,而S#有望将扑克AI提高到能够与人类合作的程度。 AI的最终发展不仅是比我们思考得深入,而是在特定游戏环境中为达到最佳结果而和我们合作。 |