AI操盘街霸对决:GPT-3.5领先GPT-4成黑客大战赢家?


在人工智能技术不断进步的今天,AI操纵游戏角色、进行实时对战已经不再是科幻幻想。最近在GitHub上出现了一项新颖的Benchmark测试:AI直接控制著名格斗游戏《街霸》的角色进行PK对决。这项测试吸引了广泛注意,因为它允许参与的AI模型在游戏引擎的规则下,通过互动来比拼实时决策能力。

在与llmsys大模型竞技场的对战中,两个大模型根据各自的策略输出战术指令,由游戏中的角色进行实际操作,人类观众则可以通过直观的战斗结果来评判哪个AI更胜一筹。这一基准测试的特殊之处在于,它打破了以往AI之间静态的答案输出比赛形式,转而评判AI在动态环境下的策略和反应能力。

在经过342场激烈的比拼后,使用ELO排名算法得出的结果显示,最新版的gpt-3.5-turbo以稳定的性能占据了榜首,而Mistral系列的小杯模型紧随其后。相对来说,更大体量的GPT-4和其他大容量Mistral模型却排在了后面,这一发现无疑颠覆了普遍的认知——更大的模型并不总是表现得更好。

开发者分析这种现象背后的原因,认为与AI的决策速度和精确性密切相关。在格斗游戏中,AI需要快速做出反应、预判对手的行动、灵活变通战术并能从失败中吸取教训,这些都是测试的关键能力。这不同于传统的基于奖励函数的强化学习,这里的AI需要完全了解自身处境,并有目的性地采取行动。

试验中发现,大模型能够学会多种复杂行为,例如通过跳跃来拉开与对手的距离、仅在对手靠近时发起攻击并在可能的情况下使用特殊技能。游戏中的AI行动是通过将屏幕的视觉信息转换成文本描述,并根据双方的状态和上一次的行动来决策。比如通过分析文本描述来判断角色位置,然后将 AI 决定的动作映射为键盘操作。

这种交互式评估模式也给大模型的实用性提供了全新的评测途径。与日常使用的聊天机器人相比,真实世界中的应用场景往往更加复杂,需要AI具备更快的理解和规划能力。只有找到速度和准确性之间的平衡,AI才能在实时竞技场中取得胜利。

此次GitHub上的黑客马拉松不仅展示了大模型在游戏世界的竞技潜力,更重要的是,它向我们展示了未来人工智能可能在更广阔的领域发展的可能性。随着AI技术的继续发展,这种类游戏竞技的AI基准测试,也将推动我们更好地理解大模型的潜能以及如何发挥其在真实世界的最大效用。

相关新闻