站长之家(ChinaZ.com) 4月4日消息:即使不太可能会暂停六个月的人工智能研究,但似乎 GPT-4 也有能力实现巨大的飞跃,只要它认真审视一下自己。研究人员已经让 GPT 对自己的工作进行「反思(Reflexion)」,使其性能提高了 30%。
研究人员 Noah Shinn 和 Ashwin Gopinath 写道:「人类并非每天都在使用曾经被认为是人类智能独有的决策过程来开发新技术来达到最先进的标准。但是,这正是我们所做的。」
「反思」技术采用了 GPT-4 已经令人印象深刻的执行各种测试的能力,并引入了「一个框架,允许人工智能代理模仿人类一样的自我反思并评估其性能」。它引入了额外的步骤,让 GPT-4 设计测试来批判自己的答案,寻找错误和误区,然后根据它发现的情况重写其解决方案。
该团队将其技术用于一些不同的性能测试。在由模型从未见过的 164 个 Python 编程问题组成的 HumanEval 测试中,GPT-4 得分达到创纪录的 67%,但在 Reflexion 技术的帮助下,其得分跃升至令人印象深刻的 88%。
在 Alfworld 测试中,该测试挑战人工智能通过在各种交互环境中执行几种不同的允许行动来做出决定和解决多步骤任务的能力,Reflexion 技术将 GPT-4 的表现从 73% 左右提升到接近完美的 97%,在 134 项任务中只有 4 项失败。
在另一项名为 HotPotQA 的测试中,语言模型被赋予了对维基百科的访问权,然后在可能的 13,000 个问题/答案对中给出 100 个,「挑战代理人解析内容并推理多个支持文档」。在这项测试中,GPT-4 的准确率只有 34%,但带有 Reflexion 的 GPT-4 成功地做得更好,达到 54%。
越来越多的时候,解决人工智能问题的方法似乎是更多的人工智能。在某些方面,这感觉有点像生成式对抗网络,其中两个人工智能互相磨练技能,例如,一个试图生成无法与「真实」图像区分的图像,而另一个试图区分假的和真的。但在这种情况下,GPT 既是作者又是编辑,致力于努力改善自己的输出。
(举报)