论文浅尝 | 从最少到最多的提示可在大型语言模型中实现复杂的推理

news/2024/7/8 7:35:52 标签: 语言模型, 人工智能, 自然语言处理

3c67bb606b9fd5d114c8a6b091391f46.png

笔记整理:王泽元,浙江大学博士

链接:https://openreview.net/forum?id=WZH7099tgfM

1. 动机

尽管深度学习已经取得了巨大的成功,但它与人类智慧仍然存在一些明显差距。这些差距包括以下几个方面:1)学习新任务:人类可以通过很少的示例快速学会新任务,而机器学习通常需要大量已标记的数据来完成相同的任务。2)逻辑解释:人类能够清晰地解释他们的思维过程,但机器学习似乎像一个黑盒,我们难以理解其中的工作原理。3)处理复杂问题:人类能够解决比以前遇到的更具挑战性的问题,而机器学习在训练和测试上遇到的难度大致相等。为了克服这些问题,研究人员提出了一种称为“从最少到最多提示”的方法。这个方法包括两个关键步骤:1)将复杂任务分解成一系列更简单的子任务,然后2)按照顺序逐一解决这些子任务。这有助于模型逐渐理解和解决整个复杂任务。在这两个阶段中,使用了很少的提示来指导模型,而不需要对模型进行大规模的微调。

2. 贡献

提出了基于学习简单任务来解决复杂任务的提示学习方法。该方法在如符号操纵、成分概括、数学推理上证明了其解决复杂问题的能力。

1fac50a3b2efd4f7a4600746ef0e04a1.png

3. 方法

它包含了两个阶段:

(1)分解:这个阶段的提示是固定的,描述了如何将一个具体的任务分解

(2)子任务解决:这个阶段的提示包含了三个部分:固定的例子说明如何解决子问题;一个可能为空的列表包含了先前回答的子问题和生成的解决方案;下一个要被回答的问题

4. 结果

符号操纵:最后字母拼接任务(输入一系列单词,输出是每个单词最后一个字母的拼接)

90e3fb6c0aaa6bf72a059de8858583fa.png

4332c43285f5368282f7b23096276c38.png

实验结果显示普通的提示在所有的测试中都失败了,思维连提示显著的提升了效果但仍与从最少到最多提示方法有差距。特别的,当序列长度增加时,思维链提示效果快速下降。

成分概括:将自然语言命令转换为行动序列

3c801c8a6ddbed17146fba4bd67cee17.png

b7909c2cf6c44357b889c93a96edefb6.png

成分概括数据以行动序列长度划分,从最少到最多提示达到了99.7%的准确率,一个有趣的发现是code-davinci-002优于text-davinci-002不论是使用哪种提示方法。在失败的例子中,有6个是因为没有正确理解“around”后面的“twice”和“thrice”,7个是因为错误地将“after”解释为“and”。

数学推理:作者用解决数学问题需要的步骤数量作为评价数学问题的难度

3f4383fd65ddba49a24485789bfd3470.png

3f5d3a2454f13e92f0fe1ea64e052d0c.png

b68d391e6c1af594afd22fbb6bccd3f4.png

从实验结果中可以看出,与思维链相比,当推理步骤数目大于5时,从最少到最多提示方法显著地提升了模型回答数学问题的准确性。作者发现在GSM8K中失败的问题,可以通过人为手工分割任务,让模型回答正确。这表明解决问题中最关键的一步是分解问题。

5. 总结

作者引入了从最少到最多的提示,使语言模型能够解决比提示中的问题更难的问题。这种方法需要两个过程:自上而下的问题分解和自下而上的解决方案生成。作者的实证研究结果包括符号操纵、构图概括和数学推理,表明从最不重要到最重要的提示明显优于标准提示和思维链提示。一般来说,提示可能不是教授大型语言模型推理技能的最佳方法。提示可以被视为一种单向交流形式,在这种形式中,我们指导语言模型而不考虑其反馈。一个自然的进展是将提示发展为完全双向的对话,从而能够立即反馈到语言模型,从而促进更高效和有效的学习。从最少到最多的提示技术代表了通过这种双向交互指导语言模型的一大进步。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

a3a7b4b55deda24cb7837c11c3505fdb.png

点击阅读原文,进入 OpenKG 网站。


http://www.niftyadmin.cn/n/5536807.html

相关文章

回溯法:生成一个字符串的所有排列组合

问题:字符串abcd怎样获取abcd、acbd、acdb、adbc、adcb、bacd、bcad、bdac、bdca、cabd、cdba、cadb、cbda等,所有排列。 使用回溯法来生成一个字符串的所有排列 import java.util.ArrayList; import java.util.List;public class Permutations {publi…

.net 8 集成 MinIO文件存储服务,实现bucket管理,以及文件对象的基本操作

一、准备工作 1、本地部署MinIO服务 2、创建MinIO的Access Key 3、创建.net 项目 4、下载MinIO sdk 5、相关文档 二、编写MinIO工具类 三、管理存储桶 1、MyBucket类 (1)判断bucket是否存在 (2)新建bucket &#xff08…

Nature Communications|用于电子皮肤的自主自愈晶体管(柔性半导体器件/电子皮肤/柔性电子)

2024年4月23日,韩国庆熙大学Jin Young Oh,美国斯坦福大学鲍哲南(Zhenan Bao)和韩国嘉泉大学Tae Il Lee团队,在《Nature Communications》上发布了一篇题为“Autonomous self-healing supramolecular polymer transistors for skin electronics”的论文。论文内容如下: 一…

从OpenAI停服看中国市场:国产替代崛起的机遇与挑战

一、OpenAI 停服事件背景 OpenAI 自 2020 年推出 GPT-3 以来,在全球范围内引起了极大的反响。其强大的自然语言处理能力使其成为许多企业和开发者的首选工具。然而,2024 年 6 月 25 日,许多中国用户收到了一封来自 OpenAI 的邮件&#xff0c…

DFS之搜索顺序——AcWing 1116. 马走日

DFS之搜索顺序 定义 DFS之搜索顺序是指在执行深度优先搜索时,遍历图或树中节点的策略。具体而言,DFS会沿着一条路径深入到底,当无法继续深入时回溯,然后选择另一条未探索的路径继续深入。搜索顺序直接影响到搜索效率和剪枝的可能…

多态的优点

多态的优点 1、多态的优点1.1 可替换性(Substitutability)2、可扩充性(Extensibility) 2、总结 💖The Begin💖点点关注,收藏不迷路💖 1、多态的优点 在面向对象编程(OOP…

Witness Table 的由来

“Witness Table” 是 Swift 中的一个术语,源于编译原理和类型系统的概念。它被用来表示一种机制,通过这个机制,编译器可以确保某个类型确实实现了它声明遵循的协议中的所有方法和属性。下面是对这个术语的详细解释: 1. 术语来源…

大数据处理引擎选型之 Hadoop vs Spark vs Flink

随着大数据时代的到来,处理海量数据成为了各个领域的关键挑战之一。为了应对这一挑战,多个大数据处理框架被开发出来,其中最知名的包括Hadoop、Spark和Flink。本文将对这三个大数据处理框架进行比较,以及在不同场景下的选择考虑。…