原标题:AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
文章来源:新智元
内容字数:15901字
LLM推理能力研究综述
在最新的研究中,来自UCL和Cohere等机构的研究人员探讨了大型语言模型(LLM)在推理任务中的表现,发现它们并非简单地检索答案,而是通过一种称为“程序性知识”的方式进行推理。这项研究揭示了LLM在处理推理任务时所依赖的知识和策略,为理解其推理能力提供了新的视角。
1. 程序性知识的发现
研究人员分析了LLM在执行推理任务时使用的预训练数据,发现模型依赖于包含程序性知识的文档。这些文档提供了求解过程的示例,模型通过观察这些示例来生成自己的推理过程。研究表明,LLM在面对不同推理任务时,所依赖的信息源并不相同,但在处理相似类型的问题时,其使用的文档却表现出一定的相似性。
2. 推理与事实性问题的区别
研究还发现,LLM在回答事实性问题时,答案通常出现在最具影响力的文档中,而在推理问题中,答案的出现频率则显著降低。这表明,LLM在推理时的表现与其在事实性问题上的表现存在明显差异,推理过程更依赖于从更广泛的文档集合中进行泛化,而对单个文档的依赖程度较低。
3. 数据污染与模型性能
研究指出,LLM的推理能力受到训练数据中类似问题频率的严重影响。这引发了对“数据污染”的关注,即基准测试数据可能与预训练数据重合,导致模型的泛化能力受到限制。因此,如何有效选择和设计预训练数据成为提升LLM推理能力的关键。
4. 影响文档的分析
研究团队利用影响函数分析了哪些文档对模型输出产生了重要影响,结果显示,文档中的程序性知识对推理过程的轨迹具有显著预测能力。尤其是在处理数学推理问题时,包含代码或公式的文档更能有效支持模型的推理过程。
5. 结论与未来展望
总的来说,这项研究提供了LLM推理能力的新见解,表明其并非简单的模式匹配器,而是通过程序性知识进行复杂推理的能力。未来的研究可以进一步探索如何利用这种程序性知识,优化LLM的预训练策略,以提高其在多样化推理任务中的表现。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。