SPIQA:一个大规模的计算机科学论文多模态问题回答数据集

        在科学论文挖掘相关信息是一个至关重要的研究领域,因为它能够赋予学生和研究人员高效解决他们在读到科学论文时自然引发的问题的能力。然而,现有基于学术论文的问题回答数据集在规模上受到限制,并且主要分析的是科学文章论文的摘要、结论和文本段落,忽略了精心制作的图表和表格中呈现的丰富信息,因此,未能充分利用和分析这些视觉元素中嵌入的丰富、多维的数据,这些对于全面理解所呈现的研究至关重要。

      本文介绍SPIQA(科学论文图像问题回答),这是第一个专门为解释科学论文中的复杂图表和表格而设计的大型QA数据集,涵盖了计算机科学各个领域。

链接如下:

https://huggingface.co/datasets/google/spiqa

https://github.com/google/spiqa

1 SPIQA数据集

1.1 数据收集

      SPIQA 从 19 个顶级计算机科学会议中收集了 26K 篇论文的 PDF 和 TeX 源文件,涵盖 2018 年至 2023 年发表的论文。SPIQA 包含 27 万个问题,分为训练集、验证集和三个不同的评估集,涵盖了多种图表类型(各种类型的图表、表格、示意图和结果可视化),并设计了三种任务,用于评估模型在不同场景下的理解能力。

1.2 问题生成

SPIQA 的主要问题是通过自动生成的方式获得的,利用了 Gemini 1.5 Pro 多模态大语言模型的能力。

1.2.1 生成过程

  • 将图表或表格与相关的文本段落一起输入模型。
  • 模型生成问题、答案和解释。
  • 人工筛选生成的问题,确保其质量。

1.2.2 人工筛选标准

  • 回答问题需要完全理解图表或表格及其在论文中的重要性。
  • 生成答案是正确且简洁的。
  • 问题既不简单也不过于具体。

1.3 评估任务

SPIQA 设计了三种任务,用于评估模型在不同场景下的理解能力:

  • 直接问答(图表):系统需要根据论文中的所有图表和表格回答问题。任务评估模型对图表和表格的理解能力,以及将信息整合到答案中的能力。
  • 直接问答(全文):系统需要分析整篇论文(包括文本、图表和表格)回答问题。任务评估模型的长文本理解和信息整合能力。
  • 思维链问答:系统需要先识别相关图表和表格,然后回答问题。任务评估模型的思维链推理能力和知识定位能力。

1.4  SPIQA 数据集的价值

  • SPIQA 是第一个大规模的科学论文问答数据集,专注于图表和表格的理解。
  • SPIQA 的设计考虑了科学论文的特点,能够有效评估模型在不同场景下的理解能力。
  • SPIQA 为评估和改进科学论文问答模型提供了重要的基准。

2 实验

2.1 实验设置

2.1.1 模型选择

实验使用了 12 个开源和闭源模型,包括:

  • Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini Pro Vision
  • GPT-4 Vision, GPT-4o
  • Claude 3 (Opus)
  • InstructBLIP-7B, LLaVA-1.5-7B
  • XGen-MM, InternLM-XC, CogVLM
  • SPHINX-v2

2.1.2 任务

  • 直接问答(图表)
  • 直接问答(全文)
  • 思维链问答

2.1.3 指标

实验使用了多种指标评估模型性能,包括:

  • METEOR, CIDEr, ROUGE-L, BERTScore F1
  • L3Score (LLMLogScore)一种用于评估自由式问答 (QA) 的指标,它利用大型语言模型 (LLM) 的能力来评估候选答案与真实答案之间的语义相似度。与传统的 QA 评估指标(例如 BLEU 和 ROUGE)不同,L3Score 不依赖于 token 匹配,而是直接使用 LLM 对候选答案和真实答案的语义相似度进行评估。
  • 思维链问答任务还使用了 top-1 准确率评估图像检索能力。

2.2 主要结果

2.2.1 直接问答(图表)

  • GPT-4o 在所有指标上都取得了最佳成绩,证明了其在科学论文问答领域的强大能力。
  • Claude-3 在部分指标上表现良好,仅次于 GPT-4o。
  • 开源模型的整体表现不如闭源模型,但 InternLM-XC 和 CogVLM 在某些指标上取得了较好的成绩。
  • 精调后的 InstructBLIP 和 LLaVA 1.5 在所有指标上都取得了显著的提升,表明 SPIQA 数据集可以有效地用于模型训练。

2.2.2 直接问答(全文)

  • 所有模型的性能都得到了显著提升,证明了全文信息对科学论文问答的重要性。
  • GPT-4o 仍然在所有指标上取得了最佳成绩,但其领先优势有所缩小。

2.2.3 思维链问答

  • 所有模型的性能都得到了显著提升,证明了思维链推理对科学论文问答的重要性。
  • GPT-4o 仍然在所有指标上取得了最佳成绩,但其领先优势有所缩小。

3 顶级会议

3.1 AI/ML 领域

  • NeurIPS (Neural Information Processing Systems): 人工智能机器学习领域的顶级会议,涵盖了深度学习、强化学习、优化等多个子领域。
  • ICLR (International Conference on Learning Representations): 机器学习领域的顶级会议,专注于深度学习及其相关领域。
  • ICML (International Conference on Machine Learning): 机器学习领域的顶级会议,涵盖了机器学习的各个方面。
  • AAAI (Association for the Advancement of Artificial Intelligence): 人工智能领域的顶级会议,涵盖了人工智能的各个方面。
  • IJCAI (International Joint Conference on Artificial Intelligence): 人工智能领域的顶级会议,涵盖了人工智能的各个方面。

3.2 NLP 领域

  • ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议,涵盖了自然语言处理的各个方面。
  • EMNLP (Empirical Methods in Natural Language Processing): 自然语言处理领域的顶级会议,专注于实证方法在自然语言处理中的应用。
  • SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • CIKM (Conference on Information and Knowledge Management): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议,专注于计算机视觉在各个领域的应用。

3.3 计算机视觉和计算机图形领域

  • CVPR (Conference on Computer Vision and Pattern Recognition): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • ICCV (International Conference on Computer Vision): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • ECCV (European Conference on Computer Vision): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • SIGGRAPH (Special Interest Group on Graphics): 计算机图形领域的顶级会议,涵盖了计算机图形的各个方面。
  • WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议,专注于计算机视觉在各个领域的应用。

3.4 其他计算机科学领域

  • ICASSP (International Conference on Acoustics, Speech, and Signal Processing): 语音和信号处理领域的顶级会议,涵盖了语音和信号处理的各个方面。
  • KDD (Knowledge Discovery and Data Mining): 数据挖掘领域的顶级会议,涵盖了数据挖掘的各个方面。
  • WebConf (The Web Conference): Web 领域的顶级会议,涵盖了 Web 的各个方面。
  • SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议,涵盖了自然语言处理的各个方面。


http://www.niftyadmin.cn/n/5558387.html

相关文章

[Spring] Spring Web MVC案例实战

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

Databend 开源周报第 153 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend。 支持必须更改密码…

万字长文之分库分表里如何优化分页查询?【后端面试题 | 中间件 | 数据库 | MySQL | 分库分表 | 分页查询】

分库分表的一般做法 一般会使用三种算法: 哈希分库分表:根据分库分表键算出一个哈希值,根据这个哈希值选择一个数据库。最常见的就是数字类型的字段作为分库分表键,然后取余。比如在订单表里,可以按照买家的ID除以8的…

在设计电气系统时,电气工程师需要考虑哪些关键因素?

在设计电气系统时,电气工程师需要考虑多个关键因素,以确保系统的安全性、可靠性、效率和经济性。我收集归类了一份plc学习包,对于新手而言简直不要太棒,里面包括了新手各个时期的学习方向编程教学、问题视频讲解、毕设800套和语言…

达梦数据库-学习

达梦数据库 用户和模式 一对多 用户与表空间 一对多 且表空间可以有多个数据文件,‌而一个数据文件只能属于一个表空间 达梦数据库中的模式和表空间是两个不同的概念,‌但它们之间存在一定的关联。‌ 模式(‌Schema…

word 设置多级混合标题自动更新

目录预览 一、问题描述二、原因分析三、解决方案四、参考链接 一、问题描述 有没有体会过多级标题,怎么设置都不听使唤的情况? 我想要的格式是: 二、原因分析 多级标题中发现,输入编号格式这里有个数字没有底纹,是了&#xff0…

华为1000人校园实验记录

在这里插入代码片1000人校园区网设计 1、配置Eth-trunk实现链路冗余 vlan 900 管理WLAN #接入SW8 操作:sys undo in en sysname JR-SW8 int Eth-Trunk 1 mode lacp-static trunkport g0/0/1 0/0/2 port link-type trunk port trunk allow-pass vlan 200 900 qu vla…

17098 广告牌最佳安放问题

这个问题可以通过动态规划来解决。我们可以定义一个数组d&#xff0c;其中d[i]表示到第i个广告牌地点时可以选择放置广告牌的最大效益值。然后我们可以通过遍历所有可能的j&#xff08;1 < j < i && x[i] - x[j] > 5&#xff09;&#xff0c;然后更新d[i]为ma…