SPIQA：一个大规模的计算机科学论文多模态问题回答数据集

在科学论文中挖掘相关信息是一个至关重要的研究领域，因为它能够赋予学生和研究人员高效解决他们在读到科学论文时自然引发的问题的能力。然而，现有基于学术论文的问题回答数据集在规模上受到限制，并且主要分析的是科学文章论文的摘要、结论和文本段落，忽略了精心制作的图表和表格中呈现的丰富信息，因此，未能充分利用和分析这些视觉元素中嵌入的丰富、多维的数据，这些对于全面理解所呈现的研究至关重要。

本文介绍的SPIQA（科学论文图像问题回答），这是第一个专门为解释科学论文中的复杂图表和表格而设计的大型QA数据集，涵盖了计算机科学各个领域。

链接如下：

https://huggingface.co/datasets/google/spiqa

https://github.com/google/spiqa

1 SPIQA数据集

1.1 数据收集

SPIQA 从 19 个顶级计算机科学会议中收集了 26K 篇论文的 PDF 和 TeX 源文件，涵盖 2018 年至 2023 年发表的论文。SPIQA 包含 27 万个问题，分为训练集、验证集和三个不同的评估集，涵盖了多种图表类型（各种类型的图表、表格、示意图和结果可视化），并设计了三种任务，用于评估模型在不同场景下的理解能力。

1.2 问题生成

SPIQA 的主要问题是通过自动生成的方式获得的，利用了 Gemini 1.5 Pro 多模态大语言模型的能力。

1.2.1 生成过程

将图表或表格与相关的文本段落一起输入模型。
模型生成问题、答案和解释。
人工筛选生成的问题，确保其质量。

1.2.2 人工筛选标准

回答问题需要完全理解图表或表格及其在论文中的重要性。
生成答案是正确且简洁的。
问题既不简单也不过于具体。

1.3 评估任务

SPIQA 设计了三种任务，用于评估模型在不同场景下的理解能力：

直接问答（图表）：系统需要根据论文中的所有图表和表格回答问题。任务评估模型对图表和表格的理解能力，以及将信息整合到答案中的能力。
直接问答（全文）：系统需要分析整篇论文（包括文本、图表和表格）回答问题。任务评估模型的长文本理解和信息整合能力。
思维链问答：系统需要先识别相关图表和表格，然后回答问题。任务评估模型的思维链推理能力和知识定位能力。

1.4 SPIQA 数据集的价值

SPIQA 是第一个大规模的科学论文问答数据集，专注于图表和表格的理解。
SPIQA 的设计考虑了科学论文的特点，能够有效评估模型在不同场景下的理解能力。
SPIQA 为评估和改进科学论文问答模型提供了重要的基准。

2 实验

2.1 实验设置

2.1.1 模型选择

实验使用了 12 个开源和闭源模型，包括：

Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini Pro Vision
GPT-4 Vision, GPT-4o
Claude 3 (Opus)
InstructBLIP-7B, LLaVA-1.5-7B
XGen-MM, InternLM-XC, CogVLM
SPHINX-v2

2.1.2 任务

直接问答（图表）
直接问答（全文）
思维链问答

2.1.3 指标

实验使用了多种指标评估模型性能，包括：

METEOR, CIDEr, ROUGE-L, BERTScore F1
L3Score (LLMLogScore)一种用于评估自由式问答 (QA) 的指标，它利用大型语言模型 (LLM) 的能力来评估候选答案与真实答案之间的语义相似度。与传统的 QA 评估指标（例如 BLEU 和 ROUGE）不同，L3Score 不依赖于 token 匹配，而是直接使用 LLM 对候选答案和真实答案的语义相似度进行评估。
思维链问答任务还使用了 top-1 准确率评估图像检索能力。

2.2 主要结果

2.2.1 直接问答（图表）

GPT-4o 在所有指标上都取得了最佳成绩，证明了其在科学论文问答领域的强大能力。
Claude-3 在部分指标上表现良好，仅次于 GPT-4o。
开源模型的整体表现不如闭源模型，但 InternLM-XC 和 CogVLM 在某些指标上取得了较好的成绩。
精调后的 InstructBLIP 和 LLaVA 1.5 在所有指标上都取得了显著的提升，表明 SPIQA 数据集可以有效地用于模型训练。

2.2.2 直接问答（全文）

所有模型的性能都得到了显著提升，证明了全文信息对科学论文问答的重要性。
GPT-4o 仍然在所有指标上取得了最佳成绩，但其领先优势有所缩小。

2.2.3 思维链问答

所有模型的性能都得到了显著提升，证明了思维链推理对科学论文问答的重要性。
GPT-4o 仍然在所有指标上取得了最佳成绩，但其领先优势有所缩小。

3 顶级会议

3.1 AI/ML 领域

NeurIPS (Neural Information Processing Systems): 人工智能和机器学习领域的顶级会议，涵盖了深度学习、强化学习、优化等多个子领域。
ICLR (International Conference on Learning Representations): 机器学习领域的顶级会议，专注于深度学习及其相关领域。
ICML (International Conference on Machine Learning): 机器学习领域的顶级会议，涵盖了机器学习的各个方面。
AAAI (Association for the Advancement of Artificial Intelligence): 人工智能领域的顶级会议，涵盖了人工智能的各个方面。
IJCAI (International Joint Conference on Artificial Intelligence): 人工智能领域的顶级会议，涵盖了人工智能的各个方面。

3.2 NLP 领域

ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议，涵盖了自然语言处理的各个方面。
EMNLP (Empirical Methods in Natural Language Processing): 自然语言处理领域的顶级会议，专注于实证方法在自然语言处理中的应用。
SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议，涵盖了信息检索的各个方面。
CIKM (Conference on Information and Knowledge Management): 信息检索领域的顶级会议，涵盖了信息检索的各个方面。
WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议，专注于计算机视觉在各个领域的应用。

3.3 计算机视觉和计算机图形领域

CVPR (Conference on Computer Vision and Pattern Recognition): 计算机视觉领域的顶级会议，涵盖了计算机视觉的各个方面。
ICCV (International Conference on Computer Vision): 计算机视觉领域的顶级会议，涵盖了计算机视觉的各个方面。
ECCV (European Conference on Computer Vision): 计算机视觉领域的顶级会议，涵盖了计算机视觉的各个方面。
SIGGRAPH (Special Interest Group on Graphics): 计算机图形领域的顶级会议，涵盖了计算机图形的各个方面。
WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议，专注于计算机视觉在各个领域的应用。

3.4 其他计算机科学领域

ICASSP (International Conference on Acoustics, Speech, and Signal Processing): 语音和信号处理领域的顶级会议，涵盖了语音和信号处理的各个方面。
KDD (Knowledge Discovery and Data Mining): 数据挖掘领域的顶级会议，涵盖了数据挖掘的各个方面。
WebConf (The Web Conference): Web 领域的顶级会议，涵盖了 Web 的各个方面。
SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议，涵盖了信息检索的各个方面。
ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议，涵盖了自然语言处理的各个方面。