0次浏览 发布时间:2025-06-12 12:25:00
普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。
历史是关于时间中的人的科学。
——马克·布洛赫
人工智能已在诸多自然科学领域成为有力的研究助手,然而面对承载着文化意涵与历史记忆的人文学科,却仍旧表现得捉襟见肘。
究其原因,AI当前最缺乏的并非工具性能力,而是对人类智慧与文化的理解能力——这正是人文学科探究的核心。
在众多人文学科中,历史学因其海量的数据规模、多元的史料类型以及复杂的跨文化、跨时空特性,成为检验AI深度认知能力的理想试验场。
因此,AI不仅需要强大的识记能力,更需要深刻理解、精准判断与严谨推理的能力,才能够处理纷繁复杂的文献材料。
为此,普林斯顿大学AI实验室与复旦大学历史学系联合打造了HistBench与HistAgent,拉开了历史研究的AI时代的序幕。
论文地址:
http://arxiv.org/abs/2505.20246代码链接:
https://github.com/CharlesQ9/HistAgent
HistBench作为全球首个历史领域评测基准,涵盖414道历史学者撰写的研究问题,横跨29种古今语言,覆盖全球多文明的历史演化脉络。
测试显示,主流大模型HistBench上准确率不足20%,暴露了通用AI在历史领域的认知短板。
而专为历史研究打造的HistAgent,集成文献检索、OCR识别、多语言翻译、档案检索与图像解译等核心工具,首次实现AI智能体在历史研究领域的深度定制与优化,在HistBench测试中准确率远超现有模型,并在GAIA通用基准斩获60%成绩,充分证明专业定制与通用能力可兼得!
HistBench数据集共收录414道高质量历史问题,最初面向全球征集数千道题目,经由三轮筛选流程层层遴选而来:首先是初筛与标准化;其次由大模型初步预判以剔除低难度问题;最后由历史学专家进行复核校正,确保问题具备足够的研究价值与挑战强度。
参与出题与审核的专家层级涵盖面广,从历史学本科生、研究型硕博生,到海内外高校青年教师和资深教授,构成了一支多维度、跨年龄段的知识共同体,使题目既有理论深度,也具实践张力。
与传统知识问答不同,HistBench 强调方法论挑战与推理深度,特别注重AI在处理史料中的表现,如破损手稿、残缺碑铭、古地图、模糊音频等复杂材料。
长期以来,AI 评测体系主要由理工科主导,人文学科缺席,评估内容缺乏语言、模态与领域的多样性,也缺乏针对史学特点的精细化设计。
HistBench 正是在这一背景下诞生,旨在填补这一空白,推动AI在人文领域的系统性测试与能力突破。
多语言覆盖:打破英语中心主义,覆盖29种语言,体现人文学科全球视野。
多模态史料:涵盖手稿、图像、音视频、历史文物等多种史料,真实模拟历史研究情境。
精细分级:问题从基础史料读取到跨学科深度分析均清晰分层,让模型表现一目了然。
HistBench覆盖20多个历史区域、36个子领域。这些子领域包括但不限于:
HistBench精心设计三类难度等级,模拟真实历史研究挑战:
Level 1(基础):166题,原则上由历史背景助理设计,聚焦基本信息检索和提取。
Level 2(进阶):172题,原则上由研究生撰写,要求在材料处理或逻辑推理上构成一定难度。
Level 3(挑战):76题,原则上由资深学者设计,涉及小/死语言语言读取、多模态史料处理和跨学科分析。
在历史学研究中,提出问题只是一个开始,真正重要的是如何处理材料并找到答案。
为此,团队研发了专为历史学研究服务的智能系统——HistAgent,它不是通用型AI的「人文拓展版」,而是从底层结构就面向史学研究进行功能搭建与优化的专业助手,从任务分解到工具集成,完全嵌入历史学者的工作流程。
HistAgent能够检索文献和史料,处理手稿、图像和地图等多模态材料,并结合历史知识辅助推理,帮助研究者梳理线索、整合信息、形成学术判断。
与GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent针对性更强。主流模型虽擅长公式和代码,却难以处理古希腊碑文、敦煌残卷、满文档案等历史材料,更缺乏严谨的学术推理能力。
HistAgent 的设计理念正是要填充AI在历史研究领域的空白,是一套包含多个子模块的多智能体协作系统,能够模拟历史研究的流程,将复杂任务拆解为不同的子任务,并根据每个子任务的需求调用最合适的工具,完成多模态、多语言和跨学科的指令。
通过这样的设计架构,HistAgent不仅能检索学术信息和处理历史材料,更能深入问题、形成推理、得出答案,成为历史研究者得力的助手。
HistAgent的架构由以下几个核心模块组成:
文本搜索模块:支持多步网页搜索与页面解析,可检索学术网站和历史资料,提供权威背景信息和证据支持。
OCR模块:支持识别手稿、碑铭和古地图等文档。其中针对字母文字材料,专门引入了 Transkribus 平台——历史学界公认的一流手稿识别服务平台,能显著提高识别的准确率与排版转录质量。
翻译模块:支持多种语言互译,包括古典语言与小众语言。HistAgent不仅能翻译文本的表面意思,还能结合语境优化译文,提供流畅准确的片段。
图像分析模块:支持图片反向搜索、文物识别等任务。能够为历史图像材料寻找出处、补充背景、解析含义。
音频处理模块:支持处理历史演讲和访谈记录等音频材料。
视频分析模块:支持处理各类影像视频材料,能从中抽帧、分析场景、辅助理解历史事件。
文献搜索模块:支持解析 PDF、DOCX、XLSX、PPTX 等多种格式,便于处理研究资料。
文件处理模块:支持PDF、DOCX、XLSX、PPTX等文档解析,方便处理多格式的历史材料和研究文件。
这一切的背后,离不开一个中央调度模块(Manager Agent)的有机协调:
HistAgent会根据任务需求,智能判断调用子模块的范围和顺序、并整合多模态结果,从而最终输出符合历史学科规范的完整回答。
当需要OCR时,就会调用OCR Agent,当需要查论文时,就会调用文献搜索Agent,当需要多语言处理时,就会调用翻译Agent。
正如一场舞台剧,多个「演员」各司其职,共同完成复杂的历史研究任务。
为了全面评估 HistAgent 的能力,团队设计了一轮系统测试,选用了三个评测集,涵盖不同类型的任务:HistBench、HLE 历史子集,以及GAIA通用任务。这三个评测集共同构成了对历史推理能力和通用任务适应能力的全方位检验。
实验结果显示,HistAgent在各项测试中均表现出显著优势。
在HistBench上,GPT-4o(带网络搜索)的准确率为18.60%,而HistAgent pass@2达到了36.47%,提升幅度接近一倍。
在HLE历史子集中,HistAgent的pass@1为28.57%,远高于GPT-4o(8.9%)和ODR-smolagents(17.9%);pass@3更是达到42.86%
即便在GAIA这类综合性多模态任务上,HistAgent也保持了60.00%的pass@1成绩,超过baseline模型ODR-smolagents 5个百分点,展现出良好的通用性。
这些结果表明,HistAgent能够有效处理复杂的历史任务,同时具备一定的通用任务能力,验证了其作为多模态历史推理助手的适用性和优势。
HistBench和HistAgent的发布,是AI历史推理领域的重要突破。
它们不仅为AI处理复杂历史问题提供了系统性基准与工具框架,也为评估和提升AI在人文学科中的能力开辟了新路径。
HistBench与HistAgent的发布只是起点,团队计划将继续扩展题库,吸纳更多来自全球史学专家的真实研究问题,并根据用户反馈和研究需求,不断升级HistAgent的各模块能力。
研究人员的目标是打造一个始终与史学前沿并行进化的AI助手,让它真正成为历史学家可信赖的研究伙伴。
AI是否能真正成为历史学家?
至少在今天,还远未达到这种程度。但通过HistBench的测试与HistAgent的尝试,至少拥有了一把探索历史的新钥匙,不仅是AI技术的发展,更是一次AI与人文学科共塑认知边界的尝试。
这只是一个开始,AI与历史的故事,仍在继续。
HistBench和HistAgent的意义绝不仅是提供一个正确的回答本身,而是回应了科技与人文的关系这一宏大而深远的议题,勾勒出了AI如何走入和参与人类的文明记忆构建的无限可能。
http://arxiv.org/abs/2505.20246
本文来自微信公众号“新智元”,作者:LRST,36氪经授权发布。