从历史研究的角度看,在ChatGPT兴起阶段,历史学面对人工智能,其实是一个二选一的局面。历史学者通过观察大语言模型对历史研究的有效性,能够自主选择是否在自己的研究中引入AI工具,尚有一定的选择主导权。而在DeepSeek之后,历史学者几乎是不可避免地要拥抱人工智能了。一些视频号教程甚至宣称用人工智能可在两小时之内完成一篇学术论文,难免让历史学者对AI产生焦虑。
历史学者的焦虑不难理解。生成式人工智能的文本生成能力,尤其是在中文方面的表现,甚至可以用令人惊艳来形容。之前的ChatGPT只是有一种若隐若现的“AI味”,而以DeepSeek为代表的大语言模型,则已经具有“个性化”的语言张力。这意味着,历史学者如果有这样一位多才多艺的学术助手,将会有一种如虎添翼的畅快感。这个“助理”知识渊博,过目不忘,反应敏捷,通晓多国语言,语言表达能力极强,思路极其条理。不难想象,人工智能作为掌握多种语言的合作者,加入历史学者的研究团队,会使跨文化议题的研究、文明互鉴的讨论更加便捷。
现实的AI压迫感更是愈发显著。大语言模型迭代的速度越来越快,在各种测评中的表现越来越优秀,接入优质大语言模型的应用越来越多,人工智能必定会深入人们的日常生活,最终直接影响历史学者的研究工作。AI随时在线的状态已经若隐若现。这个趋势让历史学者面对人工智能的挑战时,要从之前的“二选一”变成一道必答题了。
但情况并非如此简单。在大家纷纷讨论AI对历史学的冲击时,潜意识是将历史学作为一个整体来进行讨论的。这并非严谨的思考前提,历史研究存在多元面相,不仅在方法论上有定性定量之别,领域上有政治史、文化史、社会史等分野,在理论上也有年鉴学派、全球史、后现代史学等多维视角。哪怕采用最粗糙的分类方式,也有擅长考证的历史研究(所谓“事实判断”的议题),或者偏向理论分析的历史研究(所谓“价值判断”的议题)。研究层次不一样,AI的参与度也会不一样,我们对待AI接入历史研究的态度也应该不一样。
经常使用人工智能工具的学者都知道,大模型最突出的短板是存在“幻觉”现象。笔者在长期的使用经历中观察到,哪怕在提示词中严正声明要遵循学术规范,让大模型就某些问题进行学术史梳理或者研究路径的总结,生成的结果从基本事实到参考书目,经常性地会出现编造的虚假信息。当然,人工智能专家提出了用检索增强生成(RAG)来降低内容的欺骗性,但这无法从根本上解决这个问题,因为这个短板是由大模型背后的算法所决定的。大语言模型的核心算法是基于统计学的自然语言处理技术,内容生成的实质是概率算法。因此,如何在认同“幻觉”无法根除的前提下,发掘大模型的价值,才是目前史学界需要讨论的重点。
基于这样的技术背景,如果我们把大模型当作知识库,让它回答事实判断的议题,很容易出现误导性的结果,从而让大模型的价值大打折扣。换言之,如果只是希望用大模型获得一个确定性的答案,就一定会存在风险,除非有足够的背景知识进行校验或者能够对结果进行即时验证。总的来说,当前希冀用大语言模型来获得确切的知识性问答,还应谨小慎微。
熟练掌握这种基于概率的内容生成,让大模型提供“意料之外”的研究思路,具有一定的优势。因为它能够帮助学者克服思维定势,提出一些新的角度和价值判断,历史学者甚至能够在与大语言模型的多轮对话中,一起进行头脑风暴,在涉及历史评价的问题上提出新的见解。不过,即便是让人工智能参与需要想象力的价值判断的议题,也要留意算法偏见。大模型在训练的时候,基于数据集的偏向性会让大模型存在“偏差”,因此,大模型看上去有刚性的算法,但依然存在风险,会直接影响价值判断的立场。
由此可见,历史学如何应对人工智能,其实是一种动态的权衡过程。历史学者需要在坚守学术道义的前提下,尽可能发挥人工智能的正向效益。
从学术着眼,历史学者需要考虑人工智能对研究范式带来的冲击。国际上一些知名学术期刊,已经就学术研究中使用人工智能的规范提供了指南。历史学界亦需要出台类似的规范指引,让学者能够在合理合法的框架下使用人工智能,不断在历史研究的实践中划定人机协作工作模式的边界,真正做到与AI共舞,而不伤害学术的伦理。
从个体着眼,历史学者需要考虑主体性以及研究价值的问题。有关事实判断的史学研究,历史学者对大模型的使用需要谨慎。基于价值判断的研究,则可以让其奔放的“幻觉”发挥得淋漓尽致一些,当然这仍要基于合理的价值观和逻辑观进行取舍。在条件允许的情况下,对于有关价值判断的历史议题,我们甚至要尽可能使用不同的大语言模型。多角度的探索,会带来意外收获,也可以尽力消除盲区。
最后需要强调的是,人工智能再好,也不要贪图它的便捷,而放弃历史学者基本功的训练。我们永远要强调历史学者在研究工作中的主导性,这意味着历史学者要承担人工智能介入历史研究之后的守门人责任。