陈明华:数字技术与中国史研究
时至今日,数字技术已经渗透到各行各业。各类历史数据库纷至沓来,大数据、量化计算、数字人文等概念也接踵登场。对此,有人惊呼新的数字技术将导致史学研究革命性的进步,也有学者表达了审慎的怀疑。那么各种数字技术到底能否引发一场知识生产的革命?争论双方的焦点主要集中在史料收集、数据分析、历史新认知的生产三个方面。
史料收集
数字技术促进了史料数量的增加,同时也让学者感受到史料检索的便利,但是否真正提高了史料收集的效率?李剑鸣认为网络、检索等技术极大拓展了获取资料和信息的渠道,使得对资料的检索和利用大为便利。数字技术有助于挑战史料和信息的垄断,打破不同区域、单位和团体对于资源保存的壁垒。黄一农感慨借助检索技术、互联网、数据库,学者“能够在很短时间内掌握前人未曾寓目的材料”。
胡优静认为大数据时代的各项数字资源反而令“穷尽”史料变得困难。数据库虽然可以提供唾手可得的材料,但资源分布的零散、史料语言的多样化以及数字资源的互不连通,反而增加了研究者处理数据的时间。此外,不同数据库存在大量重复资源、人工筛选大量检索结果中的重复条目亦大大增加了研究者的工作量。包伟民从检索字串不易确定和有效检索结果的甄别角度提示劳动量的耗费。
王晓光提出在元数据、关联数据、知识图谱等数字技术支持下,计算机可以对史料进行“快读”。如中国历代人物传记资料库(CBDB)中收录了超过42万条人物传记资料,研究者可以通过检索迅速获取相关人物资料。清华大学统计研究中心团队利用数据科学方法,可以在不到1分钟的时间内,对《红楼梦》中730多个称谓进行词频排列。
不过,包伟民对计算机的“快读”所能达到的效果心存疑虑。他认为计算机目前的“阅读”水平仅限于提取“标准化”文本,通过将数据信息与检索字串一一机械对应,提取文字表面信息。但历史文本(尤其是中国古代历史文本)往往是“非标准化”的描述性文字,许多“言外之意”“弦外之音”并不体现在文字上。除了一物多名、文字字面含义与史实错位外,书写者往往会采用简称、隐语、借代、反语等修辞手法,这就使得实际含义往往与字面意思相隔十万八千里。如果仅仅按照字面意思提取数据,往往会遗漏许多信息。
成一农认为,随着数字技术的进步,计算机阅读非标准化文本存在的困难可以得到解决。AI技术和量子计算技术使计算机的学习能力得到极大提高,智能计算机不仅能够识读古汉语等“非标准化文本”,还可以意会那些文字没有表述的言外之意和挖掘多维度史料,甚至还可以进行史料考订工作。
数据分析
对于数字工具能否更好地处理大规模史料,学者们见仁见智,将其分成三个子目:第一,数字工具能否更好分析大批量史料。梁晨等学者认为在数据库基础上采用量化工具,“对分析大规模的系统性、连续性历史材料非常有效”。大数据库拥有的超大数据,“通常涵盖某一范围内所有参与者的情况”,而“量化方式又能系统、细致地研究或描述不同规模群体的多种信息”。
包伟民却认为数字工具存在方法上的缺陷。一方面,CBDB等关系型数据库,在将“非标准化”的历史文献转化为可供统计的量化数据时,“难免会筛选、过滤历史信息”,从而造成信息的衰减。另一方面,采用量化分析方法的学者一般以“正相关”“负相关”和“不相关”三种方式表达各种变量间的逻辑关系。但这种非此即彼的统计归类,将原本丰富多彩的社会活动简单转化成是与否、0与1,将历史简单化,反而背离了史实。
第二,数字工具是否更容易避免选择性使用材料。林展指出,史家采用抽样举例来描述一个时代普遍性问题,存在方法论上的缺陷。即样本的抽取不是随机的,由这些样本代表总体特征的做法存在所谓“选择性偏差”。梁晨等学者认为借助大数据的数据挖掘技术可以较好地综合各方材料,避免此类问题。郭辉也认为传统史学研究的采样方法,由于数据量少,容易造成数据失真,而大数据则可减少此类问题。
包伟民的看法恰恰相反,他认为在“传统”的以全文阅读为基础的研究中,成熟的学者往往可以通过对不同案例的全面考量,判断其典型性,然后举以为例。这一过程尽管看似主观,事实上可能更接近史实。而根据这些记载建立起来的数据库,在将复杂、立体的描述性文本转化成平面的数据时,抹杀了它们之间的差异性,其结果能在多大程度上反映历史现象的普遍性令人怀疑。
第三,数字工具的分析是否更具科学性。数字人文学者强调数据挖掘工具更能保证研究的“客观性”“科学性”。梁晨等人声称,以大数据为基础的定量方法可以克服研究的主观性,定量计算“不依赖任何单个或正反方事件参与者的叙述”,“避免了表达上的主观与刻意”,同时也“避免研究者基于自身认知或经验所形成的预设观点对研究结论的影响”,从而使得出的结论或规律性现象更为可靠。
不过这种“科学性”在一些学者看来似乎只是一种美好的愿景。采用数据挖掘工具“必须依托于统一的制度性定义或标准化结构的信息材料”,但历史材料的丰富性、多样性和复杂性使其无法直接用于统计分析。因此在数据统计之前,研究者先要设定统计范围、分类、关联等标准,将复杂多样的史料转换成有统一标准的数据。可见这些标准的设定往往受到研究者主观经验和思路的影响。在成一农看来,借用量化分析、大数据、图像化等手段只是让考据和论证显得更具说服力,但“具有说服力”并不等于“史实”。
历史新认知的生产
评判历史研究有无突破的一个重要指标是能否生产新的历史认识,其中包括从历史材料中发现新的关联、模式、趋势以及形成新的解释框架等内容。一些数字人文的拥趸坚信数字技术能在这方面取得显著成效。梁晨和李中清声称数据挖掘工具能在大规模数据中探索、研究出其中隐藏的特殊关联性或规律性,“这种大数据计算和统计性规律的发现,通常是传统的仅靠人工检阅史料的方法无法实现的”。徐力恒和陈静称赞数字人文技术可以“同时比对上千条数据,辨识其中模式”,这是学者依靠人力无法做到的。彭凯翔则把发现或检验某些趋势、某些关系,从而使学者从更高维度、以更贯通的方式解释信息,看作数字人文最具革命性的一面。
获得规律性、贯通性的解释似乎是不少数字人文爱好者的情怀所在。林展在强调量化数据库模式的优越性时,特别强调其“有助于形成贯通性的认识”。王开队的徽州研究团队试图借助数字人文技术,避免区域研究中的“碎片式”研究,建立中观、宏观综合性研究。
但不少历史学者对于数字技术是否能够发现可靠的历史新知持怀疑态度。张仲民认为借助数据库统计得出的种种判断看似“科学”“准确”,实则较实际历史相去甚远。他借计量史学大家罗伯特·福格尔之口,表达了用数字工具进行历史探究的局限性。数据库基础上的计量方法可能只适合经济史和人口史等专门领域,那些难以用精确数字计量的心态、观念、文化等领域的问题,如果“企图用数据多少或出现频率来揭示,不但存在极大的难度,更存在致命的缺陷”。
梁晨也意识到数据库与定量分析的局限,这些工具仅能够发现很多有趣现象,但自身并不能合理解释这些现象。现象背后的原因依然有赖于学者对当时政治、经济、社会等重大问题的思考。
作为最早一批尝试信息技术的历史学者、国内知名历史研究网站“象牙塔网”创办者陈爽,经过十几年的实践后,明确表示各种采用新技术的研究并没有带来终极意义上的学术思维革命,也没有突破“前辈学者经典学说的理论框架”,学者所做的更多只是在修正、完善和细化原有的论题。赵思渊也认为数字人文研究的多数个案牵涉的“核心议题、提问仍然来自历史学的传统话题”,“甚至研究方法也未必超出原本以量化或结构化方法处理史料的方法论”。
来源:中国社会科学网
作者:陈明华 杭州师范大学人文学院