加强人文社科数据资源建设与管理

09.07.2018  07:45

近年来,全球范围内掀起一场新的数字革命,人类步入大数据时代。数据正在成为人类社会最重要的资源和资产。大数据给人类社会的各个方面都带来了巨大变化,特别是在科研领域,大数据及其分析工具正在成为人类认识世界和改造世界的重要手段。然而,与自然科学领域相比,人文社科领域对数据资源的使用相对滞后。此前的社会科学研究虽然使用数据,但多数都是小规模抽样数据,而非海量或全量数据。随着社会数字化转型不断深入,数据资源在人文社科研究中的地位不断提升,人文社科研究范式和研究问题发生变革。如何加强人文社科数据资源建设与规范管理,以适应科研数字化转型这一趋势,成为当下值得研究并解决的一大问题。

人文社科数据资源建设勃然兴起

与文献信息一样,数据也是学术研究的基础性资源。2009年以来,我国人文社科领域数据资源建设开始加速。人文社科类基金资助的数据资源建设类科研项目也开始直线增长。统计显示,党的十八大以来,与数据资源建设相关的国家社科基金重点和重大项目数量有了显著增长。2017年,国家社科基金重大招标项目中,与数据资源建设有关的,数量更是可观。这些项目主要集中在语言学、历史学、文学、图书情报学等学科,从地域看,主要集中于北京、上海、广东、江苏、浙江等地区。近两年,在专题数据资源快速增长的同时,国内实力领先的研究型高校也纷纷开始建设人文社科数据中心或数据平台,以支撑人文社科研究范式的创新与转型,如清华大学中国经济社会数据中心、北京大学开放研究数据平台、复旦大学社会科学数据平台等。

蓬勃发展的人文社科数据资源建设,昭示着我国人文社科领域的基础研究环境和组织架构都在向数字化方向转型,数据驱动的研究范式正在人文社科领域悄然兴起。伴随此范式的兴起,人文社科领域的开放思维、计算思维、量化思维、协同思维也更加受到学者重视,由此推动了文学领域的大尺度宏观研究、历史领域的长程量化研究、艺术领域的视觉计算研究、文化领域的时空可视化研究等的出现。这些新兴的研究课题都离不开强大的专题数据库和计算平台作保障。人文社科领域的可计算数据资源正伴随数字人文和计算社会科学的发展而发挥着越来越大的学术价值。

诸多不足制约人文社科数据资源建设

数据库建设过程不规范,系统平台可用性不强。目前,很多人文社科数据资源建设都由重大科研项目驱动,有一定的项目实施周期。在现有学术评价体系下,传统的印刷出版物,如专著和论文,是科研成果的首选形式,所以在项目实施过程中,学术研究是核心,这就导致项目团队以项目结题为目标,不太重视数据库建设的规范性和长期性。很多数据库系统选型落后,数据服务平台功能单一,检索效率低下,不支持机器读取和原始下载,系统平台整体上可用性较差,难以满足项目之外用户的实用性需求。

数据资源质量控制不严格,内容可信性较弱。与自然科学类数据相比,人文社科类数据的生命周期较长,史料价值突出,后世使用概率高,所以质量要求更高。然而,由于人文社科领域数据来源广泛,既包括互联网上的用户行为数据,又包括结构化行业统计数据,还有从传统书报刊中抽取的非结构化文本片段,数据模型的差异极大。在数据库设计过程中,由于懂专业领域又懂数据库设计的复合型人才稀少,很多专题数据库的结构设计相当随意,结构十分不规范,常常不合乎数据库设计范式要求。在数据库内容采集过程中,往往也缺少质量控制标准和规范,导致数据内容的可信性与可靠性得不到保障。

数据发布标准不统一,流通共享成本高。数据的自由流通和共建共享是发挥数据资源价值的关键。目前,人文社科数据资源主要由各领域的学术机构自主分散建设,缺乏像图书馆联盟一样的第三方机构进行技术协调。建成以后的数据库在互联网上也是自由发布,标准不一,普遍缺乏便于机器读取和交互操作的数据接口。用户无法查看其详细的数据结构,更无法通过关联数据的方式相互共享链接,由此导致数据难以跨域流通和自动汇聚,语义数据网络也无法通过自动勾连的方式构建和使用。

关键数据资源缺乏界定,数据主权难有保障。随着大数据、物联网和数字中国建设的推进,人文社科领域的数据资源将逐渐从调查获取和人为发布向感知获取与自动发布转换,例如社交媒体数据、金融系统数据、用户隐私数据、商品流通数据等都可以借助网络媒体系统、电子政务系统、电子商务系统,以及日益强大的智慧城市基础运营设施自动获取。这些数据资源中有些属于“关键数据资源”,不仅涉及个人隐私,对于国家数据主权和国家总体安全也有潜在影响,不能随意流通和跨境传输。目前,人文社科领域还没有针对“关键数据资源”的清晰定义,但其潜在安全问题正随着数据资源的快速增长而浮现,有必要未雨绸缪、厘清概念。

提升人文社科数据资源管理规范性的对策建议

发布数据资源建设规范,指导数据资源建设过程。数据资源建设类似于软件开发,过程控制是关键。有必要研究并发布人文社科数据资源建设规范,包括数据资源分类与格式规范、数据资源建设机构资质要求、数据库系统选型要求、内容维护规范和网络发布标准等内容,对人文社科各领域专题数据库和数据平台建设进行全流程指导。

建立数据资源评估标准,保障数据内容质量。对不同领域和不同类型的数据资源制定详细的评估标准,核心是质量评估和价值评估。对不同形式的数据资源进行专家与机器相结合的、传统科学计量与新兴网络计量相结合的评估。将评估结果作为各类数据资源建设项目资助、实施和验收的必要条件,保障人文社科数据资源高质量建设与运营。

探索数据资源长效维护机制,实现数据服务可持续发展。鉴于数据资源运营的高成本特征,有必要探索建立学术机构与出版机构、图书馆机构、数据服务公司联合运营与维护的长效合作机制,通过政府资助、商业销售、托管服务等多种手段实现人文社科数据资源的可持续发展与运营,避免数据资源因为有建设、无服务而“昙花一现”。

建立数据资源管理联盟,促进数据资源开放共享。参照中国高等教育文献保障系统(CALIS),建立数据资源管理联盟。以“智慧数据”的理念,开展数据模型技术研究、数据模型技术应用宣传和培训。鼓励数据资源建设主体利用开放关联数据、知识图谱、简单知识组织系统等新兴语义技术和标准进行数据资源的语义化和关联化发布,整体上提升人文社科数据资源的智慧层次和开放共享水平。

设立数据资源建设专项基金,加大数据资源资助力度。设立国家级、省部级的人文社科数据资源建设专项基金,通过稳定的项目资金支持,提高人文社科数据资源供给水平。在政府相关部门设立专门的全国高校数据资源管理办公室,统筹管理人文社科数据资源建设。

建立数据汇交制度,构建全国统一的人文社科数据资源门户。将公开发布的数据库视为一种正式出版物,建立数据汇交制度和全国统一的人文社科数据资源门户,定期采集各数据库目录数据或原始数据,并进行评估和长期保存。开展数据资源和数据分析工具的应用培训和宣传,推动人文社科领域数据驱动的研究范式发展。

建立“关键数据资源”管控机制,提高数据主权意识。参照出版领域的重大选题审批制度,对有重大社会影响的“关键数据资源”,如哲学、政治、经济、历史、法律等领域的特定主题数据建立分类、公示、审批与审读制度。对“关键数据资源”的流通实施白名单管理,严格控制“关键数据资源”的跨境流通,保障我国的数据主权安全。

作者:王晓光

来源:《光明日报