施艳萍:人文社科专题数据库关联数据模型的构建与应用研究论文

施艳萍:人文社科专题数据库关联数据模型的构建与应用研究论文

·专 题·

摘 要:[目的/意义]当前人文社科专题数据库之间存在资源分散独立、难以互操作的问题,关联数据模型的提出能够建立人文社科专题数据库之间的联系,深度揭示资源实体的语义关系,促进互操作。[方法/过程]构建了面向人文社科专题数据库的关联数据模型,模型包括数据采集层、资源描述层、本体构建层、关联数据层以及综合应用层,并以相关文献数据平台为实例对该模型进行了实证分析。[结果/结论]关联数据模型是人文社科专题数据库建设规范化管理的重要内容,人文社科专题数据库关联数据模型的实践与应用可有效推进相关资源整合、数据共享等工作的展开。

关键词:人文社科;专题数据库;关联数据模型;元数据规范;本体

专题数据库是面向特定主题的数据资源集成平台,具有类型多样、专业性强、内容专深的特点。在人文社科领域,专题数据库是人文社会科学数据资源开发与利用的创新手段和重要途径,在学术资料提供、战略决策支持、传统文化传承等方面发挥着重要作用。然而,由于建库导向的差异,目前各级各类人文社科专题数据库建设彼此之间相互割裂,形成了一个个知识孤岛。一方面,现有的专题数据库种类繁多,各类建库主体彼此从各自的情况和需要出发构建了内部的数据模型和服务架构,缺乏统一公认的规范标准体系;另一方面,专题数据库本身作为一种系统性、“标识性”的数据资源集成,其数据资源量多庞杂、异质多元。因此,以传统方式来进行数据和信息组织并不能解释资源之间的内在逻辑关系,无法形成语义上的勾连,也不便于服务端用户的检索利用。

随着开放科学、协同创新等理念的兴起,传统的以机构、资源为导向的专题数据库建设方式已经不能满足社会对资源共享互通的需求,特别是在大数据、智慧数据等理念的影响下,人文社科专题数据库亟需序化组织建设,以规避信息迷航等问题。关联数据作为数据库序化建设的基本技术,能够有效进行信息组织,促进数据的关联共享。为此,需要应用关联数据及其相关技术将不同领域、不同类型的专题数据库关联起来,推动其整合复用,实现知识的共享共建。具体来说,就是通过构建人文社科专题数据库关联数据模型,整合碎片化信息资源,揭示资源实体的语义特征,建立资源间的深度互联,提高信息资源的利用、共享和管理效率。有鉴于此,本文拟构建面向人文社科专题数据库的关联数据模型并对其进行实证,以期为人文社科专题数据库的关联数据实践提供示范参考。

1 相关文献综述

数据资源作为专题数据库建设的基石,其组织聚合至关重要,在这一过程中关联数据及其相关技术发挥着重要作用。关联数据由语义网的创始人Berners-Lee T于2006年首次提出,是一种在语义网上发布、共享和联接各类型数据资源的方式[1]。经过十余年的发展,关联数据已有较高的接受度与使用率,应用领域也在不断扩大,相关研究从概念探讨、技术介绍发展到实践应用层面。

在关联数据技术介绍层面,沈志宏等在Berners-Lee T制定的关于内容描述的关联数据发布的“四大基本原则”的基础上,提出了关联数据技术体系,包括关联数据的数据内容与组织技术、创建与发布技术、浏览与检索技术、互联与维护技术[2],该技术体系揭示了关联数据技术的中心工作为生产数据和消费数据。其中,关联数据的创建与发布技术、浏览与检索技术可视为核心,主要包含关联数据互联技术、发布技术、可视化技术与自动化问答技术。研究者们在介绍关联数据技术的同时,尝试将这些技术融入相关数据资源、数据库的建设之中,如沈志宏等指出,关联数据互联技术的基石是HTTP与RDF,瑞典联合目录(LIBRIS)作为全球第一个关联数据化的联合目录,可被视为图书馆界关联数据互联的示范应用[3]。夏翠娟等介绍了关联数据发布技术的支撑平台Drupal,并通过该平台将“中国历史纪年和公元纪年对照表”发布为关联数据[4]。欧石燕等提出了一种面向图书馆关联数据的自动问答新技术[5]。陈涛等以家谱知识库为例,列举了一些适用于关联数据系统中不同形式数据资源的可视化技术和实现方法,如通过JSON数据格式进行可视化等[6]。

在关联数据实践应用层面,小范围且较为表层的数据关联实现依然是主流。研究者们主要以案例分析的方法展开相关研究,如大多基于关联数据的基本规则,提出特定类型资源的关联数据模型,或通过使用D2R、Drupal等知识组织平台构建并发布特定领域数据库/知识库资源的关联数据集。如刘美杏等构建了古道线性文化遗产的关联数据模型[7];张乐等以民国建筑知识库为例,设计了相关关联数据本体,并通过Drupal平台实现了民国建筑关联数据的发布[8];董坤等构建了MOOC资源本体描述模型,并借助D2RQ关联数据发布平台实现了MOOC资源主体及其之间关联关系的语义化揭示[9];上海图书馆则发布了家谱关联数据集[10]等等。以上研究中涉及资源所属范围或领域有一定程度的狭隘性,且这些关联数据并没有直接的联系,处于分散独立状态。

(6)可扩展性原则。运营在线监测分析系统应采用柔性设计,具有良好的可扩展性,具备业务处理的灵活配置能力,能够随着运营在线监测分析业务需求变化进行灵活调整与扩展,切实保障系统的科学性和有效性。

综上所述,现有文献的关注点聚焦于关联数据技术的开发与应用,但是研究止步于对特定领域、特定资源类型关联数据的探索,而鲜有面向整个人文社科领域的专题数据库关联数据的研究。作为知识资源的集散地,人文社科专题数据库数据资源具有多种类、高价值的特征,然而目前人文社科专题数据库内的资源趋于分散、断面,数据资源的关联数据也联系薄弱,同时库与库之间也是相互孤立的。此外,随着数字人文、社会计算等领域的发展,数据资源在人文社科研究中的地位不断提升,人文社科的研究范式和研究问题发生变革,科研工作者等主体对跨领域数据的需求增加,因而人文社科专题数据库建设也应该以相关主体对数据资源的融合需求为导向,与时俱进。

有鉴于此,进一步挖掘与关联人文社科专题数据库数据资源,构建面向人文社科专题数据库的关联数据模型具有重要价值。在此背景下,如何打破各人文社科专题数据库孤立、异构且只将重点放在本库数据关联组织的局面,实现专题数据库之间、专题数据库与外部资源的互联互通,成为一个值得关注的议题。

国内的发动机整机厂多数还是以传统的分装形式完成飞轮齿圈的压装,再以飞轮组件的形式送到整机装配线完成发动机的组装。如潍柴发动机装配线,其总装线旁边还设立飞轮部件的分装预装线,承担飞轮部件上线前的预装任务。

2 人文社科专题数据库关联数据模型框架

目前,人文社科专题数据库数量众多,政府部门、高校、研究机构、企业单位、非政府组织(NGO)以及非营利组织(NPO)等不同主体在不同的需求导向下纷纷建立了各种专题网站和数据库平台。然而,不同领域、不同类型的专题数据库的数据资源之间缺乏统一的描述与组织方法,整体之间缺乏知识的关联和流动,因此亟需建立一种通用的、与领域无关的关联数据框架,链接单库或多库的数据资源。

由于本体构建和关联数据是知识组织过程的关键环节,所以本体构建层和关联数据层可视为人文社科专题数据库关联数据模型的核心。

2)资源描述层,基于数据采集层采集并清洗的数据,选用合适的元数据规范描述各类资源实体的属性特征,并借助资源描述框架(RDF)工具呈现资源实体的语义内容;

1)数据采集层,主要工作为专题数据库基本数据资源实体及其属性的采集与清洗;

采样点的布置根据不同的工作比例尺,遵循相应的化探规范,要求每个采样点应最大限度地控制上游汇水域。在面积较小的残山区选择在残山脚部低洼处布置采样点,布置1~2个点能有效控制残山面积即可。在这样的景观区由于受残山的面积大小和密集程度的制约,因此采样点布设不遵循“均匀性和不能连续出现3个空白小格”的原则。

3)本体构建层,在元数据语义描述的基础上,选择适用的本体构建方法构建目标资源本体,以实现各类元数据的语义互操作;

5)综合应用层,主要工作为发布关联数据并为用户提供浏览、检索、共享等服务。

夏季外界炎热潮湿,很容易导致牛出现热应激,养殖户应该高度重视夏季牛热应激防护,采取综合防控措施,有效降低牛体表温度,控制养殖环境,降低不良因素对牛身体造成的刺激,提高养殖效益。

1)创建统一资源标识符(URI),即给予每个资源实体一个永久的标识符,使之得以被区别和精确检索;

一是围绕人工草地建设防护林带。在人工草地周围,在主风方向,选取与其垂直角度,规划3行杨树,2行白刺,行距为1.5~2m,株距为2.5~3m,白刺在外围,杨树在内围,以白刺来缓冲大风,以杨树来减挡大风。在测风方向,建设2行杨树,2行白刺,其组合或在外围,或在内围均可。形成全方位立体防风屏障。从而达到调节环境气候,提高草田温度,促进牧草生长的目的。二是围绕人工草地建设防洪坝。在人工草地来水方向,结合天然草地生产,建设防抵季节性高山冰雪消融洪水拦截坝,有计划进行分流,灌溉草场,改良土壤,努力变害为利。通过工程实施建设,建立人工草地安全生产秩序。

第二,语言文字工作模式研究,有利于处理好规范化成果的纵向、横向应用问题。纵向是语言本体的应用,比如对内、对外汉语教学中的应用;横向是其他领域的应用,主要包括生活性服务、生产性服务领域的应用。有利于科学认识语言文字工作在国家整体发展中的定位。

以抗日战争与近代中日关系文献数据平台(以下简称案例平台)为参照实例对上述模型进行实证,验证该模型的可行性。该案例平台是一个对外开放使用的专题数据库,拥有文献、图片、音频等多类型资源,便于关联数据的构建。

图1 人文社科专题数据库关联数据模型

3 数据采集层

如图1,数据采集层为构建人文社科专题数据库关联数据模型奠定了基础,成为推进人文社科专题数据库资源组织与利用的源动力。在数据采集时,在保证常见的数据资源实体及其基本属性数据获取的同时,需要兼顾到人文社科专题数据库资源异构多元的特征,以便在基本人文社科专题数据库资源架构的基础上,扩充领域特色资源实体及其属性数据,为后续的特色化关联数据构建提供数据支撑。数据采集完成以后,还需要进行数据清洗、数据分类、数据整合等数据处理步骤,为之后的元数据描述以及最终的关联数据发布做基本数据准备。表1为案例平台资源实体类型及其属性特征,关联数据模型中其他环节工作的展开均依托于该表揭示的内容。

表1 案例平台资源实体类型及其属性特征

实体类型实体属性档 案题名、关键词、馆藏地、主要责任者、案卷摘要、起讫时间、数量、语种、出版时间图 书题名、关键词、主要责任者、次要责任者、出版者、出版地、出版时间、版本、页数、目录、语种报 纸题名、主要责任者、出版者、出版地、出版时间、语种期 刊题名、主要责任者、出版者、出版周期、出版地、页数、目录、语种、出版时间红色文献题名、关键词、主要责任者、次要责任者、出版者、出版地、出版时间、版本、页数、目录、语种视 频—音 频题名、关键词、主要责任者、次要责任者、出版者、出版地、资源创作时间、资源发布时间、时长、格式、内容简述、目录、语种图 片题名、关键词、主要责任者、出版时间、数量、时间范围、附注项舆 图—研究性论著题名、关键词、主要责任者、次要责任者、出版者、出版地、出版时间、版本、页数、目录、语种

注:案例平台中虽有视频与舆图类目,但还未上载相关内容,所以二者的属性特征未知。

4 资源描述层

资源描述层即元数据描述层,该层基于数据采集层中整合的资源实体属性,通过运用特定的元数据规范并结合RDF工具,来描述数据采集层中整合的资源实体,从而揭示其结构特征和内容特征,以便识别、追踪、评价目标数据资源,并达成高效管理的目的。

糖尿病属于基础性代谢型疾病,主要是由于体内的胰岛素分泌失调或者是胰岛素效果不理想造成血糖升高等情况[1]。现阶段,临床关于糖尿病的发病原因尚不十分明确,大致认为和外部环境和遗传因素有密切关系。该文2017年1月—2018年5月间以60例糖尿病患者展开研究,探讨给予二甲双弧结合阿卡波糖治疗的临床效果,报道如下。

同样以第4节中案例平台中的音频资源——《志愿军在友邦》为例,按照以上步骤构建其相关本体语义关联数据。首先,创建资源实体的URI,通用结构为域名+实体类型+实体序号。平台网址http://www.modernhistory.org.cn可以直接被确定为案例平台资源管理的网址,即URI中的域名部分;资源实体类型包括文档(Document)、图片(Image)、音频(Audio)和视频(Video)4种类型。因此,案例音频资源的URI便可假定为http://www.modernhistory.org.cn/Audio/20191105。其次,参考图2中的元数据描述框架以及图3的核心元数据本体,构建该音频资源本体间的语义关联框架,具体内容参见图4。

为了能够对不同领域、不同类型、不同形式、不同时期的数据资源进行充分描述和处理,来自不同领域的专业人员研究并制定了应用于特定领域或特定场合的元数据规范。如表2所示,不同类型资源适用的元数据规范不同。通过阅读和总结国内外研究,筛选出表2中目前在国内外应用较为广泛、较有影响力的8种元数据规范,分别为DC(都柏林核心元数据)、MARC(机读编目格式标准)、VRA(视觉资料核心类目)、CDWA(艺术作品)、EAD(编码档案描述)、FGDC(地理空间元数据内容标准)、GILS(政府信息定位服务)以及TEI(电子文本编码与交换)[11],不同的元数据规范中有数量不等的描述元素以揭示资源实体的属性。

表2 不同资源类型适用的元数据规范

资源类型/应用领域元数据规范网络资源DC、IAFA Template、CDF、Web Collections文献资料MARC、DC人文科学TEI Header社会科学数据集ICPSR SGML Codebook博物馆与艺术作品CIMI、CDWA、RLG REACHElement Set、VRA Core政府信息GILS地理空间信息FGDC/CSDGM数字图像MOA2 Metadata、CDL Metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG TechnicalMetadata for Images档案库与资源集合EAD技术报告RFC 1807连续图像MPEG-7

以案例平台中的音频资源为例,使用XML语言结合RDF工具定义的通用三元组(资源—属性—属性值)对其属性以及对应的属性值进行描述,运行结果如图2所示。使用简明、可扩展的DC元数据规范(即Dublin Core,是目前全球应用最广泛、频繁的一种元数据标准)即可较为清晰完整地描述该音频资源的各项属性特征。

然而,人文社科专题数据库内的资源类型繁多、内容属性复杂,同时一种元数据规范中的元素可能不能详尽描述一种资源实体的全部属性,即元数据规范不可直接全盘复用,需要重新定义元素以描述最初选择的元数据规范不可直接描述的属性,因而面向人文社科专题数据库资源的元数据语义化描述工作需要严格依照以下流程:

ZHAN Qian, HUANG Ting, WANG Tie-gong, PENG Wen-jia, CHEN Lu-guang, SHAO Cheng-wei

1)确定关系,即明确资源实体内容及其属性特征;

2)选择规范,即根据资源实体内容及其属性特征,选择适用的元数据规范;

图2 案例平台音频资源的DC元数据描述

3)基本描述,即使用已选元数据规范内的基本元素对资源实体基本属性进行描述;

4)完善描述,即复用其他元数据规范元素或重新定义元素,以描述已选元数据规范不可描述的实体属性,完善语义描述;

5)检查核验,即检查在上述描述过程中是否有属性遗漏未描述,同时核验描述语句是否有误,若有误,则进一步修正完善。

综上,同一人文社科专题数据库内一般采用多种元数据规范,且不同人文社科专题数据库应用的元数据规范更是大相径庭,造成这些元数据规范即便拥有相同的核心元素,也无法完全兼容。此外,元数据规范是人为设计的,元素的语义内涵缺乏统一明确的标准,对其理解往往因人而异,所以即使依托计算机的强大功能也无法对元数据进行直接处理。因此,使用元数据规范进行资源描述虽然建立了人文社科专题数据库的语义基础,但却无从解决资源描述的异构性与语义性的问题[12]。

5 本体构建层与关联数据层

基于此,本研究拟构建一个面向人文社科专题数据库的关联数据模型,该模型以元数据为基础,对采集到的数据资源进行语义化描述,而后采用本体、关联数据技术进行知识组织,以实现多源异构数据之间的共享互联。如图1所示,该关联数据模型共有5个层次,分别为:

5.1 本体构建层

所谓本体,即关于共享概念模型的明确、形式化的规范说明[13],此概念模型可理解为概念与概念之间的关系。本体构建层便是弥补上述元数据描述局限性的关键环节,该层基于元数据语义描述,主要任务是设计一种机制以实现不同元数据间的语义互操作。目前主流的本体构建方法有二:一为多本体模式,一为混合型模式。前者的主要步骤为采用本体描述语言(一般为OWL语言)对每种元数据规范进行本体化描述,且以构建的元数据本体为基础,将目标元数据转变为RDF形式,而后基于不同元数据本体之间的映射关系实现不同语义的RDF元数据之间的语义互操作。使用后者构建本体,首先需要整合不同元数据规范中的概念和属性;继而采用本体描述语言构建相应的集成元数据本体,最后转化成统一的具有相同语义的RDF形式,实现不同类型元数据的语义转化[14]。二者的主要区别为构建过程中使用的元数据规范是相互独立或相互融合的。这两种方法各有利弊,前者的灵活性较强,语义互操作则较为复杂;而后者的语义互操作相对简单,但灵活性较差。

考虑到人文社科专题数据库内的资源类型多样、体系庞杂的特征以及本体建设对易用性、通用性的基本要求,本研究选取多本体模式来构建一个各领域通用的、集成的核心元数据本体。由于DC元数据是资源描述的通用元数据规范,能够比较全面地揭示数字资源的主要属性特征,且应用广泛,因此本核心元数据本体构建拟采用以DC元数据为主的元数据规范,DC元数据具有15个核心元素,可表示为“DCTERMS:元素名称”的形式,并辅以FOAF等其他元数据本体。各领域、各类型人文社科专题数据库一般拥有文档、图片、音频和视频4种组织形式的资源,因而在该核心元数据本体中,按照组织形式将数据资源分为文档(Document)、图片(Image)、音频(Audio)和视频(Video)4种类型。文档(Document)部分拟整合复用欧石燕构建的数字图书馆文献资源核心元数据本体[14]。一方面,现有领域本体较为成熟,可以提高语义的精确性;另一方面,复用已有领域本体可以在一定程度上降低人文社科专题数据库资源本体的构建难度,支撑之后的关联数据构建。对于人文社科专题数据库资源涉及人员信息,本研究选择复用现有本体FOAF中的Agent类及其相关属性进行描述,主要属性有Name、Title、Gender等。因此,人文社科专题数据库核心元数据本体中相关类和属性如图3所示。

注:Humanities and Social Sciences thematic database缩写为HSSTD。
图3 人文社科专题数据库核心元数据本体模型

5.2 关联数据层

关联数据层的主要目标是构建相关资源的关联数据框架,在元数据语义描述和本体构建环节初步实现人文社科专题数据库资源语义层面上的描述和关联关系的揭示的基础上,更进一步地揭示不同资源间的隐性语义关系,使得表面、单一、薄弱、狭窄的关联关系能够得到深化完善。因此,本层将以关联数据形式将RDF语义元数据进行相互关联,揭示不同资源间隐含的关系,使资源之间能通过RDF链接进行相互访问,将人文社科专题数据库繁杂的资源集成一个相互关联的有机聚合网络,以促进资源的共享共建。

微生物法是利用一些微生物如真菌、细菌等在发酵过程中产生的酶选择性地分解植物组织中的复合多糖体,从而使果胶得以溶出(剩出)。提取液中果皮不破碎,也不需要热、酸处理;提取完全,容易分离,且果胶分子量大,胶凝度高,质量稳定。但筛选出合适的微生物是其要解决的关键问题[21]。

构建关联数据的基本步骤如下:

4)关联数据层,本层将根据关联数据的标准对上述元数据本体进行关联,形成一个资源聚合网络,以揭示资源实体间的隐性关系;

2)资源实体RDF化,即以RDF的格式去描述各个实体,从而为关联数据的发布奠定基础;

3)资源实体关联化,即使用RDFlink来描述各个实体之间的深层关系,这也是数据如何进行关联的依据。

二是加强社区文明建设。制定社区居民公约,重塑乡村社会规范,扎实开展社会主义核心价值观、宿迁文明20条宣传、群众性精神文明创建活动,将城市文明规范、文明理念、文明行为逐步向农村社区转移,推动城市和乡村文明对接,引导村民变市民。

图4 案例平台音频资源本体关联框架示意图

根据案例平台中各类资源实体之间的深度语义联系,可以更进一步地扩展上述语义关联。例如,平台内以“陈田鹤”为主要责任者的资源类型,除了音频,还有图书,如《陈田鹤音乐作品选》和《陈田鹤音乐专辑手稿》等。同时,以抗日战争为主题的资源,除陈田鹤的相关音频之外,还有图书、红色文献、期刊。按照URI的创建规则,依次赋予以上资源实体唯一的资源标识符,则拓展的关联数据示意图如图5所示。

ERP沙盘模拟课程是一种将企业各项计划抽象到沙盘模拟实验中的课程,旨在通过模拟反映出企业经营过程中的计划配合情况,让学生从宏观、微观两个层面了解企业的内部关系。

图5 案例平台关联数据示意图

需要注意的是,本研究虽然仅以单个案例平台为实证对象,验证构建的人文社科专题数据库关联数据模型的可行性,但是该模型是面向整个人文社科专题数据库的,同样适用于多个专题数据库关联数据的构建。即多个专题数据库在关联数据构建过程中严格遵循模型基本步骤,包括数据的采集与整合、元数据规范化语义描述、核心元数据本体的构建以及关联数据语义互联,最终可以以资源实体间的共同属性特征为桥梁,建立关联关系,形成关联数据网络,最终实现多库资源间的语义互操作。

6 综合应用层

在对人文社科专题数据库资源序化组织并构建了相应的关联数据后,需要发布关联数据,以便后续的消费。在发布关联数据时,需要同时将数据的体量、储存方式以及更新频率纳入考虑范围,根据不同的实际情况选择不同的发布方式以及发布平台。目前,应用较为广泛的关联数据发布工具主要有Pubby、D2R、Linked Media Framework、Linked Data API、Virtuoso和OAI2LOD Server等6种,各有优劣。由于人文社科专题数据库资源体量大、种类多,同时需要实时定期更新,因而选择能够将全球范围内的关系型数据库快速发布成关联数据的D2R平台作为最终关联数据的发布平台恰如其分。

在关联数据发布之后,后续还需要依托相关技术为用户提供相应的浏览、检索和共享服务,以体现其价值与意义。同时,将关联数据投入消费和应用,有助于发现问题,及时矫正与完善。提升关联数据相关服务质量可以从两个方面入手:其一,根据资源实体之间的关系特征,为用户智能推送个性化资源,提高资源的利用率;其二,基于资源实体的属性特征,加强资源实体的语义分析与推理,以提高资源关键词与检索词之间的文本相似度,优化检索结果。

7 总结与展望

人文社科专题数据库资源类型多元,内容丰富,但存在异构、无序、断联等问题。因此,本研究构建了一个面向人文社科专题数据库的关联数据模型,该模型共有5个层次,分别为:数据采集层、资源描述层、本体构建层、关联数据层以及综合应用层,模型的核心是知识组织层面的本体构建层和关联数据层。同时,本研究以抗日战争与近代中日关系文献数据平台为例,对构建的关联数据模型进行了实证。

未来,人文社科专题数据库关联数据模型的相关研究与实践需要深入思考以下问题:

1)关联数据模型的普适性。关联数据模型中的关键——核心元数据本体虽然能保证使用的灵活性、共享性,便于后续关联数据的构建,但核心元数据本体一般不能容纳各种元数据规范的所有元素,对于一些特定的资源实体类型,需要自主添加属性元素到核心元数据本体中。除了特殊资源实体类型之外,其他普通资源实体中的属性元素也有更多的展开空间,在注重核心属性元素的同时也要兼顾这些属性元素。后续的研究应该根据资源实体特征,完善核心元数据本体,提升关联数据模型的普适性。

2)关联数据模型的客观性。关联数据构建工作中不可避免地存在着一些主观环节,如资源实体的分类、属性的自定义、URI的构建等,这些工作还有诸多可商榷之处,需要在扎实的调研分析中查检核验,以提升关联数据模型的科学性与客观性。

3)关联数据模型的时效性。人文社科专题数据库是一个持续生长的有机体,存在实时动态更新的特征,且关联数据的相关技术也是不断发展进步的,因此关联数据模型的时效性也需要深入探讨。由于在实践中,不能实时展开跟进、更新工作,因而更新的周期、频率以及技术的选择将是后续探讨的方向。

综上所述,后续的研究应围绕提升人文社科专题数据库关联数据模型的普适性、客观性和时效性展开,以完善相关标准、提升相关技术,推进人文社科专题数据库建设规范化管理。

目前,由于我们国家对于电气自动化没有统一的标准,企业内部的各项设备又是从不同的制造厂家进行采购的,而不同供应商的设备设计结构和标准往往各取所需,导致在设备运行的状况下,各厂家提供的设备零部件之间的信息传递不稳定,配合不够默契;导致企业内部的电气自动化没有很好的能力进行适应,从而影响电气自动化的建设[5]。

参考文献

[1]Berners-Lee T.Linked Data Personal Notes on Design Issues for the World Wide Web[EB/OL].https://www.w3.org/DesignIssues/,2019-10-24.

[2]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010,(11):1-9.

[3]沈志宏,黎建辉,张晓林.关联数据互联技术研究综述:应用、方法与框架[J].图书情报工作,2013,57(14):125-133.

[4]夏翠娟,刘炜,赵亮,等.关联数据发布技术及其实现——以Drupal为例[J].中国图书馆学报,2012,38(1):49-57.

[5]欧石燕,唐振贵.面向图书馆关联数据的自动问答技术研究[J].中国图书馆学报,2015,41(6):44-60.

[6]陈涛,夏翠娟,刘炜,等.关联数据的可视化技术研究与实现[J].图书情报工作,2015,59(17):113-119.

[7]刘美杏,徐芳.古道线性文化遗产信息资源关联数据模型构建及其实证研究[J].图书馆学研究,2019,(14):40-50.

[8]张乐,常娥.基于Drupal的民国建筑知识库关联数据的组织与发布研究[J].图书馆学研究,2018,(19):66-72.

[9]董坤,谢守美.基于关联数据的MOOC资源语义化组织与聚合研究[J].情报杂志,2016,35(6):177-182.

[10]夏翠娟,刘炜,陈涛,等.家谱关联数据服务平台的开发实践[J].中国图书馆学报,2016,42(3):27-38.

[11]许鑫,张悦悦.非遗数字资源的元数据规范与应用研究[J].图书情报工作,2014,58(21):13-20,34.

[12]刘炜,李大玲,夏翠娟.元数据与知识本体[J].图书馆杂志,2004,(6):50-54,49.

[13]Studer B,Benjamins V R,Fensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge Engineering,1998,25(1/2):161-197.

[14]欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报,2012,38(6):58-71.

ResearchontheConstructionandApplicationofHumanitiesandSocialSciencesThematicDatabaseLinkedDataModel

Shi Yanping Li Yang

(School of Information Management,Nanjing University,Nanjing 210023,China)

Abstract:[Purpose/Significance]The current Humanities and Social Sciences thematic database has problems of decentralized resources and difficult interoperability.The proposed linked data model can establish the connection between the Humanities and Social Science thematic database,reveal the semantic relationship of the resource entities deeply,and promote interoperability.[Method/Process]This research constructed a linked data model for the Humanities and Social Sciences thematic database,which included the data acquisition layer,resource description layer,ontology construction layer,linked data layer and integrated application layer.And a relevant document data platform was used as an example to demonstrate the model.[Result/Conclusion]The linked data model was an important part of the construction and standardized management of the Humanities and Social Sciences thematic database.And the practice and application of the linked data model of the Humanities and Social Sciences thematic database can effectively promote the integration of related resources and the development of data sharing.

Keywords:Humanities and Social Sciences;thematic database;linked data model;metadata specification;ontology

DOI:10.3969/j.issn.1008-0821.2019.12.003

〔中图分类号〕G250.74

〔文献标识码〕A

〔文章编号〕1008-0821(2019)12-0019-09

收稿日期:2019-10-14

基金项目:国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号:18ZDA326)。

作者简介:施艳萍(1993-),女,博士研究生,研究方向:知识管理与学术评价。李阳(1989-),男,助理研究员,研究方向:竞争情报与信息资源管理。

(责任编辑:陈 媛)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

施艳萍:人文社科专题数据库关联数据模型的构建与应用研究论文
下载Doc文档

猜你喜欢