何阳宇:老挝政治外交领域本体术语集构建研究论文

何阳宇:老挝政治外交领域本体术语集构建研究论文

摘 要:政治外交领域本体术语的获取是构建相关领域本体的关键,也是进行信息抽取、信息检索的重要组成部分。文章首先利用现有资源构建了基础术语集,然后利用Word2Vec的新词推荐功能在此基础上进行扩展,最后以融合知网和同义词词林的方法进行词语语义相似度计算,筛选出合格的本体术语构建扩展术语集。由此建立起老挝政治外交领域本体术语集。

关键词:老挝;政治外交;本体术语;信息检索;信息抽取

引 言

老挝作为东南亚唯一的内陆国家[1],北邻中国,南接柬埔寨,东临越南,西北达缅甸,西南毗连泰国,素有“东南亚十字路口”之称,地理位置十分重要[2]。近年来,老挝积极响应“一带一路”倡议,在多个领域与中国进行了广泛的合作。但目前中国还未对老挝有较为全面的认识,对其政治经济制度、国内产业格局、民族、文化、宗教、风土人情等的了解还远达不到需求[3]。为了及时准确地了解老挝动态,为国家战略和政策提供重要参考,有必要加强信息基础资源的建设。随着信息时代的到来,如何使网上的海量数据形成一个互相关联的网络显得尤为重要。基于本体知识库的信息抽取和检索可以有效解决这个问题,而本体术语抽取是本体构建的首要工作,对本体学习以及基于本体的应用技术的发展具有重要意义[4]。

本体术语的获取途径可大致分为基于规则、基于知识库、基于统计以及多策略融合的方法。雅克曼(Christian Jacquemin)[5]提出了一个描述多词术语的形态、句法和语义变化的双层模型,用于医学和农业领域的术语标准化。张桂平等[6]基于HowNet构建了面向航天领域的术语语义知识库。韦小丽等[7]采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。杜波等[8]设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。总的来说,基于规则的方法准确率高,操作简单,能够有效提取低频术语,但是语言学规则制定难度大,耗时耗力;基于知识库的方法无需语料库进行训练,易于理解,但知识库的建设很大程度上依赖于人的主观判断和知识结构;基于统计的方法效率高、可移植性较好,但计算量大,效果取决于语料库的规模和质量,同时针对低频术语的效果较差。以上方法各有优缺点,因此多策略融合的方法是目前术语获取的最佳途径。

我们将结合长三角一体化发展上升为国家战略等新形势新要求,进一步加强系统谋划,坚持把加快建设现代化综合交通运输体系作为推进交通强省建设、打造交通强国先行区的核心任务和关键举措,着力构建“八大体系”,即高质量的综合交通网络体系、高效率的货运服务体系、高品质的客运服务体系、高水平的绿色交通体系、高标准的平安交通体系、高科技的智慧交通体系、高层次的创新发展体系、高效能的交通治理体系。我们将强化担当意识,勇于解放思想,敢于攻坚克难,弘扬奋斗精神,以时不我待的紧迫感,努力完成好“最迫切”的任务,书写好“强富美高”新江苏建设的交通篇章。□

本文构建的术语集主要包括两大部分:基础术语集和扩展术语集。首先,通过各种渠道对现有术语资源进行收集整理,然后利用CiteSpace从相关文献中提取领域术语,进而合并为基础术语集。接下来,以基础术语集作为种子术语,以Word2Vec、知网和同义词词林作为统计模型和知识库,利用融合的词语语义相似度计算方法进行术语拓展,形成扩展术语集。最终,两部分术语集组合成为老挝政治外交领域本体术语集。

一 老挝政治外交领域基础术语集的构建

(一)基础术语集简介

老挝政治外交领域基础术语集的来源可大致分为两类:现有术语资源和相关文献。现有术语资源主要包括专业词典、相关论著、权威网站等,相关文献主要是国内关于老挝政治外交的硕士与博士论文、期刊论文等。这一术语集是后续扩展术语集的基础,对整个术语集的构建起着至关重要的作用。具体流程如图1所示。

(二)现有术语资源的收集整理

现有术语资源中的词典主要采用《老挝语汉语词典》[9]和《老挝语汉语·汉语老挝语简明外交词典》[10],前者是目前涵盖范围最广的老挝语汉语综合词典,共收6万多词条,包括古今语言、文学、宗教和各门科学用语,根据本文目的,取其中与政治外交相关部分;后者是一部外交领域的专门词典,共收词1.5万余条,内容包括外交、时政、宗教、人权、法律、科技、历史、军事、安全等各方面在外事工作中经常涉及的词汇。其他现有资源来自相关纸质、电子版著作以及权威网站,著作主要包括:《解决老挝问题的扩大的日内瓦会议文件汇编》[11]《老挝和老挝人民反对美国新殖民主义的胜利斗争》[12]《老挝战后大事记》[13]《中国古籍中有关老挝资料汇编》[14]《列国志·老挝》[15]《老挝》[16]《老挝概论》[1]《老挝:在革新中腾飞》[17]《新世纪以来GMS五国国情的演进:转型与发展研究》[18]《世界主要政党规章制度文献:越南、老挝、朝鲜、古巴》[19]《老挝史》[20]《老挝与“一带一路”》[21]《美国对老挝政策研究(1955—1963)》[22]等,权威网站包括:维基百科[23]、百度百科[24]、人民网[25]、中华人民共和国外交部[26]、中华人民共和国驻老挝人民民主共和国大使馆[27]等。

图1 基础术语集构建流程图

通过对上述资料进行整理及人工筛选,得到老挝政治外交领域术语672个,其中将老挝人民革命党和老挝政府各组织机构及主要领导人、老挝重要的历史事件和人物、东盟各组织机构等作为重点进行收集和整理。筛选标准为:(1)具有领域代表性;(2)得到较为权威的认证;(3)尽量遵循单义性、准确性和简明性;(4)涵盖广泛,全称、简称、别称等均应收录。其中根据实际情况,对部分术语进行了修正和更新,如涉及组织机构调整改革的,为保证术语信息的完整性以及保证后续信息检索和信息抽取的准确性,对新旧组织机构名都予以保留。

(三)基于相关文献的术语提取

本小节主要利用CiteSpace对中国知网(CNKI)中老挝政治外交领域相关文献进行可视化分析。CiteSpace最早见于2004年美国德雷塞尔大学(Drexel University)陈超美发表的SearchingforIntellectualTurningPoints:ProgressiveKnowledgeDomainVisualization[28],这是一款主要用于计量和分析科技文献数据的信息可视化软件,可以用来绘制科学和技术领域发展的知识图谱,直观地展现科技知识领域的信息全景,识别某一科技领域中的关键文献、研究热点和前沿方向,在实际应用中既科学有效又简单易用,且具有丰富美观的可视化效果,在国内外信息科学领域得到了广泛的应用[29]。

与卷包车间对应,烟草MES的咀棒车间与卷包车间对接,采用咀棒发射生产模式的基础上,建立成型机数据采集系统,实现生产状态实时跟踪与监控,实现设备运行数据、在线质量数据和产量数据的自动采集。在数采系统的基础上,建立咀棒车间生产管理系统,全面实现咀棒生产过程的精细化管理。

参数设置完毕后,将预处理完成的数据作为输入,便可完成Word2Vec的训练工作。然后利用训练好的模型对种子术语进行新词推荐,经实验比较,当推荐数量设置为50以上时,就会产生较多冗余词语,而设置为10以下又可能导致重要词语遗漏。综合考虑,将推荐阈值设定为20,由此建立新词术语集。

图2 文献分析过程示例图

(四)小结

本节主要通过两个渠道构建基础术语集,其中对现有术语的收集整理主要依靠人工筛选,对老挝重要政治外交人物、政治外交事件、主要组织机构及其他相关政治外交术语做了总结和统计,获得术语672个;利用CiteSpace对CNKI相关文献进行可视化分析,获得术语861个。通过对这些术语进行领域性分析、删除重复项等操作,共获取政治外交术语1332个。

二 老挝政治外交领域扩展术语集的构建

扩展术语集的构建主要以上述构建的基础术语集为种子术语,利用Word2Vec的相似词推荐功能进行新词推荐,然后利用融合知网、同义词词林的词语相似度计算方法对推荐的新词进行相似度计算,最后根据实际情况设定阈值进行筛选。具体流程如图3所示。

主要由上部装置和下部装置两部分组成,上部装置固定在无磁悬挂刻线处,由上部装置本体、激光发射器、发射器护盖和上部固定装置等组成;下部装置由下部装置本体、刻度盘、限位螺栓、下部固定装置和刻度指针等组成(图1)。

图3 扩展术语集构建流程图

(一)基于Word2Vec的新词推荐

1.Word2Vec简介

2003年,本希奥(Yoshua Bengio)等[30]提出了一套用神经网络建立统计语言模型的框架(neural network language model),如图4所示,这为Word2Vec等后续研究奠定了基础。

知网作为一个常识知识库,它重点刻画的是概念的共性和个性,此外概念以及属性间的各种关系也属于其描述范围,知网的全部主要文件构成了一个有机结合的知识系统[37]。概念关系示例如图7。

图4 神经网络语言模型

图5 CBOW模型

2.语料收集及预处理

2.融合知网、同义词词林的词语相似度计算

图6 Skip-gram模型

3.模型训练

2.专业人才的影响日益增加,并且产生了极其明显的影响。人才,尤其是高端人才的价值更加突出,这就要求企业在开展管理活动时,必须注重创新形式,给予企业实践更大的动力。在知识经济的大环境下,企业面临了许多以往不曾遇到的问题,这是时代带来的新变化,想要有效应对,就需要在坚持创新的前提下,选择合理的素材内容,通过认可知识、尊重科技,从而让企业获得发展。比如现在流行的“合伙人”制度,员工不再是被动管理的对象,而是与企业命运紧紧联系在一起的一份子。

同义词词林的整体构造是一个五层树形结构,因此两个词语在词林树中的连接路径是影响词语相似度的主要因素。词林的第一层是大类,朱新华等将不属于同一个大类的词语间的距离都处理为18,同时按照低层到高层的顺序,赋予层际连接边越来越低的权重Wi(1≤i≤4),且满足:0.5≤W1≤W2≤W3≤W4≤5,W1+W2+W3+W4≤10,由此提出了一个以词语距离d为主要影响因素,分支节点数n和分支间隔k为调节参数的同义词词林词语相似度计算公式②:

表1Word2Vec参数设置表

参数说明window窗口尺寸threads线程数量min-count词语最小阈值size词向量维数train输入文件的路径output输出文件的位置negative负样本数量

在CNKI的高级检索功能中,将领域主题限定为政治或外交,将检索范围设定为老挝,由于关于老挝的文献数量较少,所以在检索老挝相关文献时采取穷尽搜索的办法,得到2834条结果(检索时间跨度为1979年1月1日—2018年8月10日)。利用CiteSpace对上述文献进行分析,如图2所示。在图2操作的基础上,对结果进行可视化处理,得到按词频排序的相关术语861个。

双务合同履行中的抗辩权是合同效力的体现,其行使仅是暂时中止自己的给付义务,一旦产生抗辩权的原因消失,当事人仍须履行自己的义务[3]447。双务合同中的抗辩权并不是永久地抗辩,一旦物业服务企业采取补救措施,使管理服务符合合同的约定时,业主就应当履行自己的给付义务。

(二)融合知网和同义词词林的词语语义相似度计算

1.知网、同义词词林简介

综合考虑知网和词林的词语相似度计算的总体思想为:对于任意两个词语W1和W2,按照上述策略分别计算出它们基于知网及词林的相似度,记作s1和s2,然后根据它们在图9中的分布情况,为这两个相似度分别赋予权重λ1和λ2,且满足:λ1+λ2=1,最后按照公式③计算出综合知网和词林的词语语义相似度:

知网创建于1988年,主要是描述概念及其属性间的网状关系。创建者董振东将哲学思想贯穿于知网构建的全过程,认为世界上一切事物都在一定的时间和空间内不停地运动和变化,而且通常是从一种状态变化到另一种状态,并一般由其属性值的改变来体现。知网将高层概念分为N、V、A三大范畴,这三大范畴又包括若干子范畴,具体如表2所示。为了便于理解,其中N相当于名词,V相当于动词和部分形容词,A相当于形容词和副词,但这只是帮助认知,实际不能如此对应。

表2 知网概念分类表

NN.1 entity 实体N.2 attribute 属性N.3 unit 单位N1.1 thing 万物N1.2 time 时间N1.3 space 空间N1.4 component 部分VV.1 event-static 静态V.2 static-relation 关系V.3 static-state 状态V.4 action 行动AA.1 attribute-value 属性值

2013年, 米科洛夫(Tomas Mikolov)等人提出了Word2Vec,可用于词向量计算,它可以在大规模数据集上进行高效训练,得到训练结果——词向量(word embedding),由此度量词语之间的相似度。Word2Vec是一个浅层神经网络,主要包括CBOW(continuous bag-of-words model)(如图5)和Skip-gram(如图6)两大架构模型,这两种模型实际上是互为镜像的,CBOW根据上下文预测当前单词,而Skip-gram根据给定单词预测上下文。另外,还包括层次softmax算法、负采样(negative sampling)算法以及欠采样(sub-sampling)技术等[31]。

《同义词词林》是梅家驹等人于1983年编纂而成的,与WordNet的格式有类似之处,即都是用一个同义词集合来表示一个概念。后来哈尔滨工业大学信息检索实验室在此基础上做了改进,即《同义词词林扩展版》。该扩展版剔除了原版中大量的罕用词,最终的词表包含77 492条词语,其中一词多义的词语为8860个,共分为12个大类,94个中类,1428个小类,小类下再以同义原则划分词群,最细的级别为原子词群[38],由此形成了5层树状结构,如图8。每一层都有相应的编码符号对应,通过编码,可以精确定位每一个节点,词语编码如表3所示。

图7 概念关系示例图

图8 同义词词林扩展版树状结构图

本文采用八爪鱼网页数据采集器进行网络爬虫操作,爬取网站主要包括百度[32]、人民网、新华网[33]、中华人民共和国外交部、中国国际广播电台国际在线网[34]以及知名公众号CRI悦生活、老挝快讯、老挝要闻、老挝那些事儿等。将采集到的数据进行过滤处理,去除图片、标签、未知符号等无效数据,然后利用AnsjSeg[35]对语料进行分词处理,最后以txt的格式进行保存。

本文采用朱新华等人提出的综合知网和同义词词林的词语相似度计算方法,知网部分根据义原层次结构的特征,采用了一定的边权重策略,改进了现有的基于知网的相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率[39]。

区内发育有节理裂隙,左岸节理裂隙主要发育一组:N0°~20°W/SW∠70°~90°。裂隙多微张与闭合,泥质充填或无充填,延伸不远,裂隙多发育于黑云角闪片斜长麻岩中,而二长花岗岩体则发育较少,与河流近于垂直。

表3同义词词林词语编码表①

编码位12345678符号举例Da01B02= / # / @性质大类中类小类词群原子词群级别第一层第二层第三层第四层第五层

(1)改进的基于知网的词语相似度计算

该方法将词语相似度计算转换为对词语义项语义表达式(DEF)的相似度计算,而义项的相似度计算又可转化成综合独立义原集合、关系义原特征结构与关系符号义原特征结构的相似度计算,分别表示为sim1(C1,C2)、sim2(C1,C2)、sim3(C1,C2),这三项相似度因重要程度不同,所占权重也不同,其中sim1(C1,C2)占大部分比重。考虑到部分词语有多个义项,两个词语的最终相似度取所有义项组合中相似度最大的值为有效值。最终得到公式①:

(2)改进的基于同义词词林的词语相似度计算

CBOW和Skip-gram两个模型都可用来生成词的分布式表示,CBOW训练效率更高,速度更快,Skip-gram虽然计算量较大,但训练质量更高,尤其针对低频词的效果更优,Mikolov等[31]的实验结果也印证了这一点。 因此,本研究采用Skip-gram模型。在Word2Vec的训练过程中,需要设置一些参数,以保证训练质量和速度[36]。主要参数如表1所示。

式中,dis(C1,C2)是词语编码C1和C2在树状结构中的距离函数,等于词语对的连接路径中各边的权重之和,可取值2×W1、2×(W1+W2)、2×(W1+W2+W3)、2×(W1+W2+W3+W4)。n和k的表达式作为e的负指数,并对其开平方,以此降低公式对n和k这两个参数的敏感度,避免出现修正幅度过大的现象。

(3)知网、词林加权融合计算方法

应对全球气候变化、保障水安全是全人类的共同责任。中国愿意在防洪、抗旱和水资源配置、节约、保护等一系列领域中继续加强与有关国际组织和国家的交流与合作,希望通过我们的共同努力,为应对全球气候变化,保障中国乃至世界的水安全做出新的更大贡献!

s=λ1s1+λ2s2

的士在路上飞驰起来,竹韵回头看了一眼海力的车,发现他也把车开上了路。回味了一番刚才的情景,越来越感到纳闷。

因为知网和词林属于两套不同的知识库,因此势必会出现涵盖范围不尽相同的情况。大致会出现以下情况:知网特有的词语、词林特有的词语、两者共有的词语以及两者都未包括的词语。图9中,I表示所有词语构成的全集,A表示知网涵盖的词语集,B表示词林涵盖的词语集,C表示两者的交集。

图9 词语分布图

下面以“老挝人民革命党”为例展示融合策略词语相似度计算,见表4。

从总体上看,宁夏农村饮水安全工程“十一五”规划实施情况较好,但是按照2013年全面实现宁夏农村饮水安全的目标,任务非常艰巨,尤其是2010—2013年还有153.71万人的饮水安全问题需要解决,饮水安全工程建设将进入全面攻坚阶段,水源难找、居住分散、工程建设难度大等不利因素将进一步凸显。

表4词语相似度计算示例表——“老挝人民革命党”

种子词推荐新词sim(C1,C2)老挝人民革命党总书记0.789 008 78中国共产党0.713 124 65办公厅0.592 153 40共产党0.651 869 03社会主义政党0.518 873 84入党0.379 762 34朱马利0.747 894 64阮富仲0.730 358 00越南共产党0.714 116 09本扬0.703 282 47古巴共产党0.700 694 44老挝人民民主共和国0.690 924 94越共中央0.684 970 61通伦0.671 118 61凯山0.662 963 21劳动党0.662 290 83柬埔寨王国0.658 153 49巴基斯坦人民党0.655 073 10以色列工党0.649 552 58冯亲王0.648 449 18

通过对所有推荐的新词进行相似度计算,观察发现大部分正确新词的相似值位于0.6以上,因此本文将正确术语的相似值阈值设置为0.6,以此方法可将大部分符合要求的新词术语筛选出来,然后再人工检验,得到扩展术语2430个,经过领域性分析和去除重复项等操作,最终共计获得2281个术语。

超分子化学根源于配位化学,分子印迹技术(MIT)属于超分子化学应用范畴[9],其原理与“抗原-抗体”识别相似,主客体分子能够按“印迹模板”进行自识别、自组装、自组织与自复制作用,可阐明“分子社会”间相互作用,通常描述为“分子钥匙”的人工“锁”技术[10]。

(三)小结

本部分主要利用Word2Vec在基础术语集的基础上进行新词推荐,然后借助知网和词林在中文词语概念上的强大描述能力和可计算化,对推荐的新词进行了相似词计算和筛选,最终得到了2281个术语,由此构建了扩展术语集。

三 结论及展望

本文利用CiteSpace、Word2Vec、知网、词林等尝试构建了老挝政治外交领域本体术语集,包括基础术语集和扩展术语集,共计3613个术语。本体术语的获取是建立领域本体的关键,是国家基础信息资源的重要组成部分,是实现政治外交领域信息化必不可少的工作。随着“一带一路”倡议的深入开展,中国和老挝之间的政治外交往来日益频繁,要想及时、准确地把握最新政治外交动态,制定相应的政策、措施,为国家发展助力,就必须加强信息抽取能力,而领域本体术语是提高该能力的“钥匙”。

本研究仍有很多不足之处,在本体术语集构建的“深度”和“广度”上还有待进一步加强。由于老挝相关文献较少,词典等现有资源也较为匮乏,这在一定程度上制约了领域本体术语的收集。此外,本文只针对中文术语进行了获取,如果用于信息抽取等实际任务中,可能会漏掉重要的英文和老挝文文本。因此,在今后的工作中可以进一步细化概念分析框架,扩充更多的文献资源,并将术语获取拓展到英文和老挝文。同时,可以尝试其他模型和算法,取长补短,争取达到更优的效果。

后期对试验结果进行分析需要绘制荷载-位移曲线.荷载可以通过加载试验机进行数据读取,因此在正式加载过程中需要进行分级加载,步长为200 kN;位移则是指混凝土与钢材之间的相对位移,通过位移计进行测量,每读取一个荷载值对应读取位移值.

注释

① 第8位的标记有3种,分别是“=”“#”“@”。 “=”代表“相等”“同义”; “#”代表“不等”“同类”,属于相关词语; “@”代表“自我封闭”“独立”,它在词典中既没有同义词,也没有相关词。

参考文献

[1] 郝勇,黄勇,覃海伦.老挝概论[M].广州:世界图书出版广东有限公司,2012.

[2] 何阳宇.论“一带一路”与老挝社会经济的发展[J].语文学刊,2016(1):87-89.

[3] 康生.“一带一路”战略下中老关系问题研究[D].长春:吉林大学硕士学位论文,2017.

[4] 汤青,吕学强,李卓,等.领域本体术语抽取研究[J].现代图书情报技术,2014,30(1):43-50.

[5] Jacquemin C.Syntagmatic and paradigmatic representations of term variation[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics:Association for Computational Linguistics,1999:341-348.

[6] 张桂平,刁丽娜,王裴岩.基于HowNet的航空术语语义知识库的构建[J].中文信息学报,2014,28(5):92-101.

[7] 韦小丽,孙涌,张书奎,等.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116.

[8] 杜波,田怀凤,王立,等.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160.

[9] 黄冰.老挝语汉语词典[M].尚未正式出版.

[10] 程琳.老挝语汉语·汉语老挝语简明外交词典[M].北京:军事谊文出版社,2013.

[11] 世界知识出版社.解决老挝问题的扩大的日内瓦会议文件汇编[G].北京:世界知识出版社,1962.

[12] 冯维希.老挝和老挝人民反对美国新殖民主义的胜利斗争[M].北京:人民出版社,1974.

[13] 秦钦峙.老挝战后大事记[M].昆明:云南省社会科学院东南亚研究所,1985.

[14] 景振国.中国古籍中有关老挝资料汇编[M].郑州:中州古籍出版社,1985.

[15] 马树洪,方芸.列国志·老挝[M].北京:社会科学文献出版社,2004.

[16] 蔡文欉.老挝[M].北京:世界知识出版社,2008.

[17] 柴尚金.老挝:在革新中腾飞[M].北京:社会科学文献出版社,2015.

[18] 王士录,赵姝岚,李秋瑾.新世纪以来GMS五国国情的演进:转型与发展研究[M].北京:中国社会科学出版社,2015.

[19] 许宝友.世界主要政党规章制度文献:越南、老挝、朝鲜、古巴[M].北京:中央编译出版社,2016.

[20] 埃文斯.老挝史[M].郭继光,刘刚,王莹,译.上海:东方出版中心,2016.

[21] 张海冰,周太东.老挝与“一带一路”[M].北京:时事出版社,2017.

[22] 温荣刚.美国对老挝政策研究(1955—1963)[M].北京:中国社会科学出版社,2018.

[23] 维基百科[DB/OL]. [2018-07-20].https://zh.wikipedia.org.

[24] 百度百科[DB/OL]. [2018-07-20].https://baike.baidu.com.

[25] 人民网[DB/OL]. [2018-07-20].http://www.people.com.cn.

[26] 中华人民共和国外交部[DB/OL]. [2018-07-20].http://www.fmprc.gov.cn/web.

[27] 中华人民共和国驻老挝人民民主共和国大使馆[DB/OL]. [2018-07-20].http://la.china-embassy.org/chn.

[28] Chen C. Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[J].Proceedings of the National Academy of Sciences,2004,101(1):5303-5310.

[29] 侯剑华,胡志刚.CiteSpace软件应用研究的回顾与展望[J].现代情报,2013,33(4):99-103.

[30] Bengio Y,Vincent P,Janvin C.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.

[31] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

[32] 百度[DB/OL]. [2018-09-05].https://www.baidu.com.

[33] 新华网[DB/OL]. [2018-09-05].http://www.xinhuanet.com.

[34] 中国国际广播电台国际在线网[DB/OL]. [2018-09-05].http://www.cri.cn/index.html?lang=zh-CN.

[35] AnsjSeg[DB/OL]. [2018-09-05].http://nlpchina.github.io/ansj_seg.

[36] 周练.Word2vec的工作原理及应用探究[J].图书情报导刊,2015(2):145-148.

[37] 董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85.

[38] 刘丹丹,彭成,钱龙华,等.《同义词词林》在中文实体关系抽取中的作用[J].中文信息学报,2014,28(2):91-99.

[39] 朱新华,马润聪,孙柳,等.基于知网与词林的词语语义相似度计算[J].中文信息学报,2016,30(4):29-36.

TheConstructionofOntologyTermSetinLaos’PoliticalDiplomacyDomain

//HE Yangyu,YI Mianzhu,LI Hongxin

Abstract: The acquisition of ontology terms in political diplomacy domain is the key to the construction of ontology in related fields, and also an important part of information extraction and information retrieval. We construct the basic term set by using existing resources, and then use Word2Vec’s new word recommendation function to expand on the basis. Moreover, we calculate the semantic similarity computation of words by the method of integrating HowNet and Cilin, select the qualified ontology terms to construct a set of extended term, and thus establish the ontology term set of Laos’ political diplomacy.

Keywords: Laos; political diplomacy; ontology term; information retrieval; information extraction

中图分类号:D507;D82;H059;H083

文献标识码:A

DOI:10.3969/j.issn.1673-8578.2019.04.001

收稿日期:2018-10-09

作者简介:何阳宇(1992—), 男,解放军战略支援部队信息工程大学博士研究生,研究方向为自然语言处理。通信方式:mugedawen@163.com。易绵竹(1964—),男,博士,解放军战略支援部队信息工程大学教授、博士生导师,研究方向为计算语言学。通信方式:mianzhuyi@gmail.com。李宏欣(1983—),男,博士,解放军战略支援部队信息工程大学讲师,研究方向为量子密码与信息安全。通信方式:lihongxin830@163.com。

标签:;  ;  ;  ;  ;  ;  ;  

何阳宇:老挝政治外交领域本体术语集构建研究论文
下载Doc文档

猜你喜欢