句子对齐论文开题报告文献综述

句子对齐论文开题报告文献综述

导读:本文包含了句子对齐论文开题报告文献综述、选题提纲参考文献,主要关键词:句子,汉语,神经网络,藏文,双语,老挝,视点。

句子对齐论文文献综述写法

丁颖,李军辉,周国栋[1](2019)在《基于词对关联网络的句子对齐研究》一文中研究指出句子对齐能够为跨语言的自然语言处理任务提供高质量的对齐句子对。受对齐句子对通常包含大量对齐的单词对这种直觉的启发,该文通过探索神经网络框架下词对间的语义相互作用来解决句子对齐问题。特别地,该文提出的词对关联网络通过融合叁种相似性度量方法从不同角度来捕获词对之间的语义关系,并进一步融合它们之间的语义关系来确定两个句子是否对齐。在单调和非单调文本上的实验结果表明,该文提出的方法显着提高了句子对齐的性能。(本文来源于《中文信息学报》期刊2019年07期)

塞麦提·麦麦提敏,吐尔根·伊布拉音[2](2018)在《汉维句子对齐长度计算单位的研究》一文中研究指出在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位,最终提高汉维句子对齐的准确率。双语句子汉语字符数和维文词数之间相关系数较高,句子长度比值近似于正态分布。根据实验结果,汉文字符和维文单词是汉维句子对齐的最佳长度计算单位,句子对齐的准确率和召回率最高,分别达到94%和93.6%。(本文来源于《现代计算机(专业版)》期刊2018年33期)

丁颖,李军辉,周国栋[3](2019)在《基于词对建模的句子对齐研究》一文中研究指出句子对齐是将源文本中的句子映射到目标文本中对应翻译的过程。在神经网络的框架下,基于相互对齐的源端和目标端句子中包含大量相互对齐的单词,提出一种句子对齐方法。使用门关联网络捕获源端句子和目标端句子词对之间的语义关系,并通过语义关系来确定源端句子和目标端句子是否对齐。对非单调文本进行对齐评估,结果表明,该方法F1值达到93.8%,有效提高了句子对齐的准确率。(本文来源于《计算机工程》期刊2019年06期)

让子强[4](2017)在《汉老双语句子对齐方法研究》一文中研究指出双语语料库存储着两种语言在语义上一致的语料资源和信息,是双语语言处理领域的一个重要基础资源,它被广泛地应用在机器翻译、跨语言信息检索、词义消歧、翻译知识提取等方面。对齐是处理双语语料文本的核心,对齐的效果如何,直接关系着未来的自然语言处理相关工作。句子对齐,即是以句子级别为文本单位的文本对齐,是一种从双语语料中寻找出语义上达到匹配的句子对关系的技术。本文根据汉语-老挝语双语的语言特点,着重于研究探讨如何构建汉老双语平行语料库、如何选取高质量的汉老双语文本特征及如何实现融入多特征的汉老双语平行句对抽取等展开相关研究工作,主要完成了以下研究工作。(1)通过探索研究如何构建双语平行语料库,考察分析以维基百科为主的多语言平台中平行语料的分布情况,并制定了一套汉老双语平行语料库构建策略,包括双语语料爬取、正文提取、句子对齐等环节。(2)通过研究分析老挝语的语言特点、总结出汉老双语句法结构方面的异同点,并以此为依据,选取了一系列汉老双语文本特征,包括、词典匹配特征、词共现率特征及数字特征等,为下一步的汉老双语平行句对抽取工作做准备。(3)通过深入探索如何实现汉老双语平行句对抽取,本文提出了一种融入多特征的汉老双语平行句对抽取方法。首先,对从以维基百科为主的多语言平台中获取的双语语料进行预处理,接着使用候选句对抽取方法获得候选平行句对语料集,并通过融合上述文本特征训练支持向量机模型与最大熵模型。最后通过设计实验比较两个分类器的抽取效果及每一个文本特征对对齐效果的影响,证明了支持向量机更为适合本方法,且全文本特征组合的准确率达到了 70.46%,得到了可行且有效的汉老双语平行句对抽取效果。(本文来源于《昆明理工大学》期刊2017-03-01)

严灿勋[5](2016)在《二分图顶点配对模型下的英汉句子对齐研究》一文中研究指出英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;在此基础上,根据句子先后顺序,局部最大权重顶点配对和英汉句长比的值域范围,纠正临时锚点中的错误,补充锚点序列未覆盖的合法顶点对,同时划分句对,实现句子对齐处理。在对比实验中该句子对齐方法优于Champollion句子对齐系统。从实验对比结果和实践效果看,该句子对齐方法可行。(本文来源于《中文信息学报》期刊2016年05期)

倪耀群,许洪波,程学旗[6](2016)在《基于多特征融合和图匹配的维汉句子对齐》一文中研究指出维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。(本文来源于《中文信息学报》期刊2016年04期)

才藏太,索南才让[7](2016)在《基于锚点信息和句子长度相结合的汉藏句子对齐方法研究》一文中研究指出语料库资源对于自然语言处理研究的巨大价值已经得到社会各界越来越多的认可。特别是句子级对齐的双语平行语料库,已经成为机器翻译、翻译知识获取以及双语词典编纂研究不可或缺的重要资源。本文结合青海省科技厅项目《汉藏句子自动对齐技术研究》的研究经验,提出了一种利用句子长度和锚点信息相结合的汉藏双语句子对齐方法,该方法利用(1:1)型的句珠作为候选锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。(本文来源于《青海师范大学民族师范学院学报》期刊2016年01期)

胡弘思,姚天昉[8](2016)在《基于维基百科的双语可比语料的句子对齐》一文中研究指出该文提出了一种从维基百科的可比语料中抽取对齐句子的方法。在获取了维基百科中英文数据库备份并进行一定处理后,重构成本地维基语料数据库。在此基础上,统计了词汇数据、构建了命名实体词典,并通过维基百科本身的对齐机制获得了双语可比语料文本。然后,该文在标注的过程中分析了维基百科语料的特点,以此为指导设计了一系列的特征,并确定了"对齐"、"部分对齐"、"不对齐"叁分类体系,最终采用SVM分类器对维基百科语料和来自第叁方的平行语料进行了句子对齐实验。实验表明:对于语言较规范的可比语料,分类器对对齐句的分类正确率可达到82%,对于平行语料,可以达到92%,这说明该方法是可行且有效的。(本文来源于《中文信息学报》期刊2016年01期)

塞麦提·麦麦提敏,侯敏,吐尔根·伊布拉音[9](2015)在《基于锚点句对的汉维句子对齐方法》一文中研究指出为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。(本文来源于《计算机工程》期刊2015年04期)

曹依民,张璐璐[10](2014)在《视点等级体系下英汉语主语的选择机制对比——一项基于句子对齐语料库的研究》一文中研究指出Chesterman的对比功能分析模式强调验证对语言事实的感知,即初始假设。本文根据视点等级体系,对中文自然语言处理开放平台提供的"双语句对齐语料库"中1 500句对进行了视点的归类统计,统计结果证明,语义结构相同或相似的前提下,英语和汉语视点匹配居多,需做视点转换的句对只占总数的6.2%,从而基本推翻了初始假设。随后,本文根据Langacker主语选择机制的框架,对6.2%的视点转换情况进行了分析,结果显示:英汉两种语言总体都遵循视点等级体系;当某种制约条件(侧重的效果、语态、背景与参与者关系)需要突显时,两种语言的视点会产生差异,汉语更倾向遵循等级体系,而英语则以侧重关系重置、语态选择以及背景与参与者关系调整为机制,在视点等级上向下选择,表征为物称主语。(本文来源于《语言学研究》期刊2014年02期)

句子对齐论文开题报告范文

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位,最终提高汉维句子对齐的准确率。双语句子汉语字符数和维文词数之间相关系数较高,句子长度比值近似于正态分布。根据实验结果,汉文字符和维文单词是汉维句子对齐的最佳长度计算单位,句子对齐的准确率和召回率最高,分别达到94%和93.6%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

句子对齐论文参考文献

[1].丁颖,李军辉,周国栋.基于词对关联网络的句子对齐研究[J].中文信息学报.2019

[2].塞麦提·麦麦提敏,吐尔根·伊布拉音.汉维句子对齐长度计算单位的研究[J].现代计算机(专业版).2018

[3].丁颖,李军辉,周国栋.基于词对建模的句子对齐研究[J].计算机工程.2019

[4].让子强.汉老双语句子对齐方法研究[D].昆明理工大学.2017

[5].严灿勋.二分图顶点配对模型下的英汉句子对齐研究[J].中文信息学报.2016

[6].倪耀群,许洪波,程学旗.基于多特征融合和图匹配的维汉句子对齐[J].中文信息学报.2016

[7].才藏太,索南才让.基于锚点信息和句子长度相结合的汉藏句子对齐方法研究[J].青海师范大学民族师范学院学报.2016

[8].胡弘思,姚天昉.基于维基百科的双语可比语料的句子对齐[J].中文信息学报.2016

[9].塞麦提·麦麦提敏,侯敏,吐尔根·伊布拉音.基于锚点句对的汉维句子对齐方法[J].计算机工程.2015

[10].曹依民,张璐璐.视点等级体系下英汉语主语的选择机制对比——一项基于句子对齐语料库的研究[J].语言学研究.2014

标签:;  ;  ;  ;  ;  ;  ;  

句子对齐论文开题报告文献综述
下载Doc文档

猜你喜欢