导读:本文包含了文本聚类论文开题报告文献综述、选题提纲参考文献,主要关键词:文本,语义,向量,特征,算法,在线,集体主义。
文本聚类论文文献综述写法
王俊丰,贾晓霞,李志强[1](2019)在《基于K-means算法改进的短文本聚类研究与实现》一文中研究指出文中讨论在文本类目数未知的情况下,如何对数据量过少的短文本进行有效聚类的问题。短文本的特点是每一份样本文章数据少,数据稀疏,用常规的聚类方法进行文本聚类不能取得很好的效果。文中提出了一种基于K-means的改进算法,提出一种简单降维方式和新的判别样本点距离的方法,经实验验证,文中改进算法比原K-means算法有更高的准确性。(本文来源于《信息技术》期刊2019年12期)
钱志森,黄瑞章,魏琴,秦永彬,陈艳平[2](2019)在《半监督语义动态文本聚类算法》一文中研究指出针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。(本文来源于《电子科技大学学报》期刊2019年06期)
杨秀璋,夏换,于小民,武帅,赵紫如[3](2019)在《基于特征词典构建和BIRCH算法的中文百科文本聚类研究》一文中研究指出针对传统文本聚类存在数据维度过高,无法深层次理解语义等问题,提出一种基于特征词典构建和BIRCH算法的文本聚类方法。该方法通过LDA主题模型和语义特征构建特征词典,利用BIRCH算法进行文本聚类,并对维基百科、百度百科和互动百科中的景点、动物、人物和国家四个主题的网页文档进行实验分析。实验结果表明,特征词典结合了主题关键词和语义相似度,其准确率、召回率和F特征值较传统方法有所提高,该方法可以广泛应用于文本挖掘、知识图谱和自然语言处理等领域。(本文来源于《计算机时代》期刊2019年11期)
张延星,王广祥,朱志芸,张蝶依[4](2019)在《基于知识图谱词义消歧的文本聚类方法》一文中研究指出在文本聚类的词义消歧环节,引入外部词典的消歧结果受到词典规模和领域的限制。增加向量相似度比较和语义模型等改进技术手段,无法使其突破对外部词典的依赖。针对识别多义词在上下文中语义唯一性的问题,提出基于知识图谱词义消歧的文本聚类算法。该算法采用TF-IDF模型获取文本特征词集合,利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义,在词义概念层面完成文本的向量化表示,进行文本聚类。在BBC数据集上的实验结果表明,该方法在文本聚类的平均准确率上达到95%。(本文来源于《华北理工大学学报(自然科学版)》期刊2019年04期)
[5](2019)在《心理科普信息需求特征测度:基于在线问答社区提问行为与短文本聚类分析技术》一文中研究指出本研究通过对在线问答社区中的用户提问进行文本挖掘,尝试对用户的心理科普信息需求进行了解并分类。通过网络爬虫程序收集国内知名在线问答社区"知乎"网站中带有"心理学"话题标签的9099个问题及其相关信息。使用Python语言对问题文本进行分词、去停用词,基于词频-逆向文件频率(term frequency-inverse document frequency, TF-IDF)模型将文本向量化,使用K-means聚类算法对向量化后的问题文本进行自动的聚类分析。结果发现,"心理学"话题下的提问可被分为8类,其中7类具有明确的主题,1类为主题无法识别的其他问题。自动聚类分析的结果与用户为问题主动添加的问题标签呈现出一定程度的一致性,说明其结果相对可靠。本研究首次对大众对心理科普的信息需求进行测度,将需求进行分类,为优化心理科普内容提供了支持;同时探索了在大数据背景下挖掘网络平台心理科普信息需求的方法,为未来的科普工作者主动识别并满足受众信息需求提供了基础。(本文来源于《第二十二届全国心理学学术会议摘要集》期刊2019-10-19)
杨波,杨文忠,殷亚博,何雪琴,袁婷婷[6](2019)在《基于词向量和增量聚类的短文本聚类算法》一文中研究指出由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE)。通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类。实验结果表明,使用SPP策略的文本表示使聚类准确率明显提高,ISWE算法相较于传统的Single-Pass算法有更高的准确率和调整兰德系数,验证了其有效性和准确性。(本文来源于《计算机工程与设计》期刊2019年10期)
毕重增[7](2019)在《金庸武侠小说词义心理的智能化文本聚类分析》一文中研究指出词汇是塑造小说心理空间的最基本要素。对小说文本词汇的客观化心理分析,有助于把握读者宏观的、众数的心理体验,也有助于刻画作品风格的心理维度。本文旨在通过智能化文本分析,描述金庸武侠小说文本中词汇水平所呈现的一般化语义心理。使用因素分析法提取词汇中蕴含的四个心理维度:社会认知内容的社群性和能动性,情绪内容的愤怒、喜悦和焦虑叁个因子,时间信息的过去、现在和未来叁分框架,以及人称代词对应的个人和群体(集体)主义。这些心理维度之间呈现出一定的结构化、模式化特征,表现为群体友好主义,负面时间观和能力主义。以心理维度为依据的聚类分析也获得了金庸武侠系列小说有意义的类别。(本文来源于《心理技术与应用》期刊2019年10期)
齐向明,孙煦骄[8](2019)在《基于语义簇的中文文本聚类算法》一文中研究指出针对中文文本聚类受语义、语法、语境等因素的影响,在使用传统向量空间模型向量化表征后,文本向量之间相互独立,语义关系被忽略,影响聚类分析结果的问题,提出一种基于语义簇的中文文本聚类算法.该算法根据词共现的原理和语义相关性,首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重,利用特征词的搭配向量构建语义簇;然后使用特征词及其搭配词的权重,将特征词向语义簇中心进行空间变换,求得嵌入语义信息的文档向量;最后利用文档向量进行K-means聚类分析.实验结果表明,该向量化表示方法,能有效提高文本向量对文本语义的逼近能力,同时可提高文本聚类结果的准确率和召回率.(本文来源于《吉林大学学报(理学版)》期刊2019年05期)
赵华茗,余丽,周强[9](2019)在《基于均值漂移算法的文本聚类数目优化研究》一文中研究指出【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足,缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。(本文来源于《数据分析与知识发现》期刊2019年09期)
朱枫怡,岳天泽,王可,刘笑,田茂再[10](2019)在《基于柯南·道尔作品的文本聚类应用与探究》一文中研究指出风靡世界的侦探小说《福尔摩斯探案集》的写作几乎贯穿作者柯南·道尔爵士的一生,但其写作风格并非一成不变。本文从《福尔摩斯探案集》本身出发,以57篇侦探故事为研究对象,构建词频、词长、单词数、标点出现频率等语言要素指标,利用文本聚类技术对柯南·道尔写作风格进行研究,从统计语言学的角度揭示了不同时期柯南·道尔写作风格的变化。研究结果表明,根据写作风格的不同,柯南·道尔的创作生涯大致可分为两个阶段,且风格的转变与其私人生活的变故、宗教信仰的转变等密切相关。社会大环境的变迁以及作家个人坎坷的人生路程,都是其写作风格发生变化的重要原因。在分析文学作品时,应该紧密联系作者当时所处的社会环境和个人经历,才能对作者有更深刻的理解。通过柯南·道尔作品的文本聚类后,我们对柯南·道尔的生平进行梳理,不难发现1893、1901、1907以及1926年这几个特殊时点可能是与道尔的人生轨迹由第一阶段转变到第二阶段有紧密联系的。(本文来源于《数理统计与管理》期刊2019年05期)
文本聚类论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本聚类论文参考文献
[1].王俊丰,贾晓霞,李志强.基于K-means算法改进的短文本聚类研究与实现[J].信息技术.2019
[2].钱志森,黄瑞章,魏琴,秦永彬,陈艳平.半监督语义动态文本聚类算法[J].电子科技大学学报.2019
[3].杨秀璋,夏换,于小民,武帅,赵紫如.基于特征词典构建和BIRCH算法的中文百科文本聚类研究[J].计算机时代.2019
[4].张延星,王广祥,朱志芸,张蝶依.基于知识图谱词义消歧的文本聚类方法[J].华北理工大学学报(自然科学版).2019
[5]..心理科普信息需求特征测度:基于在线问答社区提问行为与短文本聚类分析技术[C].第二十二届全国心理学学术会议摘要集.2019
[6].杨波,杨文忠,殷亚博,何雪琴,袁婷婷.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计.2019
[7].毕重增.金庸武侠小说词义心理的智能化文本聚类分析[J].心理技术与应用.2019
[8].齐向明,孙煦骄.基于语义簇的中文文本聚类算法[J].吉林大学学报(理学版).2019
[9].赵华茗,余丽,周强.基于均值漂移算法的文本聚类数目优化研究[J].数据分析与知识发现.2019
[10].朱枫怡,岳天泽,王可,刘笑,田茂再.基于柯南·道尔作品的文本聚类应用与探究[J].数理统计与管理.2019