主题爬行器论文_张珏娟

导读:本文包含了主题爬行器论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:主题,搜索引擎,分布式,启发式,网络,社交,算法。

主题爬行器论文文献综述

张珏娟[1](2018)在《基于分布式的主题型爬行器的研究与实现》一文中研究指出数据时代背景下,越来越多的企业、个人都意识到数据的价值,数据的重要性日益凸显,网络资源共享问题成为了越来越多网络研究领域的研究对象。利用互联网,实现数据、网络带宽、机器计算空间等各方面的共享,实现资源的高效整合和利用。由于数据来源分布广、爬取的信息数据量大、数据种类繁杂等特征,导致海量信息无序化,这对于想要获得某个专业领域资源的用户带来不便,用户很难得到精化搜索结果。专业型网站不断涌现,为满足专业型用户查询特定主题的信息,主题爬行器应运而生。较综合型爬行器更适合于现在的网络环境的发展与互联网用户的需求,能够从海量的信息中,更加精确地对其进行查找、抽取等,同时通过分布式处理技术,来加快整体爬行器在页面爬取、存储工作上的效率,以更好的应用于当前网络时代背景。本文针对综合型爬行器对网站的横向信息爬取、搜索结果分散、主题关联性不强即爬取的内容多但不一定主题相关度高等问题,对主题相关度计算的算法进行了分析和研究;通过对链接的结构、网站页面的连通方式和页面内容等多方面内容进行综合,设计出了主题相关度计算算法,基于此算法实现了主题型网络爬行器;针对多爬行器协同工作问题,采用分布式结构进行爬行器的部署,实现了负载均衡和信息交互的分布式主题网络爬行器的并行页面爬取以及存储;针对网页中可能涉及到的网站保护策略,造成爬行器无法爬取问题,研究了相关错误恢复机制,实现对网页的信息抓取。(本文来源于《华东交通大学》期刊2018-06-30)

许刚[2](2015)在《面向特定主题及其传播人群的网络爬行器设计》一文中研究指出在搜索引擎快速发展的今天,作为搜索引擎关键组成部分的网络爬行器也得到了极大的发展,其中针对特定主题(如机票搜索、旅行搜索和视频搜索等)的网络爬行器也越来越受到人们的关注。另一方面,伴随着移动互联网的发展,越来越多的社交应用在发展壮大。例如:微博和微信等以几何倍数增长,同时新闻媒体以及政府公告,也逐步以短消息形式出现。针对论坛、微博和微信等短文本数据,传统方法基本依靠各公司内部提供的关键词搜索。然而,当用户面对大量的文本信息时,为解决信息淹没问题就需要以特定主题为目标提取有用的信息。本文就是在根据工作需求的情况下,设计与实现了面向特定主题的网络爬行器。本文首先介绍了搜索引擎和通用网络爬行器的相关知识。然后对比分析了几种常见搜索策略及相关算法。同时,对主题网络爬行器的技术特点进行了分析。针对特定Web页面的数据获取,本文通过元搜索相关技术来实现。为分析特定主题的传播人群范围,引入微博数据进行分析。充分利用社交媒体中以人为节点的社交网络,在爬取人物节点之后,就可以大致了解对某一重大事件或热点的传播人群并研究社交网络中的人群分布特点。(本文来源于《吉林大学》期刊2015-05-01)

李园伟[3](2011)在《面向高校主题搜索引擎的的爬行器设计》一文中研究指出随着互联网的迅速发展,网页数量越来越多。人们对于网络信息专业化的需求导致了主题搜索引擎的诞生,而网络爬行器效率的高低以及算法的优劣将直接影响搜索引擎的很多性能指标,该文以"高校"为主题,探讨了设计主题爬行器的几个关键性问题。(本文来源于《电脑知识与技术》期刊2011年16期)

王涛[4](2009)在《基于HTML标记的主题爬行器的设计与实现》一文中研究指出爬行器是搜索引擎中重要的组成部分,也是搜索引擎中最为重要的技术之一。爬行器是一个可以从因特网上自动提取网页的系统,它为搜索引擎从互联网上下载网页。通用搜索引擎的爬行器一般是从几个种子URL链接开始进行全盘爬行,而主题搜索引擎的爬行器除了通用爬行器的基本功能外,还能够对链接以及页面内容进行识别,主题爬行器并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,过滤与主题无关的网页,并将获取的网页存入数据库,提供给用户查询。主题爬行器已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。本文首先介绍了主题爬行器的相关技术,接着介绍了通用爬行器和主题爬行器基本原理和工作流程,并分析了通用爬行器与主题爬行器之间的区别,然后介绍爬行器的页面搜索策略和页面分析算法。对于页面主题相关性的判定,首先介绍了传统的基于文本的判定的相关算法,并说明了传统的基于文本算法的不足,并提出了一种“基于HTML标记”的主题相关性判定的方法,根据HTML的标记结构的不同,分别赋予出现在不同类型标记的文本以不同的权重,这样可以确保主题分类的准确性。在实际应用中可以根据不同的情况具体改变HTML标记权重,使之能够达到更好的效果。对于主题爬行器的设计,本文先分析了系统总体设计,然后具体介绍了主题爬行器的系统设计及其实现,首先分析了系统的总体工作流程和各个子模块的划分,然后分别介绍了各个子模块的具体的设计和实现,并分析了在设计各个模块时所存在相对重要的技术问题。在实现的过程中力求模块之间的低耦合并提高主题爬行器的执行效率,并使用“基于HTML标记”的方法提高主题分类的准确和网页的召回率。最后本文针对主题爬行器的爬行的数据进行分析,实验表明该主题爬行器在一定程度上可以提高搜索的准确性。(本文来源于《电子科技大学》期刊2009-06-01)

马奕平,庄敏,叶延风,张霞[5](2008)在《基于伪爬行器的主题式元搜索引擎研究与设计》一文中研究指出为提高搜索的查准率和查全率,设计一个主题式的元搜索引擎和一个类似于爬行器的伪爬行器,通过调用通用搜索引擎采集信息,查全率高于通用搜索引擎。利用反馈机制,参考用户查询历史记录,搜索结果更加接近用户的要求。通过采用主题式策略,改进文档相似度算法,提高分类的正确率和搜索引擎的查准率与搜索范围,同时减少系统响应时间,降低对服务器性能的要求。(本文来源于《计算机工程》期刊2008年22期)

蔡阳波[6](2008)在《基于主题策略的网络爬行器算法研究》一文中研究指出随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成为关键。为解决搜索引擎遇到的诸多难题,已经产生了目录搜索引擎、通用搜索引擎、元搜索引擎、主题搜索引擎、人工智能搜索引擎等研究领域。本论文介绍了搜索引擎的组成及网络爬行器的主要原理,结合网页评价方法分析了基于主题策略的网络爬行器技术和网页隧道穿越技术,对比阐述分析了现有的网络爬行器的关键算法,如Pagerank算法、HITS算法、Fish Search算法、Shark Search算法、Best First算法、A*算法等。在现有的算法基础上,提出新的一种评价网页重要性的方法,将网页链接分析和内容相关度结合起来,构造网页核心度公式和网页辐射空间,并尝试将网页辐射空间与隧道穿越技术结合起来,并进行了数学推理证明,给出了几个关于搜索的定理证明,提出了一种基于主题策略的启发式搜索蛙跳算法。最后,利用一种通用的主题爬行器搜索策略性能评价系统进行了实验论证,对比分析了现有算法与启发式搜索蛙跳算法性能。本论文创新之处首先在于提出了新的网页辐射空间的概念,将传统的网页重要度计算方法PAGERANK与HITS进行结合,文本内容的相似度计算方法仍然作为分析评估网页内容的重要手段。网页核心度具有更加广泛的意义,相比单一的网页链接数计算或网页内容相似度计算,虽然计算量增加了,但是搜索范围却大大缩小了,搜索精度也相应提高,满足了主题搜索的性能要求。第二个创新工作是对网页隧道穿越算法的研究。因为局部信息可能被淹没在全局信息之中,传统主题爬行算法没有区分全局相关性与局部相关性,将一个训练好的分类器作用到比其更宽泛的主题网页上,通常会得到不相关的判断结果。本论文将网页隧道穿越分为两种类型:主题相关隧道穿越(connected tunneling)和主题非相关隧道穿越(non-connected tunneling),并提出了相应的算法。第叁个创新之处是将启发式搜索A*算法应用到主题爬行中,结合网页辐射空间方法和网页隧道穿越技术进行了启发式函数的改进,提出了新的启发式搜索蛙跳算法。数学推理及实验结果表明,本论文提出的启发式搜索蛙跳算法在减少查找响应时间的同时,提高了查全率和查准率,使主题搜索引擎的性能有较大改善。(本文来源于《重庆大学》期刊2008-05-01)

薛艳珠[7](2008)在《主题爬行器的研究与实现》一文中研究指出随着Web的快速式发展,传统的通用搜索引擎技术暴露出了覆盖率低,资源占用多,更新时间长,结果的针对性低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域的查询需求,以面向主题发现的爬行技术应运而生。主题爬行技术是在传统的搜索引擎面向整个网络爬行的基础上,应用机器学习等智能方法,对爬行做主题性的指导,使爬行程序只下载与某一主题相关的页面。主题爬行技术从90年代发展至今,以高度的目标化和专业化在下一代搜索引擎中占据了一席之地。目前对主题爬行器的研究集中在两个热点——文本分类技术和爬行策略。本文对主题爬行的关键技术——文本分类进行了研究。主题爬行器在进行文本分类时,通常用向量空间法的TF-IDF方法来计算特征项的权重,该方法只考虑了特征项在文档中出现的频率(TF)和以及特征项出现的文档数(DF),而没有考虑到特征项在不同位置出现对文档的重要程度是不同的。针对这一缺陷,本文提出了“基于特征项位置信息的权重算法”,对文档中不同位置的特征项赋予不同的加权因子,从而使特征项的权重能够较客观地反映特征项的重要性,提高了分类准确性。在具体实现中,还可以对权重因子进行调整,使之达到更好的效果。根据最佳优先爬行算法的不足,以及人在浏览网页判断一个URL链接页面的内容所利用的信息,本文提出了“基于URL综合信息的爬行策略”:利用当前页面的主题相关度、当前页面中的超链接所包含的URL的目录层次信息以及链接的锚文本信息对待爬行URL的主题相关性进行预估,根据结果将该URL放入不同优先级的待爬行队列中。对于预测主题相关度低的URL也不丢弃,而是放入等待队列中,待其他爬行队列空闲时,爬行这些URL以发现新的主题相关网页。使用这种爬行策略,可以提高主题相关度预测的准确性并能快速下载主题相关的网页。该方法计算简单,提高了爬行的速度和召回率。最后在上述“基于特征项位置信息的权重算法”和“基于URL综合信息的爬行策略”的基础上,设计和实现了主题爬行器,并介绍了系统的体系结构和具体实现技术。(本文来源于《电子科技大学》期刊2008-03-01)

李晓亚,赫枫龄,左万利[8](2007)在《基于网页分块技术主题爬行器的实现》一文中研究指出针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.(本文来源于《吉林大学学报(理学版)》期刊2007年06期)

朴星海[9](2007)在《面向主题的网络爬行器相关技术研究》一文中研究指出随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人们希望的信息,是一个意义巨大的问题。1994年开始出现的基于Web的网络爬行器自然而然地成为人们的希望所在,虽然通用网络爬行器已经给人们提供了极大的便利,但是由于它的综合性,不具备面向专业的特点,所以在准确性和速度等方面存在不足;为了提高信息服务的质量,人们开始研究面向主题的网络爬行器。本文主要研究面向主题网络爬行器的两个方面的问题,一是如何充分定义这里的主题,二是如何有效的排序爬行器的待下载链接队列中的链接,来使得只需访问很少的不相关的页面,就能够得到很多的相关的页面的链接。本文结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示这是一种寻找主题相关页面很有效的方法。Blog作为一种新兴的互联网现象,正在被越来越多的人所关注,本文把Blog作为一种特殊的“主题”,设计并实现了一个面向Blog的网络爬行器。随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络。就目前互联网的规模来说,单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。分布式网络爬行器采用多机并行工作,提高整个系统的工作效率,并具有良好的可扩展性,是必然的发展趋势。本文在分布式设计中,主要考虑了节点内部多个线程的并行和节点之间的分布式并行。并重点讨论了节点之间的分布式并行,其中包括分布式网络爬行器的策略选择和动态可配置性问题两个方面。实验结果显示本文采用的站点散列法基本达到了分布式设计的目标:单台机器的搜集能力不应随着搜集机器数量的增加下降很多,即要在追求负载平衡的同时将系统的通信和管理开销降到最低。(本文来源于《哈尔滨工业大学》期刊2007-07-01)

张秋惠,谢延华[10](2006)在《一种主题型Web爬行器的设计和实现》一文中研究指出随着WWW的迅猛发展,对获取和分析与特定主题相关的网页变得越来越来困难了。本文在对主题型Web搜索的关键技术及其实现要点进行研究和分析后,设计和实现了一个主题搜索引擎核心部分———主题型Web爬行器的原型。(本文来源于《漯河职业技术学院学报(综合版)》期刊2006年03期)

主题爬行器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在搜索引擎快速发展的今天,作为搜索引擎关键组成部分的网络爬行器也得到了极大的发展,其中针对特定主题(如机票搜索、旅行搜索和视频搜索等)的网络爬行器也越来越受到人们的关注。另一方面,伴随着移动互联网的发展,越来越多的社交应用在发展壮大。例如:微博和微信等以几何倍数增长,同时新闻媒体以及政府公告,也逐步以短消息形式出现。针对论坛、微博和微信等短文本数据,传统方法基本依靠各公司内部提供的关键词搜索。然而,当用户面对大量的文本信息时,为解决信息淹没问题就需要以特定主题为目标提取有用的信息。本文就是在根据工作需求的情况下,设计与实现了面向特定主题的网络爬行器。本文首先介绍了搜索引擎和通用网络爬行器的相关知识。然后对比分析了几种常见搜索策略及相关算法。同时,对主题网络爬行器的技术特点进行了分析。针对特定Web页面的数据获取,本文通过元搜索相关技术来实现。为分析特定主题的传播人群范围,引入微博数据进行分析。充分利用社交媒体中以人为节点的社交网络,在爬取人物节点之后,就可以大致了解对某一重大事件或热点的传播人群并研究社交网络中的人群分布特点。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

主题爬行器论文参考文献

[1].张珏娟.基于分布式的主题型爬行器的研究与实现[D].华东交通大学.2018

[2].许刚.面向特定主题及其传播人群的网络爬行器设计[D].吉林大学.2015

[3].李园伟.面向高校主题搜索引擎的的爬行器设计[J].电脑知识与技术.2011

[4].王涛.基于HTML标记的主题爬行器的设计与实现[D].电子科技大学.2009

[5].马奕平,庄敏,叶延风,张霞.基于伪爬行器的主题式元搜索引擎研究与设计[J].计算机工程.2008

[6].蔡阳波.基于主题策略的网络爬行器算法研究[D].重庆大学.2008

[7].薛艳珠.主题爬行器的研究与实现[D].电子科技大学.2008

[8].李晓亚,赫枫龄,左万利.基于网页分块技术主题爬行器的实现[J].吉林大学学报(理学版).2007

[9].朴星海.面向主题的网络爬行器相关技术研究[D].哈尔滨工业大学.2007

[10].张秋惠,谢延华.一种主题型Web爬行器的设计和实现[J].漯河职业技术学院学报(综合版).2006

论文知识图

一,4合作式主题爬行器的系统结构穿越黑色隧道的主题爬行器框架主题爬行器的结构图叁种算法指导下的主题爬行器性...显示了在搜索进程中系统配置模块界面

标签:;  ;  ;  ;  ;  ;  ;  

主题爬行器论文_张珏娟
下载Doc文档

猜你喜欢