唐锦源:网络舆情监测系统研究综述论文

唐锦源:网络舆情监测系统研究综述论文

【内容摘要】随着“互联网+”时代的到来,大多数舆情都是通过网络爆发并扩散,网络舆情监测系统目前己经受到了不同领域各界人士的广泛关注。本文通过对网络舆情监测系统的研究文献进行分析,认为网络舆情监测系统的研究时间不长,特别是智能识别技术与大数据、云计算等技术结合应用,使得个性化的网络舆情监测和对策成为可能。

【关键词】热点话题;舆论情感倾向;舆论意见领袖;智能识别

一、引言

网络舆情监测系统的构建能够帮助政府部门实时监测舆论话题发展动向,为可能发生的热点话题、敏感话题提供预警机制,能够为调控网络舆论朝良性方向发展提供充足的时间。企业化的网络舆情监测,能够有效地了解用户当前感兴趣的产品和内容,预测未来一段时间内可能感兴趣的产品和内容,为企业推广策略的制定以及发展方向的决策提供参考。可见,网络舆情监测系统可以帮助政府和企事业单位及时发现舆情,并在舆情发展初期应对和处理好舆情事件。

之于过往,那些正在客户企业中轰鸣作响的设备,是高斯人自豪的根本;而之于现在和未来,那份难掩的自豪亦支撑着高斯人着眼于如何走得更远,为客户提供更高的附加值。就目前行业内被谈及最为频繁的两个词“绿色环保”和“智能化”,高斯(中国)确有自己的主张。

网络舆情监测系统的研究对于社会稳定,经济领域和企业具有重要意义。截至2017年12月对中国学术期刊网CNKI,以“网络舆情”为关键词搜索到相关文献8,494条,以“网络舆情监测”为关键词搜索到相关文献377条,其中涉及到“网络舆情监测系统”的相关文献57条。数据显示从2011~2017年,网络舆情监测系统研究的相关文献逐年增多,特别是2015年后数量激增。网络舆情监测系统的研究主要涉及到系统架构、系统的设计与实现、系统应用的关键技术。

二、网络舆论监测系统理论研究

目前,国内外网络舆论监测系统理论研究主要集中在热点话题发现、舆论情感倾向判别和舆论意见领袖识别三个方面。

(一)智能识别热点话题。热点话题的智能识别和建模作为网络舆情监测的基础,实现了从人工到自动化,从文字表达到数字信息的抽象,使得人们可以利用数学工具对文档进行话题提取和话题聚类。根据话题构建方法,可分为向量空间模型和概率话题模型两类。

3.网络用户具有许多特征信息,一些研究者综合各种特征建立模型来识别网络关键节点人物。Li通过分析文本内容、用户行为和时间设计了网络关键节点人物识别的混合框架,框架融合了经验值、新颖度、影响力和活跃度特征。Ellero从关键节点人物能够打破多数规则,加速信息传播速率的角度进行关键节点人物识别和网络舆论演化仿真,实验结果表明,少量的关键节点人物不仅能加快网络舆论的形成,而且可能使整个网络舆论发生逆转。

(二)智能识别舆论情感倾向。由于网络短文本具有网络新词、表情符号多、噪声大、情感特征稀疏等特点,其情感倾向识别的难度更大。特别是,情感倾向识别不仅要提取喜怒哀乐等情绪情感,还要识别情感所涉及的话题。近年来相继出现了一些有针对性的研究方法以解决这些问题。

2.概率话题模型。概率话题模型的思想源于Hofmann在LSI(Latent Semantic Indexing)基础上提出的pLSI模型(probabilistic Latent Semantic Indexing)。pLSI假设每个文档由话题的多项式分布随机而成,文档中每个词由话题生成,不同话题产生不同的词。为解决pLSI对参数求解计算复杂、模型过度拟合等问题,Blei提出了LDA(Latent Dirichlet Allocation)模型。LDA模型的参数不会随着文集增长而线性增长,有很好的泛化能力,是目前机器学习、信息检索等领域很常用的模型。

2.针对网络文本短小,特征稀疏的问题。Zhou利用社会关系信息判断用户观点,从而达到提升准确率的目的。杨等面对微博短文本特征稀疏和上下文缺失的情况,借由时间、空间、联系等要素挖掘文本间隐含的关联关系,重构文本上下文范畴,以提升情感极性分类的有效性。

1.针对网络新词、符号层出不穷,普通情感词典难以识别的问题。Pandarachalil提出一种无度的情感分析方法,该方法利用Senticnet,SentiWordNet和SentilangNet三种情感词典分析网络舆论文本的情感极性,其中SentilangNet情感词典搜集了微博俚语和缩略词,该方法对大规模网络文本情感分析具有良好效果。Yamamoto考虑了符号对于文本情感的影响,提出了基于表情符号的微博多维度情感计算方法。

国内外研发了许多网络舆情监测相关的系统。国内包括方正智思——网络舆情互联网信息监控分析系统及舆情预警辅助决策支持系统、复旦大学C_Analysis舆情分析系统等,这些系统基本上都对网络舆情的数据进行了采集和分类,并提供了一些统计学分析的辅助功能。国外相关系统有:Autonomy公司发布的三大系列专门针对中国市场的应用产品,分别是面向企业的“企业竞争情报智能分析系统”、面向政府部门的“互联网舆情监控分析系统”等。

2.分析用户所发信息的影响力和传播特性,能够更客观准确地发现网络关键节点人物。Goyal认为社团关键节点人物发起的行为能在特定时间段内对一定数量的用户产生影响,并据此使用频繁模式挖掘方法识别社交网络中的关键节点人物。

无线传感网络技术在智能家居中的应用已成为发展的必然趋势[3-4].近距离无线通讯一般采用WiFi、蓝牙、Zigbee等通讯技术,Zigbee是一种采用近距离、低复杂度、自组织、低功耗、低成本的双向无线通讯技术,在无线物联网领域已得到广泛应用.相对而言,WiFi、蓝牙技术存在功耗相对较大,传输距离较近的缺点[5].XBee模块是美国DIGI公司的一款基于Zigbee协议的无线传输模块,实验证明,XBee无线模块的传输范围是一般基于Zigbee协议无线模块的2~3倍,具有更好的通讯距离和抗干扰能力,能有效避免信号盲点,且功耗更低[6-9].

1.社交网络结构能在很大程度上反映某个节点在网络中所处位置的重要程度。如果用户在社交网络中的位置能够如实体现他在社交活动中的领袖地位,利用基于PageRank算法的排名方法就能对其进行度量。Tang把PageRank算法打分最高的1%的用户看作关键节点人物。

(三)智能识别舆论意见领袖。网络舆论意见领袖是指在网络中对其他人产生影响的个体。根据分析数据对象的不同,网络舆论意见领袖识别方法大致可以分为基于网络结构的方法、基于交互信息的方法和基于综合特征的方法。

一是评先评优有倾斜。对回乡创业贡献突出的能人,优先提名为党代表、人大代表、政协委员候选人,优先安排参加劳动模范、优秀企业家等各类荣誉评选。二是授予特殊荣誉。对不担任镇村职务的回乡能人,可以探索设立“新乡贤”“荣誉村民”“先锋党员”等称号,充分尊重其社会表现,给于其荣誉地位,引导社会尊重他们。三是给予适当政治待遇。对表现较好的未担任镇村职务的回乡能人,可以安排其作为特别会议代表,列席一定范围的镇村党务政务会议,可以在重要节庆活动时由组织进行走访慰问。

1.向量空间模型。向量空间模型是TDT中最常使用的话题模型,一般以文档中的词语为向量特征,并由TF*IDF方法计算特征权重。考虑到话题与事件的关系,利用事件的时间、地点和人物所构建的基于向量空间的话题模型得到了广泛关注。

三、网络舆情监测系统应用研究

3.为实现话题与情感的同步提取,Tan在潜在狄利克雷分布模型的基础上,提出了前景和背景LDA模型,用于提取显著的话题并过滤长期存在的背景话题。Ren提出一种结合社交网络文本和话题文本的矩阵因子分解框架,利用可观测的微博知识,预测用户对某一具体话题的观点。马提出一个话题情感混合最大熵LDA模型对网络文本进行细粒度观点挖掘。

四、研究结论及展望

随着网络舆情监测系统的相关研究不断深入,学术成果不断呈现。方法的创新和智能识别技术的发展为网络舆情监测系统研究注入了新的活力,但相关研究还存在问题:一是研究成果的内容主要集中在理论研究,实践应用研究较薄弱。二是基于不同目标对象和不同行业的特定社会领域,构建的网络舆情监测指标体系和系统同质化现象较明显,指标的选取和设计上区分度较低。三是热点话题发现技术的研究较多,舆论情感倾向识别技术和舆论意见领袖识别技术的研究太少。

应用于“工序任务”粒度时,部件任务ti执行过程中时间点Time处的数据快照v(Time)和从开始到时间点Time的数据状态u(Time)也采用类似方法定义。

在综合国内外主流理论、方法、模型以及实际舆论数据的基础上,本文认为接下来可以重点研究智能识别技术在网络舆情监测系统中的应用:一是舆情监测系统自动发现网络舆论热点话题,进行及时的舆情等级预警;二是智能分析和展示网民对于网络舆论话题的情感倾向分布,帮助有关部门把握舆论脉搏;三是构建意见领袖综合评价指标,有效识别在网络舆论发生、发展过程中起到重要作用的意见领袖,为舆论引导策略的有效制定提供重要依据。

【参考文献】

[1]赵旭剑.中文新闻话题动态演化及其关键技术研究[D].中国科学技术大学,2012

[2]仲兆满,刘宗田,周文,付剑锋.事件关系模型[J].中文信息学报,2009,23:56~60

[3]R.Pandarachalil,S. Sendhilkumar,G. S. Mahalakshmi,Twitter sentiment analysis for large-scale data:an unsupervised approach[J].Cognitive Computation,2015,7(2):254~262

[4]Y. Yamamoto,T. Kumamoto,A. Nadamoto,Multidimensional sentiment calculation method for Twitter based on emoticons[J].International Journal of Pervasive Computing and Communications,2015,11(2):212~232

[5]X. Zhou,E. Coiera,G. Tsafnat,et al.Using social connection information to improve opinion mining:identifying negative sentiment about HPV vaccines on Twitter[J].Studies in Health Technology and Informatics,2015,216:761~765

[6]杨震,赖英旭,段立娟等.基于上下文重构的短文本情感极性判别研究[J].自动化学报,2012,38(1):55~67

[7]S. Tan,Y. Li, H. Sun,et al.Interpreting the public sentiment variations on twitter[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(5):1158~1170

[8]F. Ren,Y. Wu,Predicting user-topic opinions in twitter with social and topical context[J].IEEE Transactions on Affective Computing,2013,4(4):412~424

[9]马长林,谢罗迪,王梦等.基于主题情感混合模型的细粒度观点挖掘[J].华中科技大学学报(自然科学版),2015,43:66~70

[10]吴信东,李毅,李磊.在线社交网络影响力分析[J].计算机学报,2014,37(4):735~752

[11]J. Tang,T. Lou, J. Kleinberg,Inferring social ties across heterogenous networks[A].Proceedings of the Fifth ACM International Conference on Web Search and Data Mining[C].ACM,2012

[12]Y. Li,S. Ma, Y. Zhang,et al.An improved mix framework for opinion leader identification in online learning communities[J].Knowledge-Based Systems,2013,43:43~51

[13]A. Ellero,G. Fasano,A. Sorato,Stochastic model of agent interaction with opinion leaders[J].Physical Review E,2013,87(4-1):04280601-04280617

[14]游丹丹,陈福集.我国网络舆情热点话题发现研究综述[J].现代情报,2017,37(3):165~171

[15]项珑.基于特征提取和主题模型的文本分类研究[D].安徽大学,2013,4

[16]司夏萌,刘云,程辉等.基于态势评估的网络舆论监控与引导系统的研究[J].网络安全技术与应用,2009,12

[17]翁承豪.基于LBSN的时空敏感的景点推荐[D].东南大学,2016,6

[18]程辉.网络用户偏好分析及话题趋势预测方法研究[D].北京交通大学,2013,6

[19]颜月明.基于话题模型的微博热点话题演化分析[D].西安电子科技大学,2017,6

[20]张姗姗.基于微博热点话题演变分析方法的研究[D].河北科技大学,2017,12

【基金项目】本文为四川省教育厅科研项目“智能识别技术在网络舆情监测系统中的应用研究”(编号:18ZB0028)阶段性成果。

【作者简介】唐锦源(1970.7~),女,湖南衡阳人;成都工贸职业技术学院高级工程师;研究方向:信息安全、网络舆情监测系统

吴越,任亮;成都工贸职业技术学院

2.4 慢性病知识知晓与饮食和身体活动态度的关系 将小学生按是否知晓慢性病知识分为两组,分析发现知晓组持有正确饮食和身体活动态度的比例均高于不知晓组,差异均具有统计学意义。见表4。高盐饮食容易导致高血压或血压升高:知晓组42.1%,不知晓组27.3%(χ2=281.99,P<0.05);每人每天吃盐量不宜超过6g:知晓组43.4%,不知晓组30.9%(χ2=100.10,P<0.05);每人每天吃盐量不宜超过25g:知晓组43.3%,不知晓组31.2%(χ2=78.27,P<0.05)。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

唐锦源:网络舆情监测系统研究综述论文
下载Doc文档

猜你喜欢