来源:学习时报 更新时间:2014-03-17
习近平总书记在全国宣传思想工作会议上提出,宣传思想工作创新,重点要抓好理念创新、手段创新。这些新思想、新论断为新形势下做好网络舆情监测与引导工作提出了新的更高的要求。借助于新理念、新技术、新方法,准确把握网络舆情的内在特征及其在演化过程中的潜在规律,对于新形势下推动网络媒体与传统媒体的良性互动,聚合网络舆论正能量,做好网络舆论引导和网络宣传工作,具有重要的理论意义和实践价值。
网络舆情监测与引导呼唤与数据挖掘的有机融合
云计算、物联网、智慧城市、大数据等新技术和新理念的出现使网络舆情支撑技术大环境正在进行着深刻的变革,给公民听政、参政、议政、督政提供了新的技术平台,给党政机关拓宽了解世情民意的渠道,网络逐渐成为公众便捷获取信息、及时表达民情、充分反映民意的主渠道,同时也必然产生巨大的舆论压力。随着海量网络舆情成指数增加,虽然传统的数据处理技术能够较好地完成舆情统计与分析,OLAP等在线分析处理技术也可以实现对舆情研判、决策等基本功能,但很显然,这些技术由于不支持对海量舆情潜在信息的发现与挖掘,也无法找到舆情信息间存在的关系或规则,不能根据现有舆情预测未来发展趋势,由此导致了“数据爆炸,知识贫乏”的奇怪现象。时代热切企盼着网络舆情引导的理念创新与技术创新。
在这种背景下,必须充分认识到利用数据挖掘技术进行网络舆情监测、研判和引导的迫切性,发挥数据挖掘技术在网络舆情监测与引导中的独特优势,从而实现对网络舆情及时发现、快速分析、准确追踪、理性引导。
数据挖掘助力网络舆情监测与引导的路径选择
要使数据挖掘有效助力网络舆情监测与引导,首先应根据网络舆情演化规律,构建适用于网络舆情挖掘的相关模型和技术方法,使之满足网络等复杂系统中不同舆情对象间的复杂关系分析,从而为网络舆情挖掘线路与进程提供理论基础,实现一般数据挖掘模型和技术方法与网络舆情挖掘与分析的有机融合。数据挖掘技术在网络舆情引导中的应用可从以下四个方面展开。
网络舆情关联分析。关联规则挖掘由Rakesh Apwal等人提出后得到了广泛应用,如众人耳熟能详的啤酒与尿布的营销策略早已成为超市营销决策中的经典。时至今日,关联规则挖掘的对象也已由基本的关系数据库拓展到空间数据库、多媒体数据库乃至网络数据库,并且力求挖掘出用户感兴趣的、深层次的、通用的关联规则。舆情关联关系是网络舆情数据库中存在的一类重要的、可被发现的知识,首先需要分析网络事件表征参数间的关系,进而发现网络舆情中隐藏的舆情关联。为了更准确表示网络舆情之间的关联度,引入网络舆情支持度和网络舆情可信度来量化网络舆情关联规则的相关性,从而使挖掘结果更准确。例如,基于网络舆情关联规则挖掘,分析新浪微博中活跃者间关联强度、坚定支持者人数以及坚定支持者成员的变化频度等三个时间序列间的关联规则,挖掘出新浪微博舆情的关联关系,进而为舆情研判提供重要依据。
网络舆情级别划分。社会突发事件根据自身性质、社会危害程度、影响范围三个指标,可以划分为四级,即一般严重事件、比较严重事件、相当严重事件与特别严重事件。突发公共事件的等级划分可以为网络舆情的级别划分提供了重要依据。网络舆情级别划分是根据网络舆情的特征判断该舆情的严重程度。在对网络舆情进行级别划分时,首先需要构造网络舆情分类器,然后利用分类器给未知类别的网络舆情赋予类别。构造分类器的过程一般包括训练与测试两个阶段。在训练阶段,建立模型描述预定的网络舆情集的特征,集合中的每一条舆情信息都属于一个预先给定的类别(如一般严重),利用类标签属性来标识类别。用于创建模型的网络舆情集一般被称为训练集,可以用数学公式、分类规则(IF—THEN)、神经网络或判定树等模型来描述一个预先确定的舆情集合,即进行有监督的学习。在测试阶段,使用创建的模型在网络舆情测试集上进行预测,并将测试结果与实际值进行比较,利用测试集中被正确分类的舆情的百分比来估计模型的准确率。经过以上两个过程,便可以形成性能稳定、准确率较高的网络舆情分类模型。当新的未知类别的网络舆情出现后,便可以把该舆情的相关信息输入到分类模型中,然后由分类模型判断该舆情的严重程度。
网络舆情聚类。网络舆情聚类分析是指事先不了解网络舆情集合中每一个网络舆情样本所属的程度级别,而是根据网络舆情的主要特征,如舆情发生时间、评论数量、传播频度等,把相同或相近特征的网络舆情归为一类,从而实现舆情聚类。从机器学习的角度讲,舆情聚类是搜索舆情簇的无监督学习过程。在舆情聚类过程中,分在同一个簇里的舆情对象具有很高的相似性,而不同簇中的舆情对象之间的相似性非常低。所形成的每个舆情簇都可以看作一个舆情类,由它可以导出规则。与级别划分不同,聚类只对舆情数据进行分析,由于最初并不知道如何开始,所以训练舆情数据一般不提供级别标记,但是随着聚类过程不断推进,可以自动给不同舆情簇分配对应的舆情级别标记。
网络舆情倾向性分析。网络舆情倾向性是指网民对客观事物或公共事件所蕴涵的感情、观点、态度和立场。网络具有开放性、虚拟性与匿名性的特征,给公众提供了真实表达民意、反映民情、抒发民绪的平台,同时,网络的这些特性也容易使普通事件辅以情绪化的评论,从而可能成为点燃网络舆论的导火索。无论从“我爸是李刚”权力傲慢引起的广泛关注,还是到“没有强拆就没有新中国”畸形强拆观导致的普遍民愤,无不淋漓尽致地体现了网络舆情的这些特性。在此情境下,网络上容易出现激进甚至庸俗、灰色的言论,不利于互联网健康发展。因此需要借助新技术研究网络舆情的倾向性及其形成与扩散特征,有效分析网络舆情发生、发展、变化的规律,从而为网络舆情未来的发展趋势做出及时、全面、准确的判断,为相关部门提供重要决策支持。网络舆情倾向性分析是指通过数据挖掘技术,自动将网络舆情所包含的褒贬因素挖掘出来,明确信息传播者的真正意图和倾向性。网络舆情倾向性分析主要包括基于语义的网络舆情倾向性分析与基于机器学习的网络舆情倾向性分析,目前在技术、方法与模型方面均有深入研究,主要包括序列模式挖掘方法、情感分析、主题分析等。通过这些技术方法,将网络舆情中丰富的情感倾向进行定性定量分析,及时掌握网络舆情变化趋势。在此基础上,通过对随时间持续变化的舆情进行研判,可以较好地把握网络舆情的演化规律及动态。
数据挖掘视域下网络舆情监测与引导的实践价值
新形势下,强化网络舆情监测与引导工作不仅具有深远的理论意义,而且具有重大的实践价值。我们要坚持网络舆情引导工作的顶层设计和摸着石头过河相结合的原则,理论研究推进和重点技术突破相促进,充分挖掘网络舆情传播的新特征、新规律、新机理,在网络舆情监测与引导过程中,要把互联网这个平台用好、用足、管好、管严,进一步提升做好网络舆情监测与引导工作的自觉性、坚定性,进一步增强责任感、使命感;坚守网络舆论把关人的职责,借力数据挖掘技术不断创新网络舆情监测与引导的技术方法,着力打造融合数据挖掘技术的网络舆情监测与引导的新理念、新范畴、新应用,牢牢把握正确网络舆论导向,把互联网建设成党的路线方针政策的学习、研究和宣传的前沿阵地,构筑成开展中国特色社会主义宣传教育的重要平台。进而通过网络引导,努力孕育和积聚正能量,积极培育和践行社会主义核心价值观,在网络引导中致力于全面提高公民道德素质,培育知荣辱、讲正气、作奉献、促和谐的网络风尚,铸就讲好中国故事、传播好中国声音的网络舆论生态。
【名词解释】数据挖掘,也称作基于数据库的知识发现,不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,帮助人们从大量的数据中智能、自动抽取出隐含的、事先未知的、具有潜在价值的知识。(本文系国家行政学院招标课题《新媒体管理及网络舆情引导》与《电子政务环境下的政府信息公开模式研究》的阶段性研究成果。作者单位:国家行政学院电子政务研究中心)