电子政务中的数据挖掘
来源:中国电子政务网 更新时间:2013-05-07

数据挖掘电子政务网络数据分析数据库internet电子政务是从政府的角度出发,服务于社会、企业和个人的电子商务应用之一。作为一种基于网络,符合Internet标准,面向政府机关、企业以及社会公众的信息服务和信息处理系统,信息的获 取、利用和开发是必须解决的问题。目前的网络技术不具备信息自主开发能力。网络提供给用户的 只是信息素材或粗加工过的信息,不能立即应用于实际,而且为了得到这类原始信息或数据,通常 要经过一连串的网上操作,查询效率低,即信息的利用率低。特别是,对于不熟悉英文的大多数中 文用户而言,即使有良好的中文交互环境,仍然不可能充分利用Internet上本来可以利用的大量信息 资源,这种现状无法适应电子政务对高质量的网络信息服务的需求,网络信息中的数据挖掘(Data Mining)技术就是在这样一种环境下应运而生的。

一、电子政务需要数据挖掘 数据挖掘技术是人们对数据库技术不断研究和开发的结果,是继网络之后的又一个技术热点。自 1989年出现以来,经过十多年的发展,数据挖掘技术已趋于成熟,并已投入商业应用。世界上比较 有影响的典型数据挖掘系统有:SPSS公司的Clementine、IBM公司的Intelligent Miner、SGI公司的 SetMiner、SAS公司的Enterprise Miner、RuleQuest Research公司的See5, 还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。知名的Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为“未来3~5年内将对工业产生深远影响的五大 关键技术之首”。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,抽取隐含在其 中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从更广义的角度来讲,数据挖掘 就是在一些事实或观察数据的集合中寻找模式的决策支持过程。因此,挖掘的对象不仅是数据库, 还可以是任何组织在一起的数据集合。数据挖掘最初针对的是大型数据库,而电子政务中的数据挖 掘技术是基于网络的,即所谓的网络数据挖掘,它除了处理传统数据库中的数值型的结构化数据 外,处理更多的是文本、图形、图像、WWW信息资源等半结构、非结构的数据。

二、网络数据挖掘有固定流程 关于网络数据挖掘技术,目前众说纷纭。有人认为,网络数据挖掘就是利用数据挖掘技术,自动 地从网络文档以及服务中发现和抽取信息的过程。可以将网络数据挖掘分为四个步骤:

(1)确定业务对象 虽然网络数据挖掘的最后结构是不可预测的,但对要探索的问题应该有所预 见,不能盲目地为了数据挖掘而数据挖掘。清晰地定义出业务问题,认清数据挖掘的目的是网络数据 挖掘的重要一步。

(2)数据准备 网络数据挖掘的数据来自两个方面:一方面是客户的背景信息,主要来源于客户登 记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),人们主要用这部分数据考察客户 的行为表现。由于客户的背景信息涉及个人隐私,因此客户不愿意把个人信息如实填写在登记表 上,这给数据分析和挖掘带来困难。在这种情况下,不得不从浏览者的表现数据中推测客户的背景 信息,进而再加以利用。数据准备首先检索所需的网络文档,发现资源;然后进行数据预处理,从发 现的网络资源中自动挑选和预处理得到专门的信息。

(3)网络数据挖掘 从单个的Web站点以及多个站点之间的网络资源中发现普遍的模式。

(4)结果分析 对挖掘出的结果,即普遍模式进行确认或者解释。

在整个网络数据挖掘的过程中,被研究的业务对象是挖掘过程的基础,它驱动整个网络数据挖 掘的全过程,同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。数据挖掘的过程并非自动 的,许多工作需要人工完成。数据挖掘对数据有着严格的要求,先期的数据准备工作要占用60%的时 间,且对数据挖掘的成败至关重要。

三、网络数据挖掘离不开专业人员 由于网络数据挖掘的若干工作需要人工完成,并且数据挖掘过程是分步实现的,因此不同步骤的 工作需要具有不同专长的人员,大体可以将他们分为三类:

(1)业务分析人员:精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算 法的业务需求。

(2)数据分析人员:精通数据分析技术,并较熟练地掌握统计学方法,能够把业务需求转化为数据挖 掘的各步操作,并为每步操作选择合适的技术。

(3)数据管理人员:精通数据管理技术,能从数据库、数据仓库和各种网络资源中检索、收集适于 挖掘的数据。 由此可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入,同 时获得高回报的过程。

四、网络数据挖掘形式多样 根据不同的网络数据挖掘对象,人们将网络数据挖掘分为网络内容挖掘(Web content mining)、网 络结构挖掘(Web structure mining)以及网络用法挖掘(Web usage mining)。

(1)网络内容挖掘 网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的。 网络内容挖掘就是一个从网络信息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体 数据,因此网络内容挖掘也将是一种多媒体数据挖掘形式。

(2) 网络结构挖掘 网络结构挖掘就是挖掘Web潜在的链接结构模式。通过分析一个网页链接和 被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获 得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点。

(3)网络用法挖掘 网络内容挖掘和网络结构挖掘的挖掘对象是网上的原始数据,而网络用法挖 掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、代理 服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式 等。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。

五、在电子政务中应用网络数据挖掘 电子政务位于世界各国积极倡导的“信息高速公路”五个领域(电子政务、电子商务、远程教 育、远程医疗、电子娱乐)之首,说明政府信息化是社会信息化的基础。电子政务包括政府的信息 服务、电子贸易、电子化政府、政府部门重构、群众参与政府五个方面的内容。将网络数据挖掘技 术引入电子政务中,可以大大提高政府信息化水平,促进整个社会的信息化。具体体现在以下几个 方面:

(1) 政府的电子贸易 在服务器以及浏览器端日志记录的数据中隐藏着模式信息,运用网络用法 挖掘技术可以自动发现系统的访问模式和用户的行为模式,从而进行预测分析。例如,通过评价用 户对某一信息资源浏览所花费的时间,可以判断出用户对何种资源感兴趣;对日志文件所收集到的域 名数据,根据国家或类型进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。这项技 术已经有效地运用在政府电子贸易中。

(2)网站设计 通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信 息,如采用自动归类技术实现网站信息的层次性组织;同时可以结合对用户访问日志记录信息的挖 掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用 户。

(3) 搜索引擎 网络数据挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可 以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过对用户所使用的提问式 的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果;另外,运用网络内容挖掘技 术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。

(4) 决策支持 为政府重大政策出台提供决策支持。如,通过对网络各种经济资源的挖掘,确定 未来经济的走势,从而制定出相应的宏观经济调控政策。 从世界范围来看,电子政务并未真正得以实现。英国虽然在这一方面全球领先,但也仅有60%的 政府机构的互连网服务网站已开通或正在建设。随着电子政务和网络用户对高品质、个性化的信息 需求的不断扩大,将对网络数据挖掘技术提出更高的要求,推动这一技术不断地发展与完善,更好 地为电子政务服务,从而提高全球的信息化水平。