作者:何永贤 助理工程师
摘要:本文论述数据挖掘技术在电子商务中的应用,提出选择数据挖掘技术的两个重要依据,以便开发出有效、实用的数据挖掘系统。
关键词:数据挖掘 电子商务
1引言
目前,如何对网络上大量的信息进行有效组织利用,帮助海量数据的拥有者们找出真正有价值的信息和知识,以指导商业决策行为,成为电子商务经营者关注的问题。迅速发展的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。
电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。数据挖掘涉及的学科领域和方法很多,其核心技术历经了数十年的发展,其中包括统计、近邻、聚类、决策树、神经网络和规则等。
今天,这些成熟的技术在电子商务中已进入了实用阶段,并取得了良好的效果。但数据挖掘作为一个新兴领域,在实际应用当中仍存在许多尚未解决的问题。其中最困难的往往在于决定什么时候采用哪种数据挖掘技术。为了对数据挖掘技术进行明智的选择,本文结合数据挖掘技术在电子商务中的应用,从挖掘任务和数据信息两个角度进行分析,指出各种数据挖掘技术适用的场合,以便开发出切实可用的数据挖掘系统。
2数据挖掘的概念及其在电子商务中的应用
2.1数据挖掘的概念
数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。从商业的角度定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘最吸引人的地方是它能建立预测模型而不是回顾型的模型。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。
2.2数据挖掘在电子商务中的应用
由于数据挖掘能带来显著的经济效益,它在电子商务中(特别是金融业、零售业和电信业)应用也越来越广泛。电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。数据挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴Web挖掘技术可以改善检索结果的组织,从而使检索效率得到改善。
在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。
在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、计算机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。
数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。将数据挖掘用在电子商务CRM中主要体现在客户的获取和保持、价值客户鉴别、客户满意度分析及改善站点结构等几方面。
通过数据挖掘,可以理解访问者的动态行为,据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类,对不同类的客户提供个性化服务来提高客户的满意度,从而保持老客户;通过对新访问者的网页浏览记录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性地向他们推荐特定的商品并实现交叉销售,可以提高交易成功率和交易量,提高营销效果。
此外,站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出一类用户对Web站点频繁访问的路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。
3选择数据挖掘技术的两个重要依据
数据挖掘使用的技术很多,其中主要包括统计方法、机器学习方法、和神经网络方法和数据库方法。统计方法可细分为回归分析、判别分析、聚类分析、探索性分析等。机器学习方法可细分为归纳学习方法(决策树、规则归纳)、基于范例学习、遗传算法等。神经网络方法可细分为钱箱神经网络(BP算法)、自组织神经网络等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。由于每一种数据挖掘技术都有其自身的特点和实现的步骤,对数据的形式有具体的要求,并且与具体的应用问题密切相关,因此成功的应用数据挖掘技术以达到目标过程本身就是一件很复杂的事情,本文主要从挖掘任务和可获得的数据两个角度来讨论对数据挖掘技术的选择。
3.1不同的挖掘任务使用不同的挖掘技术
数据挖掘的任务是从数据中发现模式。根据挖掘任务,数据挖掘可分为概念描述、聚集发现、关联规则发现、分类发现、回归发现和序列模式发现等。在选择使用某种数据挖掘技术之前,首先要将待解决的商业问题转化成正确的数据挖掘的任务,然后根据挖掘的任务来选择具体使用某一种或几种挖掘技术。下面具体的分析每一种挖掘任务应使用哪些挖掘技术。
概念描述
概念描述是描述式数据挖掘的最基本形式。它以简洁汇总的形式描述给定的任务相关数据集,提供数据的有趣的一般特性。概念描述由特征化和比较组成。数据特征化是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL查询收集关于这些产品的数据。概念的特征化有两种一般方法:基于数据立方体OLAP的方法和面向属性归纳的方法。二者都是基于属性或维的概化方法.数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比较。例如,将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些产品进行比较。用于数据区分的方法与用于数据特征化的方法类似。总之,进行概念描述挖掘时一般采用面向数据库的方法,另外还可以采用机器学习方法的基于范例学习技术。与机器学习方法相比,面向数据库的概念描述导致在大型数据库和数据仓库中的有效性和可伸缩性。
聚集发现
聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。聚集在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。此外聚类分析可以作为其它算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理。与分类不同,在开始聚集之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好,这时你需要删除或增加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。聚类方法主要有两类,包括统计方法和神经网络方法。自组织神经网络方法和K-均值是比较常用的聚集算法。关联规则发现牛奶)。用于规则发现的对象主要是事务型数据库,分析的是售货数据,®关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对股票涨跌的分析。
回归发现
回归是通过具有已知值的变量来预测其他变量的值。它与分类类似,差别在于前者的预测值是连续的,而后者是离散的。在最简单的情况下,回归采用的是象线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率、利润的大小等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。一般同一个模型既可用于回归也可用于分类,如CART决策树算法既可以用于建立分类树,也可建立回归树。神经网络也一样。
序列模式发现
C出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小值信度C和最小支持度S。另外序列关联规则挖掘中采用的Apriori特性可以用于序列模式的挖掘,另一类挖掘此类模式的方法是基于数据库投影的序列模式生长技术。®B®序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A
3.2理解可以获得的数据的信息。
对可以挖掘的数据进行分析,理解可以获得的数据的信息:内容、字段类型、记录之间的关系。可能影响数据挖掘技术选择的数据性质主要有:
1)种类字段:关联分析和连接分析只适用于种类字段。决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较差,当然如果限制分支的个数的时候,决策树的效果还是不错的。神经元网络,可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。
2)数值字段:神经元网络将所有输入转化到0—1之间。MBR和聚集检测通过距离函数来处理数值字段。决策树可以通过splitter数值来处理数值字段。对于关联分析,则必须将数值变量区间化成种类变量,但是区间的选择是一个很困难的问题。3)每条记录都有大量的字段(独立):记录中的字段很多,神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。而决策树受其影响的程度就比较的小。4)多个目标字段(非独立):对于存在多个依赖变量的情况,神经元网络是最佳的选择。5)记录是变长的 :只有关联规则和连接分析可以直接处理变长记录。对于其他的技术,数据需要一些预处理:可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。6)有时间顺序的数据:神经元网络,关联规则对时间顺序的数据的处理能力比较的好。决策树也能处理时间顺序,但是需要的数据准备就相对较多一点。7)自由文本数据:MBR技术最适合。
4结论
总之在选择一种数据挖掘技术我们应根据商业问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据的模型的算法,确定合适的模型和参数。只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用,使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。
参考文献:
1.《构建面向CRM的数据挖掘应用》/(美)贝尔森,(美)史密斯,(美)西瑞林著;贺奇等译。人民邮电出版社,2001.8
2.《数据挖掘概念与技术》,机械工业出版社,2001.8
3.[AGGR98]R.Agrawal,J.Gehrke,D.Gunopulos,and P.Raghavan.Automatic subspace clustering of high dimensional data mining applications.In Proc.1998 ACM-SIGMOD Int.Conf.Management of Data(SIGMOD`98),Pages94-105.Seattle,WA,June 1998.
何永贤(1976-),男,广东南海人,本科学历,主要从事互联网增值业务系统分析、设计、开发、市场推广等工作,从业10年。