来源:企业经济杂志 更新时间:2014-08-28
在竞争日益激烈的商业环境中,对信息处理和利用是企业兴衰成败的关键。充分利用、发掘企业现有数据,能帮助决策者发现市场规律和趋势、监控风险,面对快速变化的商业环境作出更敏捷、合理的商业决策,提高企业的竞争力。本文论述商务智能实现技术: 从建立数据仓库、联机分析处理和数据挖掘等技术,到商务智能系统有效优化数据结构,并对数据进行分析,挖掘出潜在的模式,有效地预测市场的行为,并作出正确的决策。
一、商务智能的定义
学术界对商务智能的定义并不统一。商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的系统化工具。这里的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商务智能辅助的业务经营决策者,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理( OLAP) 和数据挖掘等技术。
笔者认为: 将商务智能利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,使之转换成有用信息,并以可视化的形式加以表现,使企业的各级决策者获得知识和洞察力,采取有效的商务行动。它是完善各种商务流程、提升各方面商务绩效、增强综合竞争力的有力工具,它是数据仓库、OLAP 和数据挖掘等技术的综合运用。
目前,各个行业都面对着激烈的竞争,及时、准确的决策,已成为企业生存与发展的生命线。随着信息技术在企业中的普遍应用,企业产生了大量有价值的数据,但这些数据大都存储于不同的系统中,数据的定义和格式也不统一,商务智能系统能从不同的数据源搜集的数据中提取有用的信息,并对这些数据进行清洗,以确保数据的正确性,在对数据进行转换、重构等操作后,将其存入数据仓库或数据集市中,再运用适合的查询分析工具、数据挖掘工具、OLAP 工具等管理分析工具对信息进行处理,使信息变为辅助决策的知识,并将知识以适当的方式展示在决策者面前,供决策者运筹帷幄。
二、商务智能系统的基本架构
1. 数据源层。数据源层是商务智能系统的数据来源,它保存着系统所需的最原始数据以及数据之间的关系,保持着历史的真实性。
2. 数据整合层。数据整合层是商务智能系统的根本要求,它将来自不同数据源的信息合并为相同的信息结构,消除重复、无效的数据,提取、净化和传递数据到数据仓库的文件中。
3. 数据仓库层。数据仓库层是商务智能系统的基础,是数据分析的源数据,保存着大量的、面向主题的、集成的数据。
4. 数据分析层。数据分析层是智能系统的关键,一般采用 OLAP 技术和数据挖掘技术对数据进行分析和处理。
5. 数据展现层。数据展现层向商务智能环境的收益者提供实际的分析结果,同时保证系统分析结果的可视化,有报表、图表、数据表形式的信息等。
三、商务智能系统的关键技术
( 一) 数据仓库技术。数据仓库(Data Warehouse)是一种数据集合,这些数据来自于异地、异构数据源或数据库,经加工后在数据仓库中存储、提取和维护,面向复杂的数据分析,用于支持管理决策。数据仓库一般规模极大,数据纯净度极高并且检索性能极佳。有些数据仓库包含多达 200 - 500G 的数据,但是巨大的规模并未以质量低下为代价,数据的全面过滤使它们比一般商用数据库品质高。
数据仓库专家 Inmon W.H.在其著作中描述如下: 数据仓库 (Data Warehouse) 是一个面向主题的 (Subject Oriented)、集成的 (Integrate)、相对稳定的 (Non Volatile)、反映历史变化( Time Variant ) 的数据集合,用于支持管理决策。
数据仓库具有以下 6 个特点:
1. 面向主题。数据仓库中的数据是按照一定的主题组织起来的。所谓主题,是指一个在高层次上对数据进行抽象分类的标准,每个主题对应一个目标分析领域或者叫做职能域,各领域彼此独立,各有自己的逻辑内涵,相互之间没有交叉。如一个银行的数据仓库的主题可以是客户、财务、结算等,这些主题基本与银行各职能划分相对应。
2. 集成性。由于数据来源的异构性,所有历史数据在进入数据仓库之前,必须经过数据重组,以有效地支持后续的联机数据分析和数据挖掘等技术。即必须消除源数据中的不一致性,以保证数据仓库内的信息是整个企业的一致的、全局的信息。
3. 反映历史变化。数据仓库中的数据都是历史数据,记录着企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据的保存时限要能够满足决策分析的需要,一般为5-10 年。
4. 相对稳定性 。数据仓库的数据主要供企业决策分析用,所涉及的数据操作主要是数据查询,某个数据一旦进入数据仓库,一般情况下将被长期保留,对数据仓库修改和删除操作很少,通常只进行定期的加载、刷新,不进行实时更新。
5. 数据的集合性。数据的集合性是指数据仓库必须以某种数据集合的形式存储起来,数据仓库采用的数据集合方式主要以多维数据库方式存储的多维模式、以关系数据库方式存储的关系模式,以及多维模式和关系模式的混合模式。
6. 决策支持作用。决策支持作用是数据仓库核心的应用,建立数据仓库的目的是将企业多年来收集到的数据按照一个统一的规则组织存储,然后通过对海量的数据进行分析、提供决策,帮助企业及时、准确地把握机会,以在激烈的市场竞争中取得最大的利润。
数据仓库技术是信息技术飞速发展的结果,它与传统的面向操作的数据库技术相比有很大的不同,从结构上看,数据仓库主要包括: 数据源、数据准备区、数据仓库数据库、数据集市、知识挖掘库、管理工具和应用工具等部分。
数据源——— 数据仓库的数据来源。
数据准备区——— 数据源中的数据经抽取、转换,最终成为数据仓库所需要的数据。
数据仓库数据库——— 负责存储用于分析、决策的数据,包含对元数据的管理。
数据集市、知识挖掘库——— 局部数据仓库或部门数据仓库,为指定的应用提供数据。
管理工具和应用工具——— 包括各种对数据仓库的数据分析和数据访问,如利用 OLAP 进行数据分析,数据仓库应用程序等。
( 二) OLAP 分析技术。联机分析处理技术是基于数据仓库的数据分析,并将其转换成辅助决策的信息。它是针对特定问题的联机数据访问和数据分析而产生的一种技术,它满足 OLTP 从多种角度对数据进行快速、一致、交互地分析,克服传统 OLTP 交互能力差的弊病,使决策者能够对数据进行深入观察。
OLAP 是由 E.F.Godd 于1993年提出的,Godd认为联机事务处理已经不能满足终端用户对数据库查询分析的需要,SQL 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Godd 提出了多维数据库和多维分析的概念,即 OLAP。它是针对特定问题的联机数据访问和分析。通过对多维数据的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入观察。
OLAP 的多 维 分 析 是指 对 多 维 数据 集 中的 数 据 用 切 片( 一维 ) 切块 ( 二维 ) ,钻取 ( 向下钻取和向上钻取,钻取的深度与维数划分的层次相对应)、旋转 (通过旋转可以得到不同视角的数据) 等方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。通过这些方法能够使分析人员深入地了解数据仓库中数据所蕴含的信息,从而挖掘隐藏在数据背后的商业模式。
在商务智能的建设过程中,数据仓库和数据集市都是数据的存储区域,都在为数据的在线分析和挖掘提供数据源。数据仓库和数据集市主要是范围的不同。数据仓库面向企业的所有部门,所以它的需求是全企业范围的,一般情况下,它的数据按照第三范式组织。数据集市是面向企业的某一个部门的,需求比较集中,以多维方式的形式管理数据。
(三) 数据挖掘技术。数据挖掘(Data M fining)指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的、有用的信息。通过决策树、遗传算法、神经网络、聚类等数据挖掘方法,对存在于数据库或数据仓库中的大量原始数据进行深层次的挖掘,为决策者提供有用的信息。
1. 数据挖掘研究的主要内容
数据挖掘所发现的知识最常见的有以下 4 类:
(1) 广义知识: 广义知识是指类别特征为概括性描述的知识,是根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。
(2) 关联知识: 关联知识是指反映一个事件和其他事件之间信赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。著名的关联规则发现方法是 R. Agrawal 提出来的 Apriori算法。
(3) 分类知识: 分类知识是反映同类事物共同性质的特征型和不同事物之间的差异特征型知识。最为典型的分类方法是基于决策树的分类方法,还有统计、粗糙集 (Rough Set)、神经网络等方法。
(4) 预测型知识: 预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为它是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。
此外,还可以发现其他类型的知识,如偏差型知识,它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。
2. 数据挖掘的常用技术
(1) 神经网络: 它从结构上模仿生物神经元结构,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征采掘等多种挖掘任务。
(2) 决策树: 代表着决策集的树形结构。
(3) 规则推导: 从统计意义上对数据中的“如果——— 那么”规则进行寻求和推导。
(4) 遗传算法: 基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法的优化技术。
(5) 近邻算法: 将数据集合中每一记录进行分类的方法。这种技术通过 n 个与之最相近的历史记录的组合来辨别新的记录。
( 四) 数据仓库和 OLAP 与数据挖掘的关系。数据挖掘不是必须基于数据仓库的,数据挖掘能够通过数据抽取、数据预处理和转换等操作来完成数据挖掘前的准备工作,继而进行数据挖掘。然而,这部分的工作需要耗费大量的时间和精力,而进行数据挖掘又无法避开这些操作,因此,将数据挖掘工作基于数据仓库技术来进行,能够省去数据的前期准备等工作,大大提高数据挖掘效率,因为数据仓库在建立的时候,已经完成了数据的抽取、转换和加载等操作。
OLAP 作为数据仓库中的关键技术,不仅可以在使用多维数据模型的数据仓库或数据集市上进行,充分发挥 OLAP的联机分析的功能和特性。将 OLAP 与数据挖掘进行结合,能够为数据挖掘提供基础数据支持,提高数据挖掘的效率,而且还可以实现联机分析数据挖掘的功能。用户常常希望穿越数据库,选择相关数据,在不同的粒度上进行分析,并以不同的形式显示结果。联机分析数据挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘的工具,在数据立方体和挖掘的中间结果数据上进行下钻、上卷、旋转、切片、切块等操作,提高数据挖掘探测性的数据分析的能力和灵活性。
采用数据挖掘与数据仓库和 OLAP 技术有机结合的方式,可以使数据挖掘具有更高的实用性和高效性。
四、结束语
随着市场竞争的日益加剧,国内外众多商务智能软件公司开发了数据分析和数据挖掘软件来分析海量数据,帮助管理者穿越数据迷雾,赋予数据第二次生命,相信在不久的将来,人们在面对大量的数据时不再感到迷茫,而是能够以用户需要的方式重新组织这些数据,并通过对这些数据的分析,挖掘出潜在的模式,有效地预测市场的行为,做出正确的决策。