数据仓库让数据变成知识
来源:中国计算机用户 更新时间:2012-04-14

在数据仓库应用的帮助下,企业决策者可以从质量、区域收入和产量等基本面上对企业性能进行跟踪,并基于这些可靠的信息采取快速、明智的行动。

  长期积累的数据是资源,是财富,更是一种急待我们去消化的知识。用户需要知识

  企业信息化发展到一定程度,在应用如ERP、SCM、CRM过程中,大量不同数据产生并积累,形成大量的报表信息,不同应用所形成的信息更容易形成信息孤岛。如何才能充分应用不同业务部门的详尽数据进行综合分析,以往企业都是耗费人力资源去做这些工作。

  上述因素引发企业急需一种平台,能有助于把客户和运作数据智能的转化为知识,使企业作出更佳决策,赢得市场竞争优势。这就是商业智能最基本的应用。

  其实,商业智能一直存在于企业的日常工作当中。如企业对数据的基本整理后对报表进行分析,并通过分析后的结果制定未来相应的工作计划等,这些都是商业智能的表现。

  商业智能(BI)的概念最早是由Gartner Group的Howard Dresner于1996年提出来的。确切地讲,商业智能并不是一项新技术,它是将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技术与客户关系管理(CRM)结合起来应用于商业活动实际过程当中,及时服务于管理层决策的目的。

  商业智能不再仅仅是一种概念、一种技术,它更多地成为了一种业务层面的需求,它的应用使用户能够认清趋势、识别模式、获取洞察力和得出结论,最终为企业决策提供完善的应用服务。

  如何才能从海量数据中提取出智能信息来支持企业决策呢?这是企业亟须解决的战略之一,数据仓库是商业智能的基石,成了企业解决需求的首选。

  数据仓库技术是为了有效地把操作形数据集成到统一的环境中,以提供决策型数据访问的各种技术和模块的总称。数据仓库是商业智能里关键的一个环境,而不是一件产品。

  它利用所有可能的数据为分析统计和快速而正确的决策支持,通过它可满足决策支持和联机分析应用所要求的一切。以往的关系型数据库因为其简单的数据模型, 不灵活的构架, 极差的事务处理性能等缺点,造成了以商务智能为目的高性能和高扩展能力的数据环境不可能迁移到关系型数据库上。

  数据仓库并没有严格的数学理论基础,它更偏向于工程。这与关系数据库不同。由于数据仓库的这种工程性, 因而在技术上可以根据它的工作过程分为:数据的抽取、 存储和管理、 数据的表现以及数据仓库设计的技术咨询四个方面。

  在Gartner对1000多个企业 CIO的调查中显示,超过半数的 CIO认为,数据仓库软件的运用将会成倍提高企业数据分析能力和决策能力,且企业在这方面的预算将会不断增长。来自IDC的数据表明:亚太地区商业智能软件市场将以每年23%的速度加大,预计在 2006年将达33亿美元,而数据仓库系统作为商业智能软件重要组成部分,在中国市场上的发展十分顺利,目前中国已经成为数据仓库在亚太地区增长最为迅速的市场之一。

  让问题变得清晰

  国内数据仓库从2002年后开始迅猛的发展,数据量比较多的行业已经启动BI解决方案的规划和实施,移动、金融处于领先位置。它们大都使用了比较先进的数据仓库技术,建立了比较灵活可扩展的数据仓库基础设施。

  国内企业使用水平还比较初及,仍以报表、指标为主,有些系统建立了比较复杂的数据挖掘预测模型。应用的全面推广和对业务用户的培训是当务之急,以便全方位、深入地挖掘BI解决方案业务价值,获得更大的投资回报。

  以山东建行为例,在山东建行商业智能项目开发过程中遇到的第一个问题是项目的组织管理问题,山东建行拥有四级机构,即省分行、二级分行(地市)、支行(县区)、网点,如果加上建设银行总行这一级,管理信息平台所面对的是一个五级组织层次的实施目标。这种机构划分使管理层次繁杂、部门林立、统计口径多样、报表种类繁多。面对这些多种多样的业务需求如何进行业务系统的构建呢?

  商业智能系统的基本目标是面向企业决策分析,但由于企业管理的现实情况,商业智能的业务需求实际分为两个层面:低端的企业报表层和高端的决策分析层。国内银行商业化还处于起步阶段,业务决策分析基本还停留在所谓的专家模式上,因此业务部门很难在决策分析层面提出多少需求。

  而在管理报表层面上,由于过去的企业管理体系一直是围绕报表建立的,业务人员则可以提供一整套完整的基于报表的业务需求,甚至有一套十分完整的生成报表的指标体系。

  在决策分析需求不能提出的情况下,商业智能项目往往将现有的管理报表体系作为系统需求的主要来源,这虽然是一个错误的选择,但比之于做一个空中楼阁式的分析系统,一个自动灵活的报表系统无疑是更实际的选择,应该说这也是当前国内企业应用的一个现实的选择。

  问题是这与项目的目标是错位的,于是在需求分析时又将企业报表的需求与决策分析的需求混在一起进行分析,试图寻找一条兼顾两者的中间道路,但由于两者本质上的不统一,由此做出的设计也往往更无法实现目标。

  经过对IBM多次的咨询协商之后,山东建行确立了下列原则:管理信息平台业务需求至少应该分为企业报表和统计分析两个层面,企业报表用于实现管理部门的固定业务报表,虽然企业报表十分繁琐,但这是管理信息平台应该完成的最低目标。统计分析用于实现企业的全面统计分析要求,这一层面的需求要通过对业务部门进行引导式的访谈来进行发掘整理。另外,管理信息平台还应该有第三个层面,就是决策支持,决策支持层引进决策分析模型,通过大量的数据计算对某一个专题进行推演,确定其可行性和最优方案。

  理清了思路后,山东建行进行了整体业务系统框架规划,将企业报表单独作为一个应用子系统,同时根据当前银行信息管理领域的需求归纳了五个应用专题:资产负债、绩效考核、客户分析、风险管理、财务分析。而对于决策支持层,系统留出高级应用分析专题供以后的需求扩展。业务应用专题的确定为业务需求分析指定明确的目标,需求分析得以更为有效地进行,并对不同的应用专题采用不同的开发方式,最终完成了管理信息平台业务应用层的开发。

  从技术角度来说, 众多技术厂商都提供了各自的独家方案和产品,但现实问题是如何利用这些工具进行管理信息平台的架构设计,如何进行系统软件的规划。商业智能的理想方案不用手工编程, 但现实远远不会如此简单,工具软件的功能所限和用户业务的不同性,往往导致无法满足系统功能要求。

  应用层软件与业务需求相关,许多系统集成厂商会在这一领域推出软件产品,但都需要进行长时间的客户化才能实用。

  另外需要注意,企业的需求是发展变化的,而且每个时期的经济指标和资源计划等可能是不同,数据仓库项目不但在系统上涉及面广、周期长、实施难度大,而且包含多个部门的需求,和需求的不确定性,所以用户应该用发展的眼光看待项目的实际需求。

  任何项目在实施中都存在着一定的风险,企业首先要认清自身的需求情况,在选择合作伙伴的同时也要进行充分的了解。各主流厂商都有各自的优势,在服务商的选择方面用户要根据在国内外相关行业有实施经验、是否具有行之有效的数据仓库系统实施和项目管理方法和高质量的实施队伍、是否具有经过验证的、可以为企业带来附加价值的数据仓库应用系统解决方案已及可以用于企业级数据仓库系统的技术,及软硬件产品等综合因素。

  IBM、NCR、Oracle、Sybase、CA、Informix、Microsoft和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,例如NCR的NCR Teradata是高端数据仓库市场,IBM公司有一套基于可视数据仓库的商业智能(BI)解决方案。BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。

  专家观点

  鲁百年

  Busniess Objects公司

  中国区咨询顾问总监

  商业智能包括五个层次:第一,是过去发生了什么.第二,是为什么发生.第三,将来会发生什么,就是预测。第四,现在发生了什么——运营型的商务智能。第五,企业希望发生什么。这就是企业商务智能的五个关键的步骤。有人说,这看起来跟ERP很接近,有人认为和核心业务系统很接近,最重要的是怎么应用,帮助企业盈利。

  王闯舟

  NCR(中国)数据仓库事业部副总经理、专业技术服务总监

  根据国外的情况看,建立商业智能部门,在开发管理过程中和IT部门保持连接和流通,是由既懂技术又懂业务的人组成,所以可以沟通IT和业务部门,可以做一些深度的分析。另外是提供深层次的业务分析,对我们主要决策人员、主管协同工作。另外最重要的一点就是要定期地评估,给BI仓库带来一些价值,在整个企业如何推广商业智能的使用,对用户进行更好的培训。

王小虎

  IBM软件集团

  信息管理技术经理

数据仓库的建设是一个过程,并非一蹴而就。在这个过程中,业务需求和信息基础设施规划两者都不可或缺。首先,我们不是先建设一个数据仓库,再来寻找它可以解决的问题,即空有数据的积累但没有真正的业务价值;同时我们也不能仅仅看重目前需要解决的业务问题,而忽略了数据仓库应当作为IT基础设施平台的一部分,将高楼大厦建立在了沙滩之上。

  企业的困扰

  很多企业在实施数据仓库项目上,都有选择企业级数据仓库还是部门级数据仓库(数据集市)的困扰,这也一定程度上决定了企业未来数据仓库的应用关键。

  首先,我们有必要先了解一下数据仓库系统体系结构和数据集市。整个数据仓库系统是一个包含四个层次的体系结构,具体由右图表示。

  数据源是包括存放于关系数据库管理系统(RDBMS)中的各种业务处理数据、各类文档数据、相关法律法规、市场信息和竞争对手的信息等等

  OLAP系统的应用主要是对用户当前以及历史数据进行多角度、多层次的分析,辅助领导进行决策,以及进行大量的实时数据查询操作。其典型的应用有对银行信用卡风险的分析与预测和公司市场营销策略的制定等。

  前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

  数据的存储与管理是整个数据仓库系统的核心。也是数据仓库的关键。数据仓库按照数据的覆盖范围,可以分为企业级数据仓库和部门级数据仓库(数据集市)。

  如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。它和数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别。

  企业在计划实施数据仓库时,如果出于项目成本、信息化程度、项目周期等多方面的考虑,可以选择建立独立数据集市。例如:用户可以将第一个数据仓库的实现定位于一个特定的部门和应用或者业务线,用来解决个别部门比较迫切的问题。以后再用几个数据集市组成一个完整的数据仓库。这样可以降低开发成本,缩短实现周期,并有助于为未来的数据仓库的发展培训IT人员。

  但企业在实施项目前,前提是必须需要根据企业全面的业务信息和全局的视点制定一个整体决策结构和规划。这个决策是要面对未来企业级数据仓库的建设和整合上。一定要保证现在所使用的数据模型能够向将来企业范围的数据存储扩展,以便于将来其他数据集市和战略数据仓库的实现。否则,当企业做商业决策时,需要从多个数据集市或资源系统提取信息,由于数据集市各自独立,每个都由一个应用软件支持,因此造成信息调用不方便而影响到整个数据仓库系统。

  实施案例

  2002年,民生银行制定了其新的五年战略规划,根据该战略规划,民生银行将在未来五年内迅速增加资产规模和扩大业务范围,在继续巩固和发展对公业务的同时,加速拓展零售业务。为保证在高速增长期内实现高利润率和最大化增加股东价值,民生银行从2002年开始加快了信息智能化建设步伐。

  中国民生银行将构建全行统一的基础数据平台,即企业级的数据仓库系统,作为全行信息化建设的基础。中国民生银行希望基于企业级的数据仓库系统,重点建设客户信息及客户关系管理、管理会计、信用风险管理等应用系统,有效地进行客户信息整合并实施客户关系管理,进一步增强银行与客户之间的关系,将客户关系转化为持久的竞争优势,从而使中国民生银行得以比其竞争对手更快和更有效率地挖掘客户价值,以实现业务的快速增长。

  下图是民生银行在五年战略规划中确定的企业级数据仓库系统及其支持的应用系统的示意图。

  在过大量调研和考察,NCR Teradata成为民生银行实施企业级数据仓库系统的合作伙伴。根据总体规划、分布实施的原则,双方确定了三年的项目实施计划,对未来三年双方在数据仓库服务系统的硬件、软件和专业技术服务的合作等方面进行了前瞻性规划,同时也签订了项目第一期的合同。

  民生银行与NCR Teradata共同明确:企业级数据仓库系统的建设是一个持续不断的过程。在项目第一期,将重点建设民生银行企业级的逻辑数据模型,并在此基础上整合民生银行的核心业务系统和十多个外围交易处理系统的数据,建成民生银行的基础数据平台,为民生银行所有的决策支持和管理信息系统提供数据支持。在以后各期中再不断地扩充数据源和扩展逻辑数据模型,不断增强和完善数据仓库系统数据支持能力。

  应用系统方面,在项目的第一期首先专注于客户信息的整合,实现客户单一视图和客户信息查询与分析等功能。在项目第二期实施客户关系管理系统,实现闭环的市场化营销活动管理。在项目第三期实施客户贡献度分析和不断优化客户关系管理。

  从2003年4月开始,NCR Teradata开始了项目第一期的实施,到2003年年底,项目一期顺利结束。

  在数据方面,对民生银行的数据源进行详细分析;设计民生银行企业级数据仓库逻辑数据模型(CMBC-LDM);完成民生银行核心业务系统和其他13个外围产品系统的数据抽取、清洗、加载和转换(ETL)工作;建成民生银行企业级数据仓库基础环境。

  在应用方面,实现统一的客户信息管理;提供目标客户搜索功能;实现客户细分分析;提供业务统计分析功能;建立金融同业信息库。

  在一期成功实施的基础上,民生银行和NCR Teradata又继续开始了项目二期的实施工作。项目二期历时一年至2004年年底结束。

  项目建设第二期主要是数据仓库系统扩展与增强和客户关系管理系统建设,数据仓库系统扩展与增强主要包括新的数据源加载,逻辑数据模型的扩展,数据质量的改进,备份与恢复系统建设,数据接口实现和提供数据,为管理会计,信贷风险,非现场稽核,客户经理系统,人行征信系统。

  客户关系管理系统建设主要包括TCRM5.0系统安装与客户化;设计客户关系管理数据模型;实现客户服务渠道的整合;客户行为分析;产品关联性分析;客户交差细分分析;客户百分比轮廓分析;示范性营销活动案例的设计与实施;其他功能。

  目前民生银行的数据仓库及应用系统的建设已进入第三期,数据仓库系统及基于其上的应用系统都在不断地完善和继续深入实施。民生银行基于NCR Teradata系统建设的数据仓库系统的作用日益明显。

  目前数据平台为其他系统提供数据支持的情况包括:每月为管理会计系统提供数据约800MB,涉及50张数据表;每日为稽核系统提供数据约200MB,涉及70张数据表;每月为客服系统提供数据约10MB,涉及20张数据表;每月为人力系统提供数据约80MB,涉及到4数据表,包括银监会个人征信系统等。

  从实施数据仓库的经济效益来看,数据仓库系统的建设实现全行帐户、客户和交易数据及所有历史数据的集中统一存放和管理,基本实现了民生银行全行数据的整合,这种企业级的数据仓库基础环境,从宏观上基本避免了对数据的冗余存放、重复抽取和处理,无论在系统运行效率还是总体投资方面都可以为银行带来巨大的经济效益。在这一点上,民生银行数据仓库系统建设和应用的实际经验对国内银行具有借鉴意义。

  此外在应用系统建设方面,民生银行也获得了很好的回报。随着客户信息整合和客户关系管理系统建设的完成,民生银行开始逐步实施其以客户为中心的市场化营销活动,营销活动的客户反馈率稳步提高。通过规划有针对性的营销活动,极大地改善了营销活动的流程,提高了市场营销的效率,明显降低了各部门的营销活动成本。同时促进了各业务部门的营销观念和管理方式的进一步完善和更新。

  数据仓库发展趋势

  根据Teradata数据仓库事业部05年9月公布的大型企业高级经理人年度调查报告显示,商业决策数量、复杂程度和数据量呈现持续综合性增长趋势。企业每日决策数量正在增长,决策复杂程度不断提升,数据量持续加大,这些已经成为企业界的普遍现象。

  与往年受访者反映的“被数据淹没”的调查结果相比,2005年的调查显示有些人已经开始脱离困境。其中57%的受访人认为他们已经逐渐开始适应这种新状态,决策质量比去年有所提升。他们将这一改善的首要原因归于提升的分析能力、能快速取得详细信息以及更为丰富的经验。

  Teradata在2005年进行的另外几项研究也表明,数据激增造成的决策挑战是一个全球现象,欧洲和亚太的企业主管认同决策数量、复杂程度和数据量在激增。中国受访主管中85%认为每日决策的数量比去年有所增长,76%认为决策变得更加复杂,89%认为数据量已增加。

  从数据访问的发展趋势来看,纵向整合机构被“虚拟”机构所取代,整个价值链共享数据,将客户整合到价值链中,此外访问数据的用户数量高速增长。机构的虚拟化意味着数据仓库用户数量的高速增长转向基于事件的分析,加之无人为决策参与,使得数据模式趋向由事件驱动和软件代理程序处理。

  随着企业信息化程度的提高和数据仓库技术的不断跟进,我们有理由相信,数据仓库会越来越多的应用在更多更广泛的行业,为企业的决策支持和联机分析提供更有价值的信息和服务,让企业长期积累的数据变成正确决策宝贵的知识。