一、德国政府部门数据仓库及决策支持系统建设情况
德国电子政务由德国内政部总体负责并协调规划,内政部“首席信息化官员办公室”负责全国信息技术领域的综合协调,下设“联邦政府信息技术协调和咨询处”提供信息技术的顾问咨询及承担联邦信息基础设施建设,联邦政府下属各州设立跨部委的计算中心。
德国政府一直非常重视信息化建设,制定了一系列的信息化战略。1999年制定的“21世纪信息社会的创新与工作机遇”纲要是德国第一个走向信息社会的战略计划。进入新世纪后,德国又制定了“2006年德国信息社会行动纲领”,这是德国走向信息社会的主体计划,对信息化建设的主要方面提出了明确的目标,强调要通过政府创造环境,实行政府与产业界及社会各界的合作,形成向信息社会转移的体制和机制。2010年,德国发表了《德国ICT战略:数字德国2015》,作为指导德国信息通信技术发展的纲领性文件,提出了数字化带来的新增长和工作机会、未来的数字网络、可靠安全的数字世界、未来数字时代的研发、教育和媒体能力与整合、社会问题电子政务六个方面的目标和解决方案。
通过制定和实施信息化发展战略,德国信息化获得了较快发展。特别是在德国财政部门,信息化发挥着越来越重要的作用。德国政府管理体制能够有效运行,违法违纪行为和腐败现象极少,得益于专业化制衡的公共财政管理组织架构的构建。专业化制衡的公共财政管理体制的构建以信息化建设为支撑,导入ISO9000等先进管理理念,按照标准化、程序化的原则来构建和完善专业分工、流程制衡、精简高效和能够自然运转、自动考核、自相平衡的现代化公共财政管理体制。
在物联网飞速发展带来的大数据时代,德国以及欧盟都非常重视数据仓库及决策支持系统的研发工作,位于被称为“欧洲硅谷”的德国第四大城市、萨克森州首府德累斯顿德的德累斯顿技术大学承担了欧盟领导的数据仓库在州政府的应用的研究项目。目前,数据仓库及决策支持系统已经应用于德国的电信、能源、医疗、政府等方面。在德国政府部门,除交通部和经济技术发展部等部门外,财政和税务部门已建立了自己的数据仓库和决策支持系统,为进行财政综合分析和对税源实施监控和稽查提供技术支撑。
通过对巴伐利亚州财政部和柏林财政局的访问,我们了解到虽然德国是联邦制国家,各联邦州有较大的行政管理、立法、财政自量权,而且财税部门的设置也较灵活,但是财税信息管理架构却相对固定。目前,60%的德国财政部门采用SAP公司的ERP产品构建财政支出管理信息系统,系统基于SAP的Netweaver平台开发,以总账管理体系为特色,以ERP系统理念和框架为基础,实现并承载了财政预算、支出、账务管理等各项业务,从业务严谨度、流程规范性以及系统可靠性等方面提升了客户的应用。在此基础上建立的数据仓库和决策支持系统分为三层结构:最底层是基础数据库,包括各应用系统的数据库;中间层是数据仓库,对基础数据库中的数据进行抽取和处理形成;最上层是展示程序,利用一定的评估方法为用户提供数据检索、数据挖掘等决策支持信息。
通过对巴伐利亚州税务局的访问,我们了解到数据仓库和数据挖掘技术在电子报税系统中的应用。目前,德国16个联邦州使用的电子报税系统都是以巴伐利亚财政部的电子报税系统为原型开发的信息系统。电子报税系统将税务管理的基本业务,包括对纳税人的管理、对税务机关的管理,从税源认定、纳税申报、税务代理、税务审核、纳税通知到税款缴纳、税务检查全部使用计算机通过网络与信息技术进行集成处理,为纳税人提供规范、透明的管理和服务。纳税人可以通过互联网非常方便、快捷地办理涉税的相关事宜,税务部门也能使用计算机在互联网上进行信息储存、信息交流、税源控管、税款征收、档案管理等各种税收管理。将纳税人和单位的收入情况、存款情况、申报保险情况、以往纳税情况及其他基础数据进行抽取,建立数据仓库,在数据仓库的基础上,按照一定的评估方法,对纳税人和单位申报的电子报税单进行风险过滤,挖掘某些征税点存在的疑点,必要时进行人工核实。通过这种方法,可以有效地减少虚假报税,并最大限度的提高工作效率。
二、德国数据仓库及决策支持系统建设的有关理论和最佳实践
德国是数据仓库及决策支持系统建设水平较先进的国家之一,本次授课的有关专家学者从不同方面介绍了德国近年来在数据仓库及决策支持系统建设领域的有关研究成果和最佳实践,无论是从理论性还是从可操作性上都具有很好的参考价值。
(一)数据仓库的概念、结构和开发流程
数据仓库理论及应用是本次培训的重点内容,有关专家从不同方面讲解了数据仓库的产生、概念、优点、结构、相关技术、开发流程及应用,数据抽取、转换、加载技术等内容。
随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。其具体体现在三个方面:一是历史数据量很大;二是辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;三是由于访问数据的能力不足,它对大量数据的访问性能明显下降。
随着数据库技术的成熟和发展,信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。这种支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse, DW)。W. H. Inmon对数据仓库的定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。数据仓库与数据库的区别为瓶颈。
进入90年代后,信息技术界悄然掀起数据仓库和OLAP技术及数据采掘技术的研究和开发热潮,这为克服传统DDS存在的问题提供了技术上的支持,使DDS的发展跃上一个新的台阶,也为DDS开辟了一条新的途径。目前开发的综合DDS是以数据仓库技术为基础,以联机分析处理(OLAP)和数据挖掘(Data Mining)工具为手段进行实施的一整套解决方案。
(三)SAP HANA平台
SAP公司总部位于德国沃尔多夫市,是全球最大的企业管理和协同化商务解决方案供应商,在德国占据着非常大的市场份额,60%的德国财政部门采用SAP公司的ERP产品构建财政支出管理信息系统。本次培训邀请了SAP股份公司的技术专家介绍了SAP在数据仓库和决策支持系统方面的研究成果和技术,重点介绍了SAP HANA平台。
在大数据的背景下,随着固态硬盘的普及与发展,数据仓库工具走向内存以实现更高的性能将成为一种趋势。内存数据库满足亚秒级响应要求,这对于用户来说有着巨大的诱惑力。为了实现海量数据实时分析,SAP公司研发了HANA平台。HANA(High-Performance Analytic Appliance),全称高性能分析设备,是基于内存计算技术的高性能实时数据计算平台, HANA是一个软硬件结合体,提供高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。
HANA是一种“内存数据库”平台软件,但与一般意义上的数据库(如Oracle、IBM DB2、微软SQL Server、Sybase)并不是同一个概念。HANA更像是在数据库和上层应用软件之间新增加的一层,其工作原理在于将数据库迁移到了“内存中”,由于在数据处理时,CPU可以直接从速度更快的内存中读写数据,而不是访问更慢的硬盘里的数据,所以速度变成非常快,特别是在今天数据量越来越大,对信息处理实时性要求越来越高的今天,这种内存计算技术大有用武之地。SAP HANA作为一个开放的平台,目前可以支持包括Oracle、IBM DB2、微软SQL Server、Sybase在内的多种数据库。
通过SAP HANA,企业可以在业务运作期间基于海量实时详细信息分析业务运营情况。企业可以探索和分析来源于所有数据源的全部交易数据和分析数据。运营数据在产生时由内存获取,并通过灵活的视图迅速将分析信息呈现给用户。目前,HANA应用的成功案例包括T-Mobile、美国达美航空、思科、江苏电信、日本MK、Liverpool、斯坦福大学、农夫山泉、BSH等。
(四)物联网、大数据与云计算
如今数据仓库面临的最大挑战就是爆炸式增长的数据量:新兴的数据类型层出不穷,更多的业务提出了实时需求,而向这部分业务提供的数据缺乏足够的敏捷性,数据仓库在业务运营以及决策支持方面显现出“疲态”,Hold住大数据成为一个急需解决的难题。本次培训邀请了有关专家对物联网、大数据与云计算等IT热点问题进行了介绍。
物联网是通过传感器、无线射频(RFID)技术、GPS、移动终端等技术,实时采集物体的各种信息,通过可能的网络接入方式,实现物与人及物与物的连接和对物体的智能化感知、识别和管理。物联网是继PC机和互联网之后正在影响着未来的第三次信息技术革命,它不仅推动着工业和信息业的发展,也融入在人们的生活和社会管理中,深刻地改变着我们的生产行为和生活方式。现实生活中物联网的应用领域有智能电网、智能交通系统、智能建筑、零售业管理系统、远程医疗等。
物联网有效地解决了企业级软件中管理软件自动化而生产过程信息及物流信息采集手工化的瓶颈问题,建立了集成的、自动的统一信息平台,真正实现了对生产过程的实时管理,但同时物联网带来的大数据使得信息的存储和使用成为一个突出问题。为此,企业级软件将建立在云计算平台上,建立在大数据的分析与优化上的商务智能(BI)成为可能。
云计算是信息技术发展的必然产物,是服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。云计算是处理大数据的软件平台。软件即服务(Software-as-a-Service,SaaS)、平台即服务(Platform-as-a-Service,PaaS)、基础设施即服务(Infrastructure-as-a-Service, IaaS)是云计算的三种模型。
大数据挖掘最典型的应用实例是美国的基于大数据分析的犯罪区域预测系统。该系统基于研究地震余震的数学模型,计算了8年的超过百万的盗窃统计数据,收集处理了相应的天气、交通、停车等相关数据,能够成功预测66%的案件的发生地点。本次培训授课的专家对大数据处理的支撑技术,大数据挖掘的方法以及自然语言处理与文本挖掘进行了讲解。