我们在“数据质量是分析型电子政务应用的基础”一文中说明了:在分析型电子政务应用过程中,数据是整个分析型电子政务应用的基础,数据质量也将直接影响到分析型电子政务应用是否成功,是分析型电子政务应用成功的 关键。数据质量体现在数据的完备性、完整性和安全性三个方面。在分析型电子政务应用中,数据首先应该是充分的、完备的、不能缺失,其次数据应该是实体完整的、参照完整的和保持域完整的,最后数据应该是安全的、可审计的,防止被篡改、窃取、重置以及未经授权的访问、存取等。
根据Gartner Group近期研究报告表明,财富1000强企业中的25%都在管理和使用较差质量的数据。TDWI(数据仓库研究院)关于数据质量的报告里称,数据质量问题每年将为美国商业带来6000亿美金的损失。然而目前很多政府机构、公司企业等对于数据质量问题都缺乏正确的认识,理解上比较狭义,往往认为数据质量问题仅仅是系统中存在着缺失的数据或者是错误的数据,缺乏全面、正确的认识。总结起来,关于数据质量问题的片面理解主要表现在如下几个方面:
1、 数据质量是一个技术问题,不是一个应用问题。
尽管IT技术部门能够协助确定数据质量的问题发生所在,但是分析型电子政务应用的使用者却主要来自政府业务工作领域,业务部门需要利用数据和流程来处理业务工作,也需要为数据完整性、完备性和安全性所对应的各个方面给出定义和语义层次上的解释。数据质量问题往往耗费较多资源、提高管理成本,因此业务部门还需要在数据质量和对应的ROI两个方面进行分析,从而获得一种平衡。IT技术部门能够通过技术操作和管理这些数据,而业务部门需要就如何管理和操作给出定义和解释,因此可以说,数据质量问题不单单是一个技术问题,而需要来自业务和技术两个方面的融合。
举例而言,我国的电子政务建设过程中所出现的信息孤岛问题、应用碎片问题、由于部门分割、业务系统独立、重复建设所导致的数据无法或缺乏共享、数据分散存储和管理、数据重复采集等问题。这些问题均可能对数据质量造成严重的影响,但是仅仅依靠IT技术人员是无法解决这些问题的,而是需要来自政府机构业务部门和IT技术部门双方的努力共同完成。
2、 数据质量问题可以通过数据转换工具来解决。
现在市场上有许多公司在研发和销售专业的数据转换工具,该类工具一方面可以将存储于基础数据库中的数据进行采集、清洗、处理、转换,另一方面能够将转换后的数据装载、存储到数据仓库中。目前很多单位往往会有这样一种想法:购买了一个数据转换工具,就能够解决数据质量问题。的确,数据转换工具能够解决一部分数据质量问题,能够清洗掉一些对于数据智能分析无益的数据,能够按照数据仓库建设的要求将数据从基础数据库转换到数据仓库之中,但是数据转换工具本身则无法对数据的完整性给出保证,无法保证转换后的数据的一致性和完整性。
3、 数据质量问题产生的根本原因在于数据录入过程中产生的错误。
在分析型电子政务应用过程中,某些单位认为只要在数据录入的时候录入正确的数据,保证与数据的要求相一致,就能够根本解决数据质量问题。
实则不然。保证数据录入的时候输入正确的数据是数据质量最基本的要求,关键还要看如何使用这些录入的数据,录入数据的正确性并不能对数据的完整性和一致性提供保证。比如一个政府机构中的两个部门在录入人员信息的时候,要保证数据实体和参照的完整性,比如不能出现人员ID同时为2的人员、不能在一个部门系统中录入的人员在另外一个部门系统中进行重复录入和采集等。在这种情况下,虽然大家都能够录入正确的数据,但是却不能保证重复采集、参照不完整等问题。因此在保证录入正确数据的前提下,保证数据能够正确的得到应用也是非常关键的。
4、 标准化的BI工具将消除分析型应用中的数据质量问题。
有些厂商认为:BI标准化将消除分析型应用中的数据质量问题。目前已经出现了很多标准化的应用工具,用于数据转换、OLAP分析、智能展现等。基于同一套基础数据,使用不同的标准化工具将带来相同的分析结果,虽然展现的效果可能不同、展现的风格、界面等有所差异,但是分析所获得结果是一致的。BI工具的应用能够节省成本、提高效率,但是应当注意的是,数据质量并不会因为使用什么BI工具而得到解决,关键在于如何应用这些数据,如何能够在应用的过程中,保证数据的完备性、完整性和安全性。
因此对于分析型电子政务应用中的数据质量问题,应当抛却片面、狭义的理解,换之以全面、广义的认识,从管理、建设、技术、工具多个方面采取相应措施,从而在我国电子政务建设过程中,真正获得高质量的数据,并在分析型电子政务应用中真正发挥重要的作用。