在分析型电子政务应用中,无论是透视分析、关联分析、钻取分析、聚类分析、决策树分析、各种数据挖掘和预测等,还是通过各种图形、表格等多种形式所展现的分析结果,其最根本的依据都来自于基础数据,也就是来自于基础型或者协作型电子政务应用所采集、整理、处理、管理、存储的数据。这些数据将被分析型电子政务应用通过数据抽取、转换、装载等过程进入数据仓库,并进而通过展现工具获得基于数据仓库(数据集市)的OLAP分析结果。因此可以看出,数据是整个分析型电子政务应用的基础,数据质量也将直接影响到分析型电子政务应用是否成功,是分析型电子政务应用成功的关键。
数据质量主要体现在数据完备性、数据完整性、数据安全性三个方面。
(1)数据完备性是指分析型电子政务应用所需要的基础数据应该是完备的和充分的,对于基础型、协作型应用和分析型应用而言,其对应的数据集合是包含的关系,也即分析型电子政务应用其需要的任何数据项均可以在关联的基础型、协作型电子政务应用系统中找到对应的数据项目,而不应有任何的缺失。
(2)数据完整性与数据库应用中所指的数据完整性类似,也可以分为实体完整性、参照完整性、域完整性,也即在基础型、协作型电子政务应用中,要保证分析型电子政务应用需要的基础数据所在表对应的主键的唯一性、数据项的输入有效性、参照表和被参照表之间数据的一致性。
(3)数据安全性是指分析型电子政务应用中所需要的基础数据需要采用数据校验、数据加密存储、数据访问权限控制、数据访问日志和审计等综合措施进行保护,从而防止数据被篡改、窃取、重置以及未经授权的访问、存取等。
目前,我国的电子政务建设过程中出现了一些较为典型的问题,比如信息孤岛问题、应用碎片问题、以及由于部门分割、业务系统独立、重复建设所导致的数据无法或缺乏共享、数据分散存储和管理、数据重复采集等。这些问题严重影响了数据质量,从而使得分析型电子政务应用所产生的结果可信度不够、准确度不高,无法真正辅助政府领导决策或实现预测预警。
Butler Group在其关于数据质量的研究报告中指出,在保证数据质量和数据完整性方面,很多政府机构或者企业缺乏判断数据质量的能力,并且不了解关于如何改进数据质量的方法。Butler Group认为无论是政府机构还是企业,均应建立数据质量战略和策略,以技术为手段、从业务本身提高数据质量,并指出在数据质量方面的投资必将带来ROI的提升。