关于加强数据质量监控的思考
来源:中新网 更新时间:2012-04-15
周口开发区国税
 

  近年来,随着国税系统陆续加大了对企业信息化的投入,国税部门的信息化水平整体上都有了很大发展,各种数据源源不断地汇集到数据库中。如何使这些数据在日常管理中发挥应有作用,使数据真正为工作服务,这是几乎所有国税信息部门都在思考的问题。

  数据是否可用和可信,这是用户对数据比较关心的两个层面。是否可用是指数据的格式、内容等能否被用户读取和使用,能不能很方便地进行深入处理和分析。是否可信则是指数据在适用性、准确性、完整性、及时性和有效性方面,是否满足用户的应用要求。以上两个层面中,可用是技术层面的问题,只要通过技术手段使数据规范化、格式化,按照规定要求组织和存放,数据就能达到可用,这方面相对而言比较容易满足用户要求。而可信是数据的质量问题,数据质量的保证涉及多方面的要素,需要通过采取管理手段、技术手段等各方面的努力来解决。

  随着信息应用的深入,数据质量问题已经成为信息化应用中的头等大事,为解决数据质量问题,各种管理手段、技术手段和新的数据质检体系不断被应用在数据的采集和加工过程中,专业的数据监督已经作为国税部门中的一个专职岗位出现,并进行了非常有益的尝试,并取得了可喜的效果。

  数据质量监控工作究竟监督什么呢?明确地说,就是监督数据的质量。在今天,数据质量不仅仅是指数据的准确性和完整性,而是包括多个方面。要监督好数据质量,就必须对数据质量要素有完整的了解。

  一、数据质量的几个要素

  数据作为信息化应用的主体,它具有多重属性,不仅有适用性、准确性、完整性、及时性、有效性等质量特性,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的应用属性。要对数据质量进行较好地控制,就必须对数据的五个质量特性进行很好了解,从而在各个方面采取措施,杜绝数据质量问题的出现,使数据监督工作能够真正达到控制数据质量的目的,笔者认为,数据有四个显著特性:

  (一)数据的适用性。在国税部门工作过程中,会产生大量的各类数据,这些数据有纳税人申报信息等反应不断变化的数量型数据,也有纳税人登记信息等相对稳定的属性信息。这些数据有的是为国税部门日常管理服务的,有的则是满足各级科研和分析的需求,这就从客观上造成数据的多样化,同时也是为满足不同层次、不同岗位的用户服务的。不同的数据具有不同的使用范围,每个数据的正确性都要求它是进入正确的专业应用,换句话说:无论多么准确、及时的数据,如果不具有适用性,它就不能产生任何效益,甚至用户使用之后会造成判断错误。

  (二)数据的准确性。数据的准确性一般是说申报数据与纳税人真实数据相比的符合情况,但在纳税人申报数据的采集过程中,数据的准确性往往纳税人的主观意识而发生误差。影响数据准确性的因素还有在数据采集、审核、录入、传输和处理等环节。我们需要从各个方面分析影响数据准确性的因素。

  (三)数据的及时性。在国税部门日常数据的管理中,往往要求能够更快、更准地收集到所需的数据。在日常生活中,也有“时间就是金钱”的说法。把这些要求应用到数据上,那就是说数据也必须要有及时性。比如纳入V20系统的数据要及时的供税收管理员查询,哪怕是晚一天也会影响整体工作。

  (四)数据的完整性。数据的完整性相对于准确性和及时性来说并不显得那么重要,但其实它引起的问题并不比前两者轻松。数据的完整性就是我们日常所说“数据齐、全、准”当中的“全”。

  在数据采集过程中,要把所需信息全部采集完整。比如经营地址,如果只记录一个“周口市八一路北段”,谁也不知道这个纳税人究竟在什么位置,也就是说这个数字采集得不全。如果记录成“周口市八一路北段路西福利院南30米”,那么这个数据就完整了,对日常管理和分析才有意义。

  从这里可以看出,数据的完整性一点也不亚于准确性的重要程度,在数据表格、数据库充分应用的情况,对数字的规范化填写要求越来越完善,单独强调数据完整性的情况会越来越少。

  数据除拥有以上的质量特性之外,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的属性特性。这些属性特性对于数据的质量控制并不产生重大影响,因此也不在我们这里的数据监督和质量控制讨论范围之列

  二、数据监督和质量控制的措施

  (一)建立数据质检监督制度

  做好数据监督和质量控制,首要的任务是要从管理上着手,要建立相应的管理制度和措施。

  首先要做好数据源的管理,数据质量问题的产生源点来自最基层的一线税务机关,不同的数据源提供数据,而录入这些数据的人员在掌握专业知识的同时还必须要掌握系统相关知识,才能在数据采集、录入过程中减少误差。因此数据建设一方面要求具有专业知识背景的人员从事数据的录入,另一方面要对从事数据建设的人员进行信息技术的培训,同时要建立数据质量考核制度,从根本上提高数据质量。

  其次是数据传输、加载和处理环节。要在这上个环节上推进标准化和规范化,按照统一的规程传输、加载和处理,使数据能够可逆转化,即使数据出现问题,也可通过可逆方式还原数据。

  最后是数据的存储,要做到数据安全、稳定,持续有效,保证数据长期准确保存,数据精度不漂移。

  (二)建立数据质量控制手段

  数据质量监督和控制的另一重要措施是建立数据质量控制模型,也就是由数据质检规则。有了科学、合理、实用的数据质检规则,就能尽早、尽快地发现数据质量问题,使数据问题得到很好地解决。

  有了数据质检规则,开发基于数据质检规则的程序,就能通过计算机手段快速、方便、有效地控制数据质量,在减轻劳动强度的同时,更好地提高数据质量。

  (三)根据应用反馈进行数据修正

  已经入库的数据质量一般是不会引起使用人员注意的,如果错误数据已经入库,问题的纠正就只有等到数据被使用的时候。

  用户在使用数据时,往往因为要进行数据链分析和挖掘,从而深入研究数据,也就能够发现数据的细微质量问题。这时候需要及时获取用户的反馈,要建立问题反馈的畅通渠道,根据用户意见及时复查和更正数据。

  (四)数据整合与分析

  在已有数据的基础上,通过对专业信息进行深加工,从中抽取规律,并从不同角度进行分析研究,将生成的分析信息运用到信息管理、查询处理、支持决策、过程控制等诸多领域,将这些来自于不同专业系统的数据进行深入分析,从而得到系统详细、全面数据评价意见,形成对数据质量的最后把关,实现数据质量的完整控制。

  随着信息技术的发展,数据的分析已经成为国税部门内查漏洞、外查偷税有力手段之一,运用好会让数据真正产生巨大效益。如果数据质量差、数据可信度低,同样会使许多应用系统在使用过程中利用率大打折扣。为此,我们还需在数据监督和质量控制方面进行不懈的努力,不断完善数据库信息,充分发挥和运用好数据监督及质量控制。(周口开发区国税局 魏加河 张继周)