政务大数据发展为什么要构建数据基因
来源:国脉物联网 更新时间:2018-06-12

 政务大数据发展为什么要构建数据基因

非常高兴能跟大家分享我们"政务大数据基因系统"构建的一些思路。

一、为什么会做"政务大数据基因系统"?

我们去很多地方介绍这个产品时,客户问的第一句话就是:"你们作为一家咨询公司为什么会做这样一个产品?"其实,我们从2013年开始做政府数据梳理、信息梳理,做了这么多城市的梳理后,我们发现存在很多问题,包括我们在做一些项目咨询时,很多项目的咨询规划非常理想,但最后落地却跟实际有差距。

我们在做这些项目时积累了很多经验,我们在想能不能把我们的一些经验和方法形成一套产品,来实现"咨询+软件"这样一个目标?于是,我们从去年年底开始研发这套系统,到今年2月份发布,这过程中一直都在完善。

二、"政务大数据基因系统"构建思路分享

今天和大家分享以下几点:第一个是我们前期的理论研究,第二个是对我们整个产品的概述,第三个会讲一些具体的场景应用。

(一)理论研究

首先是两个模型,一个是若兰模型,另一个是米歇模型,大家做应用系统的应该都非常了解。

1、诺兰模型。上世纪80年代,美国著名信息管理专家诺兰提出,整个计算机的发展应该从六个阶段分为计算机时代和信息时代,但在后面大量的实践中他发现,级层的数据管理是不可分割的。

2、米歇模型。上世纪90年代,米歇就明确提出"级层程序信息系统的级层本质,就是要做好数据的管理",于是他提出了"米歇模型"。这个模型对整个信息体系的规划,包括信息体系的架构,都起到了一个非常基础的作用。

目前,城市数据面整合面临一个难题,就是政府各类应用系统林立,形成了一个个的"信息孤岛","数据整合"的需求可以说非常迫切。但实施起来也是困难重重,在进行系统整合时,随着不同应用系统的数量呈算术级数增加,资源接口数就会呈N平方增加,进而"资源整合"的投入就会呈指数级数增加,因此,面向应用数据的直接整合,工作量非常庞大。

田景熙教授提出了一个新概念--数据基础设施(DataInfrastructure-DI)概念。什么是DI?它是一种为满足社会某种需要而运行的,促进数据共享和消费的数字化基础设施,其建设和服务体现一定的经济功能。数据源不直接交换与共享,而是通过"标准数据源"+"接口池"媒介实现。标准数据源和接口池就是"数据基础设施",对异构数据源进行交换前的数据治理。

那么,怎么样去实现?我们也研究了一些模型:

1、信息资源"金字塔模型"。它认为数据、信息、知识、智慧是层层递进的,我们从数据中获取信息,而从信息中得到知识,最后从知识中获取智慧。

2、FEA-DRM联邦企业架构数据参考模型。它包括五个模型,技术参考模型(TRM)、数据和信息参考模型(DRM)是底层基础架构。数据参考模型的目标是通过标准的数据描述、通用数据的发现以及统一的数据管理实践的推广使得联邦政府实现跨机构的信息共享和重用。那么,它具体是怎样来做的呢?它其实是以整个数据元为基础,通过梳理业务关系、数据分类,实现数据的交换共享。

(二)产品概述

数据基因(DNA)是指基于数据元的标准化编码上可实现数据自由编辑、抽取、复制和关联应用的信息技术体系。它是实现数据跨系统共享交换、创新应用的底层逻辑和信息规则。

数据基因系统是通过数据元管理标准化实现数据规范编辑、智能管理、关联应用和共享开放,以提升数据资源活化和管理能级,旨在为政府建立数据管理体系提供便捷、可靠的工具支撑,帮助梳理数据资产清单、统一数据口径、建立数据标准、定位数据资源、分析资源关系、设计服务模型。整个系统架构包括资源桌面、资源服务、资源管理和资源模板。

(三)场景应用

下面,我将结合我们做的一些咨询项目讲一下我们这个系统的一些创新服务。

1、模块化服务

为什么我们要做模板化服务?我们在做很多项目、去各个部门调研梳理信息资源时,发现没有一个部门能有人把他这个部门到底有哪些资源讲清楚,他需要把业务处的相关人员都叫过来开调研会,然后我们才可能知道这个业务处是负责哪块业务、都有什么业务资源。于是,我们在想,我们能不能在这么多咨询项目和经验的基础上,来提供一套服务,说清一个城市的核心业务部门能产生哪些核心业务数据。

我们的模块化服务,是围绕基础类、主题类、部门类提供数据元、信息资源模板制作、导入、生成功能,对比筛选设计出城市核心业务部门的核心业务信息资源作为整个系统核心数据元、信息资源模型,通过模板库各单位可直接使用数据元、信息资源模板,以直接沿用或是自定义修改的方式对模板进行选择性的编目,达到各部门政务信息资源快速梳理、信息资源体系快速架构的目标。

2、资产化服务

为什么做资产化服务?我们对很多城市部门系统进行调研时发现,部门应用系统非常多,网络也非常多,有专网、外网、内网,同时这些应用系统的数据库、数据字段也非常多,且相互之间的关系都不清楚。

因此,我们做了个资产化服务,数据基因系统通过对城市机房、服务器、应用系统、数据库等数据资产的梳理,建立部门数据资产清单,通过系统建立之间的相互关系,理清楚系统与系统之间、系统与数据库、表之间、数据与数据之间的关系,实现数据-数据表-数据库-应用系统-服务器-机房(云)的关系展现,建立部门数据资产地图。

3、标准化服务

我们现在存在"一义多词",即使用同种文字的人们也经常用多种不同的数据组合表示同一种概念;还存在"一词多义",即在不同场合用同一数据的组合来表示不同的意义。在信息系统里,前者会导致数据冗余浪费计算机资源,后者会因为数据的不一致导致语义理解的偏差。两者共同影响着信息集成与交换能力,成为当前信息化建设的关键问题。

数据元标准化是信息技术标准化的重要组成部分,是信息交换的前提,是信息系统建设的基础和运行的保证。那么,我们怎么做到数据元、数据字段的标准化?让数据元在不同环境、不同应用场景下都能够实现快速交换和共享?

我们做了几个事情。(1)重复清洗比对。就是能告诉你存在哪些重复的字段,这些字段的定义、长度、格式是不是一致?系统会帮你自动判断。(2)根据同异配置进行梳理,系统能够主动地判别出存在哪些同异,比如日期对应的业务是否一样?姓名对应的标准是否一样?(3)跟国家标准去比对。

数据元的标准化是形成以标准数据元为基础构建的稳定数据环境的途径,是实现系统间高层次的集成,从根本上克服"数字鸿沟",解决"信息孤岛"问题。数据源的标准化,不是说中国所有应用系统里面所有的字段都要进行标准化,要进行标准化的是针对各个部门都要交换共享到的核心业务数据,比如最基本的人口信息、法人信息等,这些信息是要标准化的,是不能够存在不一致现象的。

数据基因系统数据元池的建立,梳理分析各部门、各应用系统中出现的相同的、近义的数据字段,通过分析其频率、数据定义及数据相互之间关系(数据来源、数据流向等),了解各应用系统之间数据标准体系的建设情况,辅助数据质量问题分析。未来各个部门在新建应用系统时,采用标准化的数据元池,字段要在标准数据元池里进行勾选;新建的应用系统不用做接口,因为数据的格式、定义都是一致的。

4、智能化服务

现在很多城市已建了很多的数据库,人口库、交换共享平台等,但这些数据库的运行效果怎么样?到底有哪些资源在里面、在交换、在共享?其实,现在很多都是不清楚的,那么,我们怎么样快速地实现把这些数据库、各个应用系统中的数据、资源形成数据资源体系呢?

首先,我们做了数据库的直接采集;其次,根据数据库采集过来的数据表结构、数据字典,快速地生成信息资源,通过跟前面的标准、模板去比对,我们能够快速地把它匹配出来,形成资源目录,告诉其他部门我有哪些资源可以提供,有条件共享、无条件共享或是可开放。不是我们做到字段级的共享,而是可以针对一个数据里面只有某个字段去进行共享,某几个字段不能进行共享。

5、模型化服务

现在大家可以看到交换共享是在做,但是很多交换共享平台只是为了交换而交换,做了各种各样的交换平台,这些平台之间没有进行打通,接口非常混乱且难以扩展,把原来小的"信息孤岛"变成现在大的"交换孤岛"。那么我们怎么来解决这样的一个现象,我们能不能做到系统与数据的一个分离?

我们基于前面的基础,提供一个模型化服务。未来各个部门可以在数据基因系统上,去构建自己各种各样的模型库。比如,可以分析地区房价与学区、人流量之间的关系;可以基于这个模型的基础上去做很多数据库的设计,做整个数据框架的设计,因为我们的数据云字段在这里面都提供了。我们相当于在业务人员和技术人员之间通过数据基因系统架了一座桥梁,业务人员可以更好地去了解技术,同时技术人员能够快速的去理解需求。我们可以快速的把我们设计的模型导成表结构的形式、各种各样模型的形式。

最后我讲一下我们上述各种服务的客户价值:模板化服务能够帮助客户快速地建立信息资源体系,资产化服务能帮助客户建立城市数据资产地图,标准化服务能辅助数据标准落地,模型化服务可实现系统与数据分离,智能化服务能辅助数据质量问题分析。

我们希望数据基因能在更多的城市使用,帮助城市实现底层数据基础扎实的工作。

(本文系国脉海洋副总经理王路燕女士于2017年4月21日在"2017第二届政务大数据发展与合作研讨会暨数据母体产品发布会"上的演讲,内容通过现场速记整理)