基于EA工具的政府数据标准与信息资源规划
来源:CIO时代网 更新时间:2012-06-20

 
关键词: 武高明EA数据标准信息资源

 
   2012年6月17日,北京大学图书馆北配殿报告大厅可谓是济济一堂、盛况空前。由工业和信息化部信息化推进司指导、北京大学信息化与信息管理研究中心主办、中央机构编制委员会办公室电子政务中心协办、CIO时代网和锐捷网络承办、北大CIO班和北达软特别支持的“第六届中国电子政务高峰论坛”隆重开幕。
 

    深圳德讯信息技术有限公司技术总监武高明发表了《基于EA工具的政府数据标准与信息资源规划》的演讲,以下为演讲实录:
 

深圳德讯信息技术有限公司技术总监 武高明先生
 

    各位来宾大家下午好,非常荣幸有这个机会和大家交流!刚才几位演讲嘉宾他们在政府的体系架构方面从理论和实践上给我们做了一个非常精彩的阐述。
 

    一个政府体系架构到底是个什么样的?它如何呈现出来?这是大家比较感兴趣的,所以我今天分享的内容重点就是在可视化的政府体系架构,它是什么样子。基于EA的数据标准和信息资源规划如何来做。
 

    我们先从最基本的数据标准来说起。数据标准和数据管理这个话题不是一个新的话题。随着现有新的技术涌现,包括云计算、大数据、物联网,它仍然没有过时。应该说它会越来越重要。被CIO和政府企业的信息化主管所越来越关注。
 

    信息化发展终极目标就是跨地域、跨部门、跨行业的信息共享和业务协同。基于此,这种信息共享和业务协同必须要使信息拥有者、使用者对于共享数据有一致的无异议的理解。现实的情况是很多地域、行业、部门业务系统从不同的角度对相同的数据做了不同诠释和解读,就造成了数据的不一致。这就需要数据规范的过程,让我们进行必要的信息规划、梳理,使其标准。
 

    数据标准和专业标准有不同的地方,因为它横贯了整个行业的数据采集、存储等所有环节。在这个环节当中必须对数据有个规范过程。要保证对同类数据语义、标识都要有共同的定义。这样我们才能对不同数据的一致性,来源于多种数据源的数据保持一致和兼容。这个数据的标准就会对数据处理、交换以及应用信息集成、数据仓库的建设产生积极的意义。
 

    如果没有数据标准,好多的多数据源数据无法建立关联关系,也无法出一些综合性的准确报表。所以我们必须要有这个过程。但我们在数据标准方面,应该说它是非常严谨的,尤其是关于标准的标准。就是标准通用的框架、通用约束,由国际上、国家标准化委员会来做这个事情。
 

    有的需要结合具体情况根据遵循上一层数据标准来做,进行细化、补充和扩展自己所需要的。要落实标准的具体内容,所以工作量比较大。数据标准内容核心就是两个部分:一个是信息源的标准,另一个是信息分类编码标准。
 

    我们可以通过实践补充其他的标准,例如用户视图,还有概念数据模型,逻辑数据模型都需要进行标准化。今天我讲的是前两种,最核心的。
 

    广义上讲,信息分类编码标准,本质上是对数据源直域进行代码化的扩展,它是数据源标准的一个延伸。数据源标准里面约定的数据源需要有一个表示跟它对应。一个数据源必须有一个表示跟他一一对应。如果对同一个概念出现两个表述,就是两个数据源。数据源概念是我们的对象类加上一个特性词才能构成一个数据源的概念。如果落实到具体的数据源,必须要对特性进行表述,还有可以加一个表述词,就会变成一个数据源。

例如人是属于对象类,有好多特性,例如身高、姓名、出生日期等等。最简单、最常用的就是性别,人员性别就是一个数据源的概念。我们用代码进行表示就是一个具体数据源了,比如人员性别代码。
 

    这个简单的编码会造成好多不同的理解和定义,比如说01代表男,02代表女。M代表男、F代表女。各种系统之间对这个同一个数据造成不同理解,会增加接口、翻译工作量,甚至系统多了就无法对接。历史上有个著名的实验,把两个系统对接起来需要两个接口,把三个系统对接起来出现六个接口。到五个系统以上就需要20个接口。接口数量和系统增加是指数级的巨增,如果一个接口出现问题,那这个系统就出现问题,这就是点对点的灾难了。
 

    结论:靠接口把多个系统连接起来的方式,是脆弱的,不可靠的。必须研究统一的数据标准。在统一的数据标准之下减少数据接口的数量甚至消除它,这是根本解决问题的方法。你做一个数据实体,做一个类,就对应着对象类。如果实体或者类的属性与数据源表示和特性对应起来。
 

    数据源有个标准的构成,这是国际上和国家上的标准。就是它对它的属性、语义、命名,包括怎么注册、提交、审核、发布等等,都有一整套标准的流程。
 

    而我们基于行业等做出的特定内容要基于标准化文档,通过ESB或者中心数据库的机制把它发布,把标准真正贯彻出去。技术的也好、制度的也好,把标准贯彻出去。然后控制现有系统,按照统一数据标准进行对接和转换。而新上的服务、系统也要按照标准接口服务进行集成。
 

    信息分类编码,它是一个数据源概念的进一步的延伸。它就是根据信息属性、特征将信息按照一定的原则和方法进行区分和归类。建立起一定的分类关系和排列顺序。包括一定序列化的代码或者序列化的规律性的符号来表达。这就是信息分类编码。现在电子政务和信息化程度比较高的企业已经认同了数据标准的重要性,不同的行业也会出这些标文化的文件。例如人事、交通、物流等等会出系列的标准文件。大家也可以查到。
 

    下面我们从数据架构更广义的角度来看数据标准,因为数据标准它是最基础的,一般隐藏在各类信息和报表当中,各个系统当中,很难识别,所以只有放在体系架构大背景下,摸清数据标准与现有系统的关联,对设计内容的支撑,真正满足当前信息化现状它所要解决的需求,数据标准才能更有活力和价值。信息资源规划就是识别、分析和验证这些数据标准的,是信息工程在中国的本土化实践,对信息的采集、处理、传输、利用一个全局性的顶层规划。这样分析清楚信息现状,设计基于数据标准的数据架构,根据这些架构来构思跨部门的应用、服务。这样我们就从EA的角度、从概念、逻辑、物理再到数据标准的层层聚焦的过程。
 

    下面我就简单总结一下,比较枯燥。因为数据标准这块就是这样。第一,信息化建设是必须要数据标准,它是基础。第二,数据标准化,它的质量决定了数据管理和信息化建设全过程,是数据质量管理的重要内容。第三,数据标准化是一个过程,它不是一蹴而就,也不可能拿来就用,它需要基于EA背景数据架构、信息资源规划的方法来把内容真正落实做出来。
 

    第二个单元我要介绍的,是通过一个EA工具来跟大家分享一下电子政务规划的案例。为什么使用EA工具?或者说为什么要储藏库支撑呢?最关键的第一点,它能使得架构可视。这样的话我们构思的业务、数据、应用保证各个利益相关者可以直观的看到。比如说看到数据标准是怎么定义的,如何分布,如何与其他架构因素关联的。这样容易达成共识,使得价值、标准可控、量化、发布出来。
第二是从提高效率方面来讲,使得架构变成可持续的资产。比如说所有人的工作都是基于架构源模型的。这种做出来的东西,就相互关联并保持一致性,一处更改就会多处变化,保持这种一致,架构工作就不会像成为编制文档的工作,把需求、素材、业务的东西,把我们做的模型全部放在里面。包括架构因素之间的关联也放在里面去。
 

    下面我们就切入到工具。这里是一个高级导航。这是一个简化的体系架构的金字塔模型。这里面我们的业务架构包括以下这些东西:愿景、组织环境、业务环境、过程模型、用户视图、业务流程图、数据流程图等等。还有业务需求与这些连接,这是业务架构。
 

    应用架构,是逻辑仔细图、共享功能,还有定义出一些服务来。数据要跟它建立一定的关系,这样的话可以做应用的行为。最核心的就是数据这块的架构,数据架构,标准是在这一层面,比如数据源级、形成指标级、信息分类编码。上一层支撑的就是概念、逻辑。
 

    那我们就具体看一下实际的东西。我先介绍一下这个案例的背景。这是一个典型的地级市的案例,是衡水的案例。它是一个经济欠发达的城市,希望通过信息化来带动当地的经济和企业。所以它通过数据架构的方式来做。
 

    我们看一下它的项目目标,准确的把握权益、统一标准,以数据标准为核心,明确部门数据需求与交换关系,要出一个地市级的相关规定。提出逐步建立信息交换的平台,实现信息共享,合理建设政务的信息化进程。这是它的宏观目标。
 

    但是这个工作的特色在于,我想大家都没做过,它是49个的数据都涉及到,而且是很深的数据。我们做了探索之后,可以充分的了解,有80%地市级元素都在这里。
 

    这里要有组织保障。里面有省里的专家、领导来协调。当然做的过程不是很简单的,顶层设计完了就可以,不是这样的。这是一个体系,比如专家意见、内部评审等等。也有一整套分析方法。基本就是经过了业务分析(现状)、顶层设计(目标)、数据标准(基础标准就在这里面)大家会关注它的成果是怎样的。
 

    政府做最后要形成统一的报告,(PPT)这就是交付的成果,是文档形式存在的。当然这个不是手工编的,好多东西都是通过数据、模板导出来的。基本细化到每个业务,业务有哪些事项,都有哪些数据。对其中典型部门做了一些尝试,这个设计有应用的功能、数据以及之间的关联关系。我们打开一个看一下。
 

    比如说功能模型,下面有房管局的某些功能,以及应用、应用程序。再往下走还有数据元素的,刚才讲了基础的标准。还有顶层信息交换与共享的目录体系。它能量化到从哪来到哪去,具体什么数据。还有主题,概念和逻辑上的规划。最后还形成一整套的具体工作方法供其他省市借鉴。
 

    我们看一下数据标准是怎么体现的。数据元素有基础级,就是大家公用的,还有一些具体的,比如说人事管理有哪些数据元素,对于每个数据元素像一些对象词、表述词都可以看到。这里还有其他数据元素的标准。对于它的分布分析,我这个数据元素数据项被那些业务数据引用了,这是非常细的。我们可以看到这个数据元素的贡献意义非常高。可能今后是需要进行规范的东西。
 

    在实体上面也会有这个分布。这些数据元素一旦通过审核机制,发生变化,它会发布到这些模型当中去。回到信息分类编码这块,给大家一个直观的展示。
  这就是所有的信息分类编码,目录。包括属于国标、航标还是企业地方标准,是静态的还是动态的等等。还有编码规则、编码定义、编码记录等等,我们都进行了梳理。这些都可以输出到一些标准化文档当中去。一会儿也会给大家展示一下。下面再看一下从业务角度看,刚才讲的是细化的程度。从宏观上讲,从人事管理角度需要关注这些业务,每个业务都有一定的界定、界限。对每个业务可能它的事项、所关联的顺序都有界定。但是这个业务不是孤立的,与所有视图是相关联的。还有数据流(信息流),这也是关联起来的。不仅仅关联起来,而且可以做流量的分析。把一些参数设计进去就可以做流量分析。
 

    我们来看一个关键的业务,通过一些关键业务流程图来表达,就是PPMN来表达,这就是一个典型的元素、模型、图形关联起来,这是一个PPMN的数据。我们做的这些所有模型元素都包括进来。直接可以交互、验证。如果说在做规划过程当中,彼此之间有不同的约定,那这个时候通过它来进行验证、协调一致。如果这一旦更改,那图上就可以交互进行更改。
 

    我们再看一下宏观信息流,它与其他的交流什么,内部之间需要交流什么数据。这个信息流,它可以通过自动的方式表达出来。这是所有业务之间的流转信息,包括外面来什么数据,输出什么数据,这是结构化当中一个非常常见的工具,就是用于顶层建模,在架构设计当中也可以用。我们可以看到这些数据,从其他单位来的一些数据。这些数据可以进行交互、验证。还有处理环节,它包括哪些细化环节也都可以看到。
 

    用户视图是我们一直跟踪的方法论。通过底层数据把所有视图规范、规整、梳理起来。包括视图的原样也有,你做开发、不懂业务都可以在这找到素材的参照。这是嵌入式的表达。当然大家关心的是,这些视图做了什么用。如果足够规范,形成一个标准的话,可以通过Zachman框架技术把它发布出去。
 

    这是一个视图的标准,你可以发布给集成商或者直接放到系统当中去。这是业务架构直观的展示。当然里面还有好多需求关联,所有的元素都可以关联需求,最终还有一个需求管理的模块,去把所有需求,它的来源、架构元素等等关联起来。应用跟数据关联。我们看一个逻辑的,这是一个人力资源开发,看看它用到哪些数据。还有整体关系。就是数据与业务、功能的关联,我们用矩阵表达出来。这样可以分析出数据源头在哪,出发点在哪。我们应该先建什么系统。
 

    再看看行为图,我要做哪些功能。这是一个功能组建,这个组建可以跟现有做的结构化模型进行关联。具体来讲,这是一个粗的大的组建,我们还可以展示一下更细的组建,它与数据关联组建,这个数据模型怎么定义的,也能找到源头。
 

    最后来看一下最核心的数据与数据架构。包括概念模型,可以通过图、列表、目录、矩阵的方式来做。这是一个数据概念模型。每个主题下面都有一些基本表组成。最常用最成熟的方法可以用雅图来表达。这个构成可以直接拖过来,也可以进行交互验证,包括概要信息、存取关系的数据等等都在表里面。
 

    这是我们在架构方面的探索。最后简单总结一句,我们要基于企业架构,以它的原模型,通过方法、工具遵循标准,使架构资产变的可视、可控、可量化、可持续。谢谢大家!