很高兴今天有机会参加智慧中国的年会,因为疫情关系就不到现场了,通过视频的方式与大家做交流。大家知道,现在我们在推动数字中国的过程中,核心问题是做数字化转型或者叫数字化发展,十四五规划中专门有一章节来讲这个问题。数字化转型、数字化发展核心问题是数据的问题,要以数据为驱动,加上数据的治理,产生智能化决策、闭环、控制,来实现智慧中国的发展应用。因此,现在讨论较多的“数据”作为关键要素,数据治理应如何推进,最近国家在这方面发布了很多文件,特别是在数据安全领域,实际上这也涉及了数据治理的问题,各个单位对数据治理也高度重视,特别是关于数据的质量控制、数据安全使用以及数据共享、数据流转等等数据治理问题。另外,讨论数据交易的问题也比较多,如何确权,如何定价,现在各个地方也在做大数据交易中心,这也是数据治理问题。但现在感觉到有一个问题,现在对数据治理基础架构如何构建,这个问题讨论不是很多,也不是很清楚如何做。在过去,数据治理在一个机构或部门里边,他的基础架构是有案例的,也是有解决方案的,这是没有问题的,但是现在的数据治理涉及到一个更大的空间,涉及跨部门、跨地区、跨层级这样一个特征,因此,数据治理架构应该什么样,今天围绕这一问题谈一些看法,供大家参考。
数据要素重要性大家都有共识。简单来说,数据本身是一个基础支撑,比如“人”,人是有身份证数据,有基因数据,每个人都有一个身份、基本生理特征等基础数据的支撑,这些数据与业务相融合就能产生效益。比如,人的基因数据,人到医院看病,诊断这个人是什么病,一般下来有时候这个病跟基因是有关系的,因此,跟诊疗结合之后,才会提升诊断的效率和准确度。另外,数据作为要素能够流转,能够在更大范围内流通,那么,他将产生更大的价值。比如,基因数据,在国外与医院中的诊疗数据、制药企业掌握的制药数据、疗效数据以及其他有关医疗健康数据融合之后,当然数据要透明,他可以发现很多规律,这样他的价值将更大,数据这三种价值的提升越来越重要,这个越来越有共识。
目前数据还面临一些问题。第一,数据质量问题,有相当一部分数据质量不是特别高,有不少问题,如准确性不高、时效性不高、垃圾数据,给数据应用带来一些困难。第二,数据流转不畅,如大家知道的信息孤岛、数据孤岛。第三,融合应用方面深度不够,用的还不太好,产生的价值不知道怎么用。这些问题怎么解决,都是跟数据治理密切有关系的,质量问题、流转问题、融合之后应用价值、安全可控问题都是和数据治理有关的。
现在的出路是,怎样构建领域数据空间。用政策、制度支撑构建领域数据空间,同时用技术架构支撑构建领域数据空间,就刚刚讲到,数据流转、数据共享有困难,跨部门、跨地区、跨异组的数据共享有困难,困难的原因是什么呢,这里面有些数据标准不一样,数据所存储或产生的数据的信息也是异构的、异组的、异地的,也就是三异,这些客观上来讲对数据的共享产生困难,但是泛泛的说,把所有数据按照一个统一的标准来做,这个难度非常大,因为数据几乎是一个海洋,不可能对海洋的每一滴水进行治理,所以我的一个观点就是,首先数据要变成一个数据对象,是有边界、可识别、有内涵的、可定义的对象,我们叫他数据对象,数据要变成一个数据对象,由数据对象在一定的基础架构下,能够进入一个空间,这个空间里能够使数据对象进行互操作,所以,数据本身要进行治理,首先数据要变成数据对象,由数据对象构建基础数据架构,这个架构有制度规则、有技术的支撑,形成领域数据空间。为什么叫领域,因为数据要共享、要流转,一定跟场景、跟应用导向是相关的,而领域与数据应用场景比较亲切,应用需求比较清楚,因此在这种条件下,数据对象本身的关联度就比较强,因此就形成领域,所以符合领域内强关联度的数据形成空间,这个空间能够实现数据的互操作基础,大概就是这样一个概念,我认为这个概念就应该是数据治理的基础设施,没有这个基础设施就很难把数据治理的质量、流转、共享、安全、融合使用这几个要素都去做到就很难。最近国家出台很多关于数据安全的条例,这些数据安全条例是必要的,但怎样去落地,我认为落地的关键问题就是基础架构,没有这个基础架构,这些落地是非常困难的,尤其是在互联网的这个环境下,很多互联网平台企业,其数据量是非常巨大的,上千个bit,如果这些数据里面没有一个基础的架构,不是一个可识别的数据对象,那么如何对他进行监管、提出要求,进行治理,包括他自己要去流转、去管理都是很困难的。所以这就是我们今天说的,要构建一个数据治理的基础架构,这个基础架构我建议不是泛泛去说,要去建立领域数据空间。领域数据空间有两个支撑,一个是制度/政策支撑,这里引用FAIR原则,符合FAIR原则的标准的数据对象,就可以进入这个数据空间。另外,这个数据空间要用技术实现FAIR原则,实现这个标准的技术架构,也是对数字对象体系架构进行技术支撑。由这两个支柱,即制度支柱、技术支柱,来形成一个领域的数据空间,这样作为数据治理的基础设施,我觉的这是一个思路。这个思路也是最近观察到欧盟在实施一个欧盟统一数据空间的倡议或者说是一个项目,这里面有两个内容,一个是统一欧洲的云,因为数据都在云上,都是云架构,所以做了一个统一欧洲云的技术架构;另外在这个架构上,做了一个IDS,国际数据空间(International Data Space)。这两个东西组合成欧盟跨国数据基础设施,他甚至还有一个想法是把他做成国际的。这个想法跟我今天讲的内容还是有一些区别的,他没用运用DOA的架构,也没有很明确的用FAIR原则在做,那么我是把这三个内容结合起来,来进行的一个思路研究。欧盟的IDS和云空间这两个项目,国内有些单位跟他们有很多交流,过几天我和德国的一个教授也会做一些技术交流,我希望大家能够关注、能够借鉴,设计符合我国国情、符合我们实际的,借鉴新的理念,把领域数据空间作为数据治理的基础设施来推进。
下面,我想再展开下,把FAIR原则、DOA的技术架构简单说说,供大家参考。
领域数据空间分类。可以分为产业领域数据空间,举例有加工制造业、交通运输业、通讯产业、金融业等等,这些产业是强相关的,某个行业里互相有关联,也可以再细分,当然也不能太细了,还是有个领域的;另外一个是政务领域数据空间,比如政府之间的电子政务、政府对企业的电子政务,即G2G、G2B、G2C、G2E,G2E是指政府对本身公务员的,这个分类也可以;还有一种就是按照我们政务领域之间的分类,如环境保护、公共安全、公共卫生、产业宏观调控的等等也可以按照这个来分。公共领域里面有电子健康、科研教育、文旅、民生生活上的内容等等,这个是举例来讲,都可以这么分类。
FAIR原则,实际上也是四个英文名的开头字母,第一个字可发现,数据变为数据对象,有边界、可识别、有内涵、可定义、可定价,在某种场景下可定价,定价一定跟场景关联,没有场景关联这个价是很难定的。这四个字呢,第一个是可发现,第二个字是可访问,第三个字是可互操作,第四个字是指这个数据对象可重用。可发现就是数据对象在什么位置,讲数据在什么位置是很难发现的,数据是一个很泛在的概念,一定是变成数据对象后是可发现的,他有标识、有边界、有地址;可访问是指可以找到,有一定访问权限,有认证,安全里面有可访问,包括认证权限、访问权限等;可互操作,包括接口、数据间的通信协议,这个都要标准化;可重用就是可流转,在一定的条件下面、一定的规则下面,与前面三个条件能够在需求导向、规则为基础下重用,就是流转。这个原则所有的数据对象,符合这个原则就允许进入共同体,就能够享受共同体的一些权益。符合FAIR原则是它的义务,不符合原则自动标准的数据对象是不能进入共同体。进入到数据共同体或数据空间,它符合这个原则就很容易在有需求、有场景导向的情况下,很容易实现互操作,就能够实现共享,就能够很容易组成支撑业务的需求,就是这么一个思路,当然包括各种各样的治理,你要去交易也好、你要去开放也好、你要去共享也好,不同的流转机制就能够支撑。
这个原则因为时间关系就不详细讲了,对数据的要求大家可以再看看。目前FAIR原则在国际上,在科研的数据上发挥共享和互操作起了非常明显的作用。我刚开始举的例子,举了基因数据和临床数据、还有药物的治疗数据,这些数据是跨部门的、跨领域,有的是在制造业,有的是在医院里面,有的是在研究机构学校里面,他们就用FAIR原则把数据都进入到一个空间,然后在里面产生很多有价值的规律,发现很多价值,如某种基因缺陷会产生什么疾病或者反过来说某种疾病可能和某些基因的变异或者缺陷有关,或者某种药物对某种疾病因某种基因变异后产生的疾病能有疗效、有针对性。那么这样一些东西目前已经是实现,已经证明利用FAIR原则是指导数据的空间在发现支撑方面发挥很大作用,这已经是证实了。举例子讲,上次有一位荷兰过来的教授,曾经和我们交流就是用FAIR原则怎么实现这种跨部门、跨资源而且是跨国的数据共享,能够分析出很多有用的支撑规律,这是非常典型的一个例子。我认为这个事情非常重要,比现在局里研究的数据交易、数据确权更为重要。那个当然也是需要研究的,但是不把这些问题研究清楚,我们的数据价值、数据的流通流转,包括安全的可控都是很难实现、很难落地。
这是一方面,FAIR原则是一个制度原则或者是一个政策原则。它的技术实现什么?就是刚才讲的,其中一个方面也不是全部,欧洲的IDS不是按照FAIR,但是原理和这个很接近,它是用另外一套体系、另外一套软件来实现的。那么现在有一种方案是利用DOA,就是数字对象体系架构来实现,因为体系架构就能够实现变成一个数据对象,这个数据可大可小,单个数据可作为一个对象。一个数据库、数据文件、数据湖、数据池,将来比如我们讲数据孪生都可以算数据对象。它一定要有边界,要把它定义好。这个对象形成之后就给它一定的赋码、统一的赋码,而且也是唯一性的。这个码赋完之后可注册,注册之后这个赋码对象还包括两个内容,不仅仅是码的问题,封装之后里面的元数据标准是一样的,元数据可以自己定义,它有一定的标准架构来定义它。这样就实现这些能给它提供条件,这些最后要访问,访问要有一定的条件,包括安全认证的条件加进去。最后信息内容能够,刚才讲的元数据和内涵的一些语义分析也是一部分,和数据对象之间的一些通信要有统一的协议。把这个架构实现起来,在政策下规定了一些标准化的数据对象进入数据空间之后,DOA的架构技术实现它的互操作。这就是一个完整的数据治理基础架构。
DOA怎么实现它的支撑?它可发现,里面有标识、语义定义、全球的解析,怎么来实现它可发现的东西。那么可访问就是它的安全认证,以及元数据的定义使它可访问。互操作就是通信协议,一个是发现的协议,还有一个就是数据互相交互协议。还有一个重用要在一定的范畴之下有统一的注册、统一的分类,按照主题、内容数据对象进行分类,有一个分类表,然后就可以在一定场景下面、用户有需求的时候去访问它,去调用它都可以。重用的“用”有多种方式,也可以访问也可以汇聚也可以同步,就像我们现在讲的区块链一样是数据的同步,其实区块链是DOA里面的,区块本身是一种DOA,所以我们讲区块链可以把它理解为DOA架构下面一种特殊应用,而且是一种比较高级的应用。所以我认为我们用数据对象的概念、FAIR原则来构建数据治理的基础,实现三亿数据的互操作这样一个基础。这是数据治理非常非常重要的一个关键。
我今天就讲这些供大家共同研究、共同探讨,谢谢大家!
本文系国家信息中心原主任、国家信息化专家咨询委员会委员高新民于11月24日上午在“2021智慧中国年会”主论坛上的演讲。内容通过速记整理,未经本人审核。