云环境下的大数据
来源:企业网 更新时间:2015-05-31

北京信息资源管理中心: 云环境下的大数据
 主持人:下面有请北京信息资源管理中心总工程师穆勇先生,带来“云环境下的大数据”。

穆勇:我要讲的内容可能是比较新的,而且很多转观点都是第一次提出来了,有一些想法只代表个身的观点。这个题目是政务大数据治理与政策。我们在这个环境下谈大数据,可能是说我们现在数据不管它的管理,治理,还是应用,整个都是在云环境下实施的。第一部分概述。第二部分,关于个人信息保护管理方面的研究。第三、资产化管理方面的研究。这里面我们都是做了相对比较深入的一些分析。

北京信息资源管理中心  总工程师 穆勇

政务大数据,最早我们给出了政务大数据的定义,主要是说,政务大数据和以前做的电子政务和政府信息化相关的关系,到底是有一些什么样的区别。我们后面给出什么是大数据在政务领域的应用,另外,一些新的数据进一步开发利用,我们把这个叫做政务大数据的应用。同时看到大数据在政务领域的应用,无论在需求多样性上,还是行业复杂性上,相比其他行业都非常多。

另外,我们为什么说大数据的应用,不管它是在治理,还是它的应用,应用是在云的环境下,新的体系架构下实施的,我们觉得它主要有三方面的技术。第一、数据从采集、加工、存储、分析、共享、开放、安全、归档、销毁等整个数据生命周期管理的一些新的内容。还有数据融合,数据可视化、行为分析,数据预测分析和机器学习方面,还有整个体系架构发生了很大的变化。基于云平台的数据处理体系,而且在云平台下,很多原来的工作是在这个基础上做的。所以,原来用传统的

政务大数据,最早我们给出了政务大数据的定义,主要是说,政务大数据和以前做的电子政务和政府信息化相关的关系,到底是有一些什么样的区别。我们后面给出什么是大数据在政务领域的应用,另外,一些新的数据进一步开发利用,我们把这个叫做政务大数据的应用。同时看到大数据在政务领域的应用,无论在需求多样性上,还是行业复杂性上,相比其他行业都非常多。

另外,我们为什么说大数据的应用,不管它是在治理,还是它的应用,应用是在云的环境下,新的体系架构下实施的,我们觉得它主要有三方面的技术。第一、数据从采集、加工、存储、分析、共享、开放、安全、归档、销毁等整个数据生命周期管理的一些新的内容。还有数据融合,数据可视化、行为分析,数据预测分析和机器学习方面,还有整个体系架构发生了很大的变化。基于云平台的数据处理体系,而且在云平台下,很多原来的工作是在这个基础上做的。所以,原来用传统的模式,有些认为做不了,或者做不好。

举个例子,我们有一个委办局,从各地把其他各部门的数据都汇集到这个部门,但是用的模式还是传统的模式,在整个过程中,它的运转效率非常慢,非常差。后来我们建议他,能不能改变一种新的架构来实施。在云的环境下,我们正在规划北京市大数据的应用,就是用大的模式开发和实施的。各委办局的大数据应用,我们把它看成是一个端,整个市级的交换平台,它有一些共性数据在这个领域里。不管是在政务内网云还是外网云。真正的政务大数据的应用,不允许各部门单独独立,在一个集团里面,搞一套设备,说我要做政务大数据,这种方式以后是不允许的。

政务大数据它是数据的共享和开放,你的数据来源不光是你,还要来源于社会。同时你产生的数据,也不光为你自己使用,还要为其他委办局使用。所以,整个大数据的应用,从北京是整体来说,应该是完全基于云的一个体系架构实施的。而且四级平台,各种应用的端。四级平台主要做资源和基础能力的汇集,真正的应用都是在各个委办局的端里。

在整个大数据应用里面,各单位的大数据应用,只是说在他那端做自己的,然后各家通过在云的基础上,实现了数据的交换、共享、利用。大概形成这么一种架构。

接下来在云的环境下做大数据的管理和应用,我们讲了一下整个体系架构。我们看一下政务大数据治理的基本框架。现在大数据应用很大,我们就是把大数据的应用,大数据应该有一个治理,不能疯狂增长。虽然大数据能够治理国家,能够强国。对于大数据治理应该有几个部分组成,首先数据本身。不管大数据,还是小数据,中数据,都时候信息资源,对信息资源来说,整个管理是生命周期的管理,同时他的管理要基于体制的框架下,同时要有一些新的技术,同时要有一些管理规则,包括一些政策,一些标准。我们今天讲的重点是数据管理的相关规则。它面向的对象有政府部门,有公众,还有一些机构。这就是我们提出大数据治理的一个基础框架。关于政策法规来说,国家层面,地方层面都有不同的政策,先后出台了一些不同的政策,这些政策可能是不一样的,但是还是会延续使用的。

在大数据应用环境下,还有一些什么样的问题和需求需要我们出台政策解决呢?我们觉得可能有这么几个方面比较重要。第一、政府数据开放共享。政务大数据的应用更强调它的共享和开放,如果这两点做不到,工作就很难发挥它的作用。另外一个问题,大数据在应用过程中的个人信息的保护问题。如果数据在使用过程中,特别涉及到个人信息的使用过程中,如果没有很好的保护,就没法进行开放、共享使用。所以说,这些需要一个很好的制度。还有现在大家都认为信息资源,大数据都是资产,现在各地也在成立大数据的交易所,交易平台,贵州成立了一个大数据交易所,北京也开始了一些交易活动。那么,这些数据如何进行资产化管理,我们觉得这个问题也是非常重要的。

我们觉得大数据治理来说,这三个方面的问题,特别是后面两个,我们觉得是更需要研究的。因为前面的问题,第一个问题,在很多场合很多人都讲过了,所以我这里不多说了,我们重点想说一下后面两个。我们在研究过程中的一些新的观点和想法。

首先,我们觉得个人信息保护这方面,首先是一个概念。什么是个人信息?个人信息我们觉得最重要的就是这个信息是能够识别这个人的身份的信息。关于个人信息的保护,国家相关的法律法规有很多,但是缺少一部专门的关于个人信息保护的法规。而且在《民法》《侵权责任法》等角度都进行了保护。所以,这里给出的概念是个人信息,个人信息和个人隐私是不一样的。这些法律法规保护的是个人信息。起草相关文件的时候,需要确定的是什么?就是个人信息的保护,要处理好三方面的关系。各类信息的保护和共享的关系。另外,个人信息和隐私信息的关系,还有个人信息的数字化和非数字化的关系。

什么叫隐私信息,就是个人信息里面涉及到一些,根据国家相关法律法规明确的确定除了这个信息,个人信息里面是隐私的,我们把这类叫做隐私信息。关于个人信息的保护,涉及到采集方面。这里面有明确的规定,就是不能随意采集,不能过渡采集,而且采集的时候如果涉及到隐私信息,要有相关的法规,法律程序。另外,如何来保护呢?给出了相关的一些规定。就是对于个人信息和隐私信息的保护是分类管理的,个人信息相对来说,它的使用范围可能更发散一些,如果隐私信息,它的严格禁止,共享和使用开放。同时,对一些信息的处置,另外对于信息化系统都应该给出相关的规定,包括一些监管。包括一些相关的检查。

所以,个人信息的治理,从个人保护角度来说,我们只要拿出一个案例分析一下,可能就会看到违法、违纪、违规的问题还是存在的,而且是十分突出的。这是一个问题。另外一个问题,大家都在说,信息资源是资产,它到底是什么样的资产?现在虽然进行了交易,我们能不能把它作为一个资产列入我们的财务报表里面。这方面我们是做了一个深入的研究。而且拿到一个案例做一下实验,看看行不行。现在一种通行的说法,说信息资源是无形资产,我们通过一系列的分析,信息资源是资产来说,大家基本上是共识的。但是它是无形资产来说,我认为是不准确的。因为它们俩有一些相同,但是还有一些不同。不同的主要是在这两个方面。存在的状态不同,另外,它的管理、使用、处置方法不一样。

那么,对于信息资源大数据进行资产化管理的时候,要解决哪些方面的问题呢?第一、传统的数据管理,我们都使用传统的方法,比如全生命周期法,体制机制。如果是资产化管理,我们还用财务的、会计的、经济的,多方面视角,对传统的信息资源管理进行资产化的过程,这个资产化涉及到很多方面。所以,资产化也是一个过程,可能我们第一阶段先做一些资产化的登记,做一些资产化的交易,然后后续我们还有一些处置资产。这个逐步来试试的。整个进行资产化管理,应该做哪些工作?而且有哪些实施主体,可以对比一下。

比如说资产化管理,我们数据的采集和共享,要进行资产化管理。另外资产化的等级,还有公开和利用,更新和运维,处置,价值评估,还有一个会计核算,这一系列工作,都要做,我们才能说我们这个资源进行了资产化管理,如果只做了一部分,还不能进行资产化管理。而且你能做的一部分,有可能只是其中的一部分。比如国外也对信息资源进行资产化管理,国外做的更多的是什么?做资产化的登记。

现在国内做的比较多的是它的交易,我要出去交易,我要卖钱。卖完钱怎么办?比如现在有一个交易平台,按照贵州大数据的交易平台,有些相关人员说,以后日交易量能达到100亿,一年能够交易一万亿,交易这么大的量,这么大的数据,交易完了,这些数据交易一笔是几千万,或者上亿元的数据买过来了。买过来之后,怎么处置?把它当成垃圾放到一边不管了,还是把它列入资产帐目,我要进行加工整理之后,再把它卖出去,然后盘点我资产的时候,这块怎么处理?所以,这一系列问题都是资源资产化管理的相关内容。同时,这些工作由谁来做?其实是很难的一件事。对这些问题,我们是做了专门的一些分析和研究,并且做了一些实际的案例。比如对于评估来说,对于我们做这个案例采用的方法,我们采用成本的方法,比如政府这个数据要列入资产,进行价值评估,前期采集它,或者制作花了多少成本。这是一种方法,而且还可以用其他方法来做,比如交易所用的一般都是市场。人要买你的东西多少钱,什么样的方法来做。

还有资产交易完了,或者说获得了,我要进行财务科目的设置。我们已经假设了,我们信息资源作为一种特殊的资产,既不是固定资产,也不是无形资产,是第三类资产,我们要在我们的财快,会计报表中体现,这里面就有一个会计科目设置,还有一个帐目处理。就是我这个数据要采集来了,要共享了,要运维了,要开发了,或者我要交易了,我要归档,我要销毁了,这些处理相对应的财务如何进行实施?另外,会计报表的编制。资产负债表,还有收入支出表,这两个关键的报表,都有进行处理。这样才能说是真正的信息资源资产化管理。

因为我们单位是事业单位,所以我们在这个单位,拿到我们自己的数据做了一个实际案例。我们每年北京市要组织一次航拍,用飞机在整个北京大区飞一遍,把航拍数据拍下来之后,把数据根据处理,对全市各单位进行共享,整个项目一年大约一千四五百万,原来都是数据处理完了,除了几个硬盘,这些数据资产上销毁了,就没有了。但是,数据资源还是保留的。数据留的资产什么?就是几块硬盘的钱。所以,这个是典型的政府的数据,由于没有根据资产化管理,最后资产是体现不出来的。然后按照我们研究的成果,做了整个的一个财务体系。包括我们资产科目的设定,包括负债科目,包括它的基金科目,这两条线怎么设定,包括收入科目。如果提供了,或者共享使用了,可以获得一些收益,实际上政府部门是免费,但是有些还是有一些收益,另外如何支出。

在这里面我们按实际成本计价,我们信息资源是什么资本,包括它的会计登录如何进行实施,如何列入资产化帐户,它的初始值,原始值,他的资金。对于数据他的一些处置,如何进行财务上的处理。这里面如果说加工,或者共享使它升值了,这个升值的价值如何在财务报表中,财务科目中体现出来。

还有共享,就是财务处理,有些是能够用货币来表示的,有些不容易用货币来表示,我们可以在它的会计相关的披露报表中体现出来。比如共享中进行处理,每共享一次,肯定效益都要增加,我们算它的效益的时候,设定这个方面的一个共享的模型。共享一次,整个资产增值多少,产生社会效益多少。有些是在报表中体现的,有些是在补充说明中说明的。有些共享产生的是社会效应。

另外,它的运维,要保持数据鲜活可用,要对它进行运维,运维要有一些费用,这个费用是保持它的增值,但是运营费可以在这个里面列入它的支出。相关的处置活动,相关的财务如何处理,帐目如何处理,应该是有这么一个说法。包括它的注销、归档如何处置。包括我们资产化管理的时候有两张报表,一个是资产负债表,我们的信息资源,它的资产化在这个表里如何体现,包括它的处置。还有收入支出表。这个我们实际真正做了一个。我们这个行业用了一个比较特殊的航拍的实例进行了一个实际的运作。而且产生的效果也还是比较好。

我们看一下,在这里面我们需要特别说一下,我们在政务信息资源进行资产化管理的时候,我们选择的案例,特别是实证研究用的案例,还是比较特殊的一类。其实在这一方面,在信息资源资产化管理的阶段,有很多工作,处于开始的阶段,真正离实用还有很大的距离。且不说我们假定的信息资源是一类资产,能不能被国家相关的部门接受,另外,在一个会计报表里面,如何进行科目的设定,会涉及到会计法,还有财务管理方方面面的相关法律法规。所以,这项工作,离实际操作还有很远的距离。

所以,本课题的实证研究对象只是政务信息资源中的一部分比较特殊的部分,还不具有普遍意义。所以,这项研究是可以进行,也可以做一些工作,但是整个信息资源的资产化管理还是很难的。所以,我们今天讲的就是大数据治理里面,其实两个核心的方面的问题,一个是个人信息保护的问题,另外一个就是信息资源资产化管理的问题,这里面很多问题都是十分迫切,而且矛盾也是比较突出。有些东西是理论滞后于实践,特别是信息资源资产化管理这方面,更是如此。个人信息保护,我们看到,随便拿出一篇文章一分析,发现这里面很多是违反我们相关的法律法规的。当然,还有一些其他方面的问题,也存在着争议。比如说,我看了一下昨天书博会上有一些专家提出个人信息存在不管是互联网上的,还是政府的,个人信息的所有权都是归个人所有。

但是,实际上仔细分析,也不尽其然,有些并不是这样,比如这个人到政府办一些事情,提交一些信息,这个信息可能是你的。但是,你在办理政府业务过程中,会产生一些新的数据,还有这个过程中的数据,这也数据要说是这个个人的,显然是不合适的,我认为是两家共有的。还有在一些单位,我遇到这么一个问题,非常实际的一个问题,有些单位的人问我,好像民政部门,他说我们政府是为70岁以上的老人发老年服务卡,委托一个公司在运营,这个公司产生的数据有一部分,老年人的基本信息是政府的,属于政府信息,然后在这个服务过程中产生的一些数据是属于这个企业的,他们要用这个数据进行运营,买卖这些信息。后来我们觉得,这个数据的所有权到底是谁的?后来我们可以找出一个依据,根据信息公开条例,或者电子政务的总体框架,或者到政府部门办理业务,产生的数据是属于政府信息。所以,对于整个各部门来说,还是对于我们企业来说,大数据的应用这里面首先要解决好自己的管理。而且,很追求的这些文件,应该尽早的出台,包括数据开放,共享,还有个人信息保护的,还有资产化管理的,等等这方面的工作,应该尽早的出台,这样有利于大数据的应用能够健康发展,谢谢大家!