摘要:大数据,作为新一代信息技术的重要新兴领域,近年来得到了政府、社会和个人等各个层面的广泛关注,以大数据分析挖掘为基础的新型管理及经营模式,已成为经济社会发展的重要趋势。政府公共信息,是全社会信息资源的重要组成部分,大数据的快速发展,对政府部门的数据管理能力与模式提出了更高要求。本文从当前信息技术发展的背景入手,分析梳理了大数据的概念、特征及作用,阐述了政府大数据应用的需求及当前政府数据管理的主要特征。通过对国内外大数据应用及管理的案例剖析,总结提炼了具有借鉴意义的经验启示。在整理总结本市大数据应用的现状及主要问题的基础上,从组织管理、平台建设、开发模式以及数据安全等角度,提出了可供参考的对策建议。
关键词:大数据 政府管理 管理模式
一、“大数据”概述
(一)大数据的概念和特征
“大数据”(big data)是一个体量特别大、数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。总体而言,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据类别上看,大数据指的是无法使用传统流程和工具进行处理或分析的信息,它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学家John Rauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。大数据是可能不包含所有的信息,但包含了大部分的信息。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当技术达到极限时,也就是数据的极限。大数据的关键不是如何定义,而是如何使用,最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。
大数据的特征主要体现在四个方面:首先是指数据体量大,大型数据集一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;三是数据处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理;四是数据真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
“大数据”的概念远不止大量的数据(TB)和处理大量数据的技术,更让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。从数据分析的角度,包含五个方面:一是可视化分析(Analytic Visualizations),大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了;二是数据挖掘算法(Data Mining Algorithms),这是大数据分析的理论核心,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。三是预测性分析能力(Predictive Analytic Capabilities),预测性分析是大数据分析最重要的应用领域之一,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带人新的数据,从而预测未来的数据。四是语义引擎(Semantic Engines),由于非结构化数据的多样性带来了数据分析的新挑战,需要一系列的工具能够从“文档”中解析、提取、分析数据。五是数据质量和数据管理(Data Quality and Master Data Management),大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
(二)大数据的作用
政府部门越来越注重运用技术手段对数据资源进行深度的价值挖掘,满足日益增长的精细化、科学化管理需要。与此同时,随着社会经济文化的发展和进步,公众对政府和职能部门的要求也越来越高,集中表现为要求提高行政效率和透明度、创新工作方式、提高对社会的服务能力等。
首先,有利于为市民的日常生活提供服务。随着生活水平的不断提高,市民对包括气象、食品安全、交通等在内的生活资讯类信息愈发关注,实现此类信息的公开,为市民提供更准确、及时、便利的日常生活服务,将促进政府服务转型,树立良好的政府形象。
其次,有利于提高政府部门提高行政管理水平。体现在两个方面:一是有利于提升政府部门协同共享。随着经济社会的快速发展,资源环境的约束H益显现,城市的发展转型迫在眉睫,对政府管理部门的管理能力提出了更高的要求,将倒逼政府部门问实现公共信息资源的共享。二是有利于提升管理决策水平。在政策制定阶段,数据分析是决定政策质量高低的关键性因素。在政策实施阶段,数据分析能够有效监控政策实施情况。通过数据分析监控,可以掌握政策是否按计划实施,对于计划实施过程中出现的问题或失误,数据分析工作可以及时、准确地反映。在政策评估阶段,需要通过科学的数据分析来解答,对未来政策的完善提供借鉴。
第三,有利于为企业发展提供服务。政府信息公开,侧重于政府信息的社会属性。在创新驱动、转型发展的背景下,政府部门公共信息资源的经济属性越来越受到企业的关注。当前,政府部门的公共信息资源已成为一种创造价值的新的生产要素,向企业开放后,将会极大地推动本市信息服务业的发展。
(三)政府“大数据”应用的需求分析
1、政府职能转变迫切地需要大数据加以支撑
从内部管理的角度看,政府需要降低行政成本、提高决策的科学化水平。在信息化时代,政府机构、职能有效发挥依赖高效、实时的信息系统、尤其是大数据的支持。信息化时代,政府掌握着大量的、关键的数据,是数据时代的财富拥有者,但以往由于信息技术、体制机制等限制,各级政府及各部门之间的信息网络往往自成体系,相互割裂,相互之间的数据难以实现互通和共享,导致目前政府掌握的数据大多处于割裂和休眠状态。同时由于政府各部门信息系统分割,许多数据往往需要重复采集,数据采集成本较高。随着大数据和云计算技术的发展,建设统一的政府信息系统平台成为可能。通过统一的信息平台,实现数据的标准、格式的统一和共享,利用大数据技术,数据获取、处理及分析响应时间大幅减少,工作效率明显提高,有利于压缩政府开支,降低行政成本。同时,对于数据的统一和共享所产生的大数据,通过数据挖掘等技术,能够增强政府社会管理水平。大数据在政府和公共服务领域的应用,可有效推动政务工作开展,提高政府部门决策的科学化水平、服务效率和社会管理水平。
从对外服务的角度看,政府提供公共服务、促进经济社会发展的职能发挥同样需要大数据支持。政府掌握了大量关于人口、法人和城市空间地理等数据,提供满足群众需求、针对性的公共服务需要对所掌握数据的精细分析。凭借大数据,城市公共卫生、教育、城市规划、交通服务能够得到改善,基于大数据分析结论的政府公共服务决策能够更好的满足市民需求。目前,各个地方政府大力兴建智慧城市,智慧城市已成为国内信息化建设的潮流,“智慧”的关键在于对大数据的研究,只有利用大数据分析,才能实现电子政务信息系统有效整合,实现跨部门的政府信息资源共享和政务协同,让政府的管理服务效能提升,让民众感受到政府无处不在服务。政府另一项职能是促进经济社会发展,如在经济异常波动时实施宏观调控,政府对大数据信息的掌握和分析,直接决定了宏观调控的效果。这些都对大数据提出了要求。
2、统一共享的数据平台是实现大数据发展的重要前提
对于大数据基础库,代表性的有人口、法人和空间地理三大基础库。这三大基础库收集了大量的居民、企业和城市空间地理信息,数据量庞大,这些数据的有效发挥需要大数据收集、存储、管理、运用技术的支持。同时三大基础数据库与各专业库的统一及共享,有利于降低政府信息使用成本,提高行政效率。同时也为专业库和应用库层次提供了信息系统基础设施支撑。目前,政府掌握数据中大部分都是非结构化的数据,现有的软件和工具主要适用于以结构化数据为主的传统数据,要想及时捕捉、存储、聚合和管理这些大数据,以及对数据进行深度分析和挖掘,政府首先需要全面整合并打通三大基础数据库与各专业库的互连阻碍,建立统一的、共享的基础数据平台。
专业库是基于基础库的专业数据库,如教育库、医疗库、交通库等,这些专业数据库为方便居民生活提供了条件。可以预见,随着经济社会的发展,政府的公共服务职能将更加突出,主动服务群众、提供公开透明的信息是时代对政府的要求。基于基础库,政府各部门对教育、医疗、交通等专业库信息进行深度共享、数据挖掘,有利于政府掌握更细致的信息,为居民提供更加个性化、更加贴心的公共服务。如个性化医疗:比如对病人的医疗数据、电子病历、遗传情况、职业特征、饮食状况等运用大数据技术进行分析、挖掘,可以帮助大夫提供更个性化的医疗服务。
应用库是基于基础库和专业库的数据基础,可为社会提供针对性的应用服务。政府职能之一就是促进经济发展,尤其是在上海市“创新驱动、转型发展”的大背景下,大数据、云计算等新兴技术层出不穷,新应用、新商业模式不断涌现,要求政府向社会、企业开放大数据服务,并引导企业探索创新数据产业业务模式,积极培育大数据产业。随着数据开放度的加大,基于开放数据开发的应用系统越来越多,这种大众创新和社会创新模式将越来越普遍。开放大数据服务,不仅有利于本市形成完善的数据产业链,有利于培育战略性新兴产业,并将有力促进本市经济结构转型。
(四)当前政府数据管理的主要特征
“政府数据管理”有两个含义:一是对政府信息本身的管理,即对政府信息的收集、加工、存储、传递、反馈和利用的过程管理;二是对涉及政府信息活动的各种信息资源要素管理,如公务人员、行政组织、政府信息及其开发利用支撑技术等结合起来进行管理,从而有效地满足政府部门行政管理需求的全过程。政府数据管理的目的是政府数据资源得到充分开发和利用,以实现政府办公业务数据资源共享与网上政府向社会公众提供政府信息服务。政府数据管理贯穿信息收集、整理、贮存、发布、服务等全过程,内容包括信息网络、应用系统、信息的采集和发布及相关的管理体制、程序、实施模式和项目管理。
当前,国内政府数据管理的主要特征为:
一是政府部门对数据资源的独占性较为严重。据统计,目前国内约80%的社会信息资源由政府部门控制,这种局面是在长期计划经济体制下形成的。改革开放以来,虽然信息服务市场的需求情况已发生了很大变化,但在信息服务供给方面,数据资源开发以政府为主,信息系统建设为政府服务,相关投入由政府资助的基本格局并没有发生根本性的改观。
二是数据共享性较差。数据共享意识较落后,部分政府部门认为拥有数据越多,权力就越大,不愿把数据资源在网上共享。部分行业(部门)各自开发自己的网上数据服务系统,信息产品重复、不足与闲置并存,造成资源的严重浪费,也不能形成规模优势和效益。在现有国内的3000多个数据库中,真正流通起来被利用的不足10%。公用信息与保密信息的界限不明,数据价值无法确定。在全国范围内目前还未形成通过网络利用政府数据资源的态势,且缺乏行之有效的组织和办法,网上可利用的政府信息资源较少。
三是政府数据资源管理系统标准不统一。尽管我国的政府信息化建设已经历了20年的时间,国家在这方面也投入了大量的财政资金,我国政府办公业务网(政务内网)已基本建成,政府公众信息网(政务外网)也形成了相当规模。但是由于标准不一、各自为政、自成一体、不联不通,缺乏有效整合,政府大小部门问最终形成了一个个“信息孤岛”,隔断了部门内业务上的内在联系,致使丰富的数据资源难以得到共享,大量资金投入的结果,却不能获得为社会提供便利的政府公共服务的回报。
四是缺乏统一的、常设的管理协调机构。我国政府组织结构是纵向层级制和横向职能制交叉组成的二维模式,政府对数据资源并未做统一的管理,也没有设立相应的统一的管理机关。当需要对跨部门的信息资源进行管理时,只能设立临时性的协调、管理机构。因缺乏统一的、常设的管理协调机构,我国政府的信息资源管理表现为缺乏监督和协调,壁垒林立,没有统一的标准,没有统一的目标,也没有统一的政策及指导思想,管理相对混乱。
五是数据收集、加工、存储、利用的规范性差。目前与数据资源管理相关的只有《档案法》、《保密法》、《统计法》等少数法律。从总体上来看,这些法律对相关数据信息管理的程序、期限、方式等方面的规定都比较简单。尤其是实际工作中,数据管理人员多倾向于保密,因为不公开就无须承担责任,若公开的话,则有可能要冒因公开不当而导致泄密的风险。由于法律、法规缺位,行政机关对数据资源管理认识的缺乏以及行政机关工作经验的不足,导致现阶段我国的数据管理处于相对随意的状况。
二、国内外促进大数据发展的案例分析及经验启示
(一)国外政府及国际组织应用案例
1、英国——政府在关键行业的大投资获得大回报
英国政府在大数据应用方面无疑是走在全球前列的,2010年1月以来,英国政府OpenData网站的人均访问页面数增长了285%,总访问量比法国和美国(data.gov)的同类网站还要高。可以看出英国政府在大数据领域的大手笔投资已经开始收到回报:一份行业报告显示,英国政府通过高效使用公共大数据技术每年可节省约330亿英镑,相当于英国每人每年节省约500英镑。
虽然经济不景气,财政被迫收紧,但大数据依然是英国政府舍得为之一掷千金的“宠儿”。2013年年初,英国商业、创新和技能部宣布,将注资6亿英镑发展8类高新技术,大数据独揽其中的1.89亿英镑。
英国首个综合运用大数据技术的医药卫生科研中心坐落在牛津大学。这一中心的成立给英国医学研究和医疗服务带来革命性变化,它促进医疗数据分析方面的新进展,帮助科学家更好地理解人类疾病及其治疗方法。
这个研究中心总投资达9000万英镑,可容纳600名科研人员。中心通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,从而减少药物开发成本,同时为发现新的治疗手段提供线索。
作为新生事物,大数据的发展仍面临许多挑战。牛津大学统计学教授彼得·唐纳利认为目前大数据技术的一个瓶颈就是信息采集,拿牛津大学新成立的医药卫生科研中心来说,首先要有足够量的病人、药物等相关信息,这是数据分析的基础,然而许多病人可能出于隐私考虑不愿提供这些信息,制药企业也有可能因为商业利益不愿共享药物成分等敏感信息。
要从海量数据中得出有用结论,专业的数据分析是关键。牛津大学教授罗里·柯林斯认为,采集到足够信息后,需要由相关领域的专业人士与信息技术专家一起对数据进行有针对性的归纳和分析,而这种跨学科、跨领域合作能否顺利实现,也是大数据实际应用中的一个问题。
2、美国——注重区域及行业应用,以人为本,小项目大回报
相比英国政府高投入高回报相比,美国政府的大数据计划开展比较早,形式更松散,效益回报分布在社会的各个方面。
例如西雅图市与微软和埃森哲试点大数据节能项目。项目基于微软的Azure云计算平台,将手机和分析来自四个城区建筑管理系统的数百个数据集。通过预测分析工具,大数据系统能找出可行的节能措施,预计目标是将耗电量降低达到25%。
专为车主停车开发的一个手机应用,支持iOS和Android手机,能够跟踪入网城市的停车位。用户只需要输入地址或者在地图中选定地点,就能看到附近可用的车库或停车位,以及价格和时间区间。该移动应用能够实时跟踪停车位数量变化,目前已经能够实时监控包括华盛顿、纽约、芝加哥、巴尔的摩、波士顿、密尔沃基和纽瓦克等七个城市的停车位。有效缓解了上班高峰的停车问题。
在面对暴雪等灾害天气时,美国的地方政府也通过大数据进行非常独特的控制和管理,例如波士顿和芝加哥每到冬季就会有很厚的积雪,波士顿新城区办公室发布了一款名为:“领养消防栓”的移动应用,芝加哥市政府则类似的推出“领养人行道”的应用。这两款应用作为大数据终端,能够收集和传递大雪时道路和消防栓被积雪掩埋的信息,同时能够在城市志愿者的帮助下,对于已经清理积雪的人行道、消防栓,及时的上报情况。这些数据被传递到城市的路况监测中心,为市民雪天出行提供了可靠的信息。
无论是英国政府的集中投资、上大项目的方式,还是美国以城市为单位小投资大效用的项目建设理念,都可以看出无论投资规模,大数据分析对政府职能优化,提升城市管理能力,降低政府管理成本都能起到极大的推动作用。
3、世界银行——大数据提高援助效果,遏制财务腐败
继欧美等国政府乃至联合国纷纷宣布推动开放数据计划(Open Data)后,世界银行也奋不顾身的投入到大数据分析的浪潮之中。世界银行的开放数据计划是一个由世界银行与其他机构,包括联合国发展计划署,联合国商业发展署,UNGlobalPulse以及卡塔尔计算研究院等共同参与的一个计划。由世界银行的开放财务团队以及非盈利组织DataKind发起的8个项目组成。在推动社会组织之间在数据与发展之间的合作。
比如,在利用肯尼亚的粮食价格,香蕉和大米的消费量可以快速地分析和预测当地的通货膨胀率。从而为更合理地对当地进行援助提供支持。此外,世界银行利用“主动式的数据分析来保证企业的反腐败合规”。针对欧美各国的企业反腐败法规,传统的企业自检方式是企业检查自身的规章制度是否符合法规的要求,然后对一些交易进行抽查。不过,既然大部分企业都已经存储了他们的财务数据,随着大数据分析的普及,企业的内部审计人员就可以利用数据分析工具和技术,对那些高风险的交易进行“定点”检查了。而一旦发生了违法行为,企业具有针对反腐败的数据分析也能够帮助企业减轻一部分法律责任。
比如,通过大数据分析,企业可以确定一些高风险的交易类型。如那些与政府部门往来的资金,分析涉及大额现金的交易,或者涉及招投标方面的交易等等。内部审计可以针对这些项目进行专门的审查。
(二)国内地方案例
1、广东省——率先启动大数据战略
2012年12月广东省率先启动大数据战略,根据《广东省实施大数据战略工作方案》,广东省将建立省大数据战略工作领导小组等,为保证大数据战略有效实施,广东省还将建设政务数据中心,并为高等院校和企业等成立大数据研究机构提供支持。广东省还将在政府各部门开展数据开放试点,并通过部门网站向社会开放可供下载和分析使用的数据,进一步推进政务公开。
广东省将采用行政收集、网络搜取、自愿提供、有偿购买等多种方式拓宽数据收集渠道。同时,全省网上办事大厅、政府数据档案、企业信用信息网等骨干网络系统正在建设和完善过程中。
广东不仅是全国率先开展网络问政的省份,而且政府微博数量也位居全国第一。目前,全省已初步建成集信息公开、网上办理、便民服务、电子监察于一体的网上办事大厅,首批45个省级单位和21个地市已全部进驻,并面向企业和民众提供“一站式”办事服务。
此外,广东省已经建立了一个横向联通112个省级单位、纵向连接21个地市和121个县(市、区)的电子政务网络平台。同时,省级电子政务信息资源共享平台也已建成,实现了35个省级部门、185类信息的网络共享。
另外,与大数据相配套的数据分析工作也在有条不紊的进行着,包括数据分析人才的培养,数据分析行业的发展。项目数据分析师广东授权管理中心,负责数据分析人才的培养工作。
2、重庆市——发布行动计划、明确目标任务
重庆市政府在2013年7月发布《重庆市大数据行动计划》,明确提出要推动企事业单位数据共享开放,加快大数据产业布局,促进大数据技术及解决方案在公共服务、城市管理及产业发展等方面的广泛应用;并提出打造2-3个大数据产业示范园区,培育10家核心龙头企业、500家大数据应用和服务企业,引进和培养1000名大数据产业高端人才,形成500亿元大数据产业规模,实现大数据技术在电子商务、工业制造、交通物流、医疗卫生、食品药品安全、金融、传媒等行业的全面应用。
3、南京市——与智慧城市建设相结合
2013年南京市发布了《2013年全市社会信息化工作要点》,今年南京市“智慧南京”建设将加快推进,基本实现市民卡城乡居民全覆盖。此外,无线宽带网络、智慧医疗、智慧旅游、数字化节能、等领域的信息化建设,将直接改变广大市民的生活。
“智慧医疗”将越来越多地体现在市民看病拿药中。继续深化市民卡在医疗行业的应用,推进医疗服务智能化、健康管理智能化,推进预约挂号服务与his、排队叫号系统深度对接。实行多种途径挂号、分时段挂号、多种方式支付、预付费后结算;加快推进急救车载系统和智能调度系统建设,向急救车辆提供实时路线导引,实现与现场双向互动,提高急救资源使用效率;加快推进南京区域卫生信息平台建设,逐步实现医院电子病历数据与市、区平台健康档案数据的自动归档、自动更新,与公共卫生、医疗保障、药品监管、基层医疗卫生服务机构以及相关单位进行信息交换与共享;进一步加大新农合人群市民卡发卡力度。
南京将开展全市道路停车泊位管理智能化项目建设,构建全市停车管理服务平台,依托车辆智能卡和市民卡,实现停车泊位信息共享和诱导、停车费陕捷支付、停车收费监督等功能;推进河西地区智能交通应用试点,通过智能信号控制实现交通的动态管理,促进公交优先战略实施。
(三)经验与启示
1、大数据上升到国家战略的层次
大数据所带来的社会变革已经深入到人们生活的各个方面,日常的出行、购物、运动、理财等等。从目前国内外大数据发展历程和趋势来看,掌握海量有效数据和具有强大数据处理分析能力的公司和企业将走在大数据发展的前沿。为了掌握更多数据,各大企业均在抢占互联网入口,包括移动浏览器、搜索引擎、操作系统、应用商店等。
大数据的发展从以Google、Amazon、Yahoo!为代表的互联网大公司,蔓延到越来越多的创业公司以及金融、电力、电信等各种传统行业,这些公司和行业在不同的维度进行数据挖掘和分析,创造出更多的商业模式和经济增长点。同时,包括美国在内的诸多国家,都将大数据管理上升到国家战略层面,从国家层面通盘考虑其发展战略。
2、大数据仍处于初级发展阶段
大数据的核心价值在于预测和决策。从数据到信息,再到知识,最后形成智慧,这是一个通过大量数据挖掘,不拘泥于过往因果认识,重新发现新规律,对行为进行判断的过程。通过大数据挖掘所发现的因果关系,不仅能揭示存在的规律,而且能够预测未来发展趋势。一言以蔽之,大数据的意义,就在于能够通过服务和管理来积累数据,再通过数据的挖掘和预测来提升服务和管理水平。
但真正大数据运用仍处于发展初级阶段。据美国麦肯锡咨询机构在其一份关于大数据研究报告中指出,大数据已经对美国健康医疗、欧洲的政府公共管理、个人位置数据、美国的零售业及制造业等五个部门产生了重大的经济影响。据市场研究中心统计分析发现,目前我国在公共领域对大数据的运用主要集中在电力行业、智能交通、电子政务、司法系统等四个方面。
3、大数据对政府服务能力有促进作用
通过政府信息化,大数据能够提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,节约决策的成本。以财政部门为例,基于云计算、大数据技术,财政部门可以按需掌握各个部门的数据,并对数据进行分析,做出的决策可以更准确、更高效。另外,也可以依据数据推动财政创新,使财政工作更有效率、更加开放、更加透明。
当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。
4、大数据需要机制体制上的创新和突破
中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。
当前,大数据的政府应用有两个值得研究的方向。其一是跨界应用,跨界应用能打破信息壁垒,提高政府职能部门间信息传递和确认的速度。另一个方向则是开放运用,这是国内各级政府进展较慢的领域。从美国政府开放数据以来,很多国家和地区,如新加坡、韩国、日本、加拿大、欧盟都在效仿,甚至一些非洲国家也不甘落后。但在国内,虽然如北京、上海等地区开放数据的说法已提了很多年,国信办还下发34号文倡导此事,但是各地方开放数据的第一步依然没有迈出去。
三、上海“大数据”发展的现状及主要问题
(一)上海市政府信息资源的现状
1、城市基础数据库基本建成
基础数据库是本市政务信息资源开发利用的基础。“十一五”期间,上海市坚持“一数一源,一源多用”,以跨部门应用系统建设带动政务信息资源的开发利用,重点围绕人口、法人及空间地理信息,完善了集中与分布相结合的基础数据库建设。
2、制度建设不断完善
上海政府信息公开工作起步早,走在全国前列,经过多年的探索和实践,目前已初步建立了较为完整的信息公开制度体系。早在2004年,上海就制定出台了《上海市政府信息公开规定》(以下简称《信息公开规定》),并确定了“公开为原则,不公开为例外”的总体要求。2008年,在国务院《信息公开条例》的基础上,上海进一步修改完善了《信息公开规定》。2009年,下发了《关于进一步加强政府信息公开工作的若干意见》(以下简称《若干意见》),提出了6大类30条109项工作任务,并逐一明确了责任部门和工作要求。此外,为配合《信息公开规定》和《若干意见》的实施,上海率先于全国出台了一系列配套的规章制度,如主动公开政府信息送交制度、信息公开年度报告制度等,为加大政府信息公开力度提供了较完善的制度保障。
3、信息目录库建设有序推进
在公文类信息方面(非结构化数据),建立了公文类政府信息目录备案管理系统,形成全市公文类信息目录库,为全面掌握全市公文类信息底数、加强公开属性审核管理、提供全市公文类信息“一站式”检索服务奠定了基础。在非公文类政务信息资源方面(结构化数据),在资源梳理、资源分类、资源编目等方面进行了试点实践,并形成了本市政务信息资源编目和注册的试点规范和标准。同时,组织开发了上海市政务信息资源目录服务平台原型,各试点单位向目录服务平台开展目录备案工作。
4、推进机制不断健全
为加强政府信息公开工作的组织领导,上海不断完善信息推进机制建设。2004年建立了政府信息公开联席会议制度;2008年5月,按条例要求,政府信息公开主管部门作了调整,市政府办公厅、市法制办、市经信委、市监察局、市政府新闻办、市国家保密局等联席会议成员单位合力做好信息公开各项推进工作;2009年,市政府办公厅新“三定”方案增加了主管指导、推进、协调、监督政府信息公开工作的职责;2010年,市政府办公厅政府信息公开处成立。同时,各区县、各部门也相应建立了信息公开联席会议或领导小组,明确了分管领导,设立了工作机构。此外,上海还建立了一系列配套工作机制,如建立健全依申请公开咨询会商机制、保密审查机制、信息发布协调机制、监督保障机制等,以有效推进政府信息公开工作,及时处理工作中出现的热点难点问题。
5、公开内容不断丰富,公开渠道不断拓宽
从内容看,上海政府信息公开的理念重在“保证公众对政府行政信息的知情权,以促进政府依法行政”,因此,《上海市人民政府关于进一步加强政府信息公开工作的若干意见》中提出,政府信息公开的内容主要侧重在“资金、项目、政策、服务”等领域。从渠道看,为满足公众多层面的信息需求,上海不断探索政府信息公开渠道,目前已形成政府网站为主,新闻发布会、政府公报、国家档案馆、公共图书馆、政府信息公开查阅点、社区信息苑和农村基层信息服务站等为补充的覆盖城乡、多层次的公开渠道,有力地加大了政府信息公开力度,在一定程度上为确保公众知情权提供了保障。
(二)上海市大数据应用存在的主要问题
现状来看,上海市政府数据资源管理存在着对政府信息资源蕴藏的巨大价值认识不够、政府信息资源的家底不清、部门问数据信息共享不充分,统计制度改革滞后造成一些重要的经济社会统计数据公布缺少稳定性和连续性、以及部分重要信息汇聚的平台还未建成等问题。具体表现为:
1、政府信息资源公开有待加强
上海虽然缺少天然的土地、矿藏和能源等传统资源,但在建设“四个中心”和“世界城市”的过程中累积了极为丰富、独具优势的信息资源,这块资源为上海降低商务成本提供了一个可靠的抓手,因为它可以同时提供给众多信息服务企业加工增值。当前,上海政府信息公开工作主要按照中央要求,解决公众的“知情权”,以更好地依法行政、接受群众监督。但是随着上海经济领先全国发展,解决企业、社会组织对政府信息资源的“使用权”问题,促使政府、企业及社会对数据资源的共同分析应用已迫在眉睫。
2、非公文类政务信息资源编目工作有待推进
全面梳理政府部门的数据和信息资源,建立信息资源目录体系,是政府部门间信息共享及向社会开放的一项基础性工作。目前,上海市统一的公文类信息目录库已基本建成,但非公文类政务信息资源(结构化数据),尽管已在资源梳理、资源分类、资源编目等方面形成了上海市政务信息资源编目和注册的试点规范和标准,但从全市范围看,由于涉及的部门众多,任务繁重,各部门对编制政务资源目录体系重要性的认识不一,且受人力、物力、财力所限,部门对非行政信息进行深加工的积极性和动力不足,一定程度上延缓了市政府部门信息共享及对社会开放的进程。
3、城市基础信息尚未在政府部门之间实现有效共享
经过多年努力,上海市已经基本建立起了包括人口、法人、空间地理、交通、房地产等多个领域在内的城市基础数据库,在一定程度上解决了城市运行所需的各类基础信息的汇聚问题。但从应用情况看,除了少数数据库(如人口库、法人库等)在业务相关的委办局之间实现了部分数据交换和信息共享外,大部分基础数据库在政府部门问的共享并不充分,更不用说对社会开放了。这种数据和信息没有在政府部门间充分共享的状况,不仅不利于提高政府部门分析决策能力和工作效率,也制约了政府部门的数据和信息向社会开放。
4、部分重点领域统一的数据汇聚平台还未形成
上海已形成的统一汇聚平台的数据库,大多集中于城市运行基础领域(如法人库、人口库、空间地理信息交换平台等),而对于经济社会某些重点发展领域的行业性统一数据平台仍较缺乏。经济领域来看,金融、贸易中心建设发展的相关数据仍分散于不同的政府部门,集中式的数据平台仍未建立。社会领域,包括气象、城市管理等在内的数据信息,受关注的程度日益提升,集中统一的信息平台亟待建立。
四、对策建议
目前情况看,上海各条线系统相对较多,协同共享项目相对较少,数据共享和交换主要障碍是信息交换不对称等问题。在今后的信息化建设中可能更多的工作将是信息化协同共享项目。从审批上控制新增信息化建设,使得新增信息化项目在审批的制约下走向集约化。在政府管理层面逐步实现购买服务的形式推进信息化建设。在初始阶段对在信息化服务提供企业进行扶持,在成长之后放归市场进行竞争。
(一)建立数据管理机构统筹数据治理工作
1、组织架构
鉴于政府大数据管理涉及到整个政府部门,建议在市级层面建立更高层面、统筹度更高的数据协调管理机构,由该管理机构负责统一数据规范标准,明晰数据分布情况,把分布在各部门之间的数据统筹管理服务,提升上海在大数据背景下政府对数据的管理能力。
全市层面的数据中心可分属三个数据中心群:SDC-1市级各委办局信息中心、SDC-2市场各行业、WDC世界数据中心(见图2)。SDC-1下包含各区级委办局信息中心,SDC-2下包含政策形势、上海产业、上海企业、上海经验、上海人物、上海招商、上海竞争力等目录,涉及宏观综合数据、经济中心数据、金融中心数据、贸易中心数据、航运中心数据、经济转型数据、能源环保数据等不同指标数据。与世界数据中心(WDC)合作打开国际性数据合作方向。主要包括:WDC-A美国、WDC-B前苏联、WDC-C欧洲和日本、WDC-D中国。目前,中国的数据中心主要成立九个分中心(见表2)。数据中心能更好地打开政府各部门间、政府与市民间的边界,提高各机构协同办公效率和为民办事效率,同时提升政府社会治理能力和公共服务能力。在城市管理和服务的过程中,使已有数据透明化,使数据的提供方和数据的需求方有效对接找到有效途径。
2、管理职能
市级层面数据中心管理构架(如图3),主要分为日常运行管理及应急联动管理两类,制定统一数据信息安全管理标准、信息数据标准化格式。同时明确数据使用、数据安全、数据发布、相关者的权力、法律保护、监管机构、对数据的特殊使用、特殊使用的种类、处罚规定、过渡和最终规定等。
数据中心通过对三个数据中心群的统筹管理和系统化运行,承担同化、编目、分类检索、发布、制定数据公开查询办法。数据同化是将碎片数据系统化、统一制定数据格式标准化(一级数据源)。数据编目是按照一级、二级数据层次采用自然归类法进行系统编目,使数据层次清晰,口径一致,统筹管理。数据分类检索是对各数据中心群提供的数据,根据编目建立数据查询系统,并引导需求方更快地搜索到相应机构部门的数据,数据统一对外发布管理,理清数据分布结构、公开数据获得途径。在大数据背景下,开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料数据自由地流动起来,以催生创新,推动知识经济和网络经济的发展,更好地促进上海的创新驱动、转型发展。
(二)搭建统一、共享的基础数据平台
公共数据应该被作为公共资源向公众开放,建议在目前基础信息数据资源基础上,整合建立更加统一、共享度更高的基础数据平台,形成基础库、专业库、应用库,有效提升政府服务效率和社会管理水平。
基础库,建立集人口库、法人库和城市地理空间信息系统三大基础库于一体的数据共享平台。有效掌握居民、企业、城市公共基础设施等大量有效实时数据,推进政府非结构化数据的挖掘与运用。打破传统低效方式,即采用OCR等传统文字识别软件扫描进入系统,缺点是往往对文件格式有特殊的要求,无法应对非结构化数据多样性的问题。通过构建智能获取、有效管理、快速流转、及时搜索这四方面功能的整合性技术平台,包括输出管理解决方案,流程管理和内容管理解决方案。将非结构化信息快速提取、转化成结构化数据,并和核心系统有效连接起来,大大降低了管理和使用非结构化信息的难度。处理非结构化数据,有效管理这类数据,控制这类数据的增长,在实际使用中使这类数据成为信息结构的一部分,以便于决策及查找信息。有利于降低政府信息使用成本,提高行政效率。
专业库,用大数据打造更细致贴心的政府公共服务。集医疗、教育、交通等数据库于一体,提高政府便民服务的主动性、公开性、透明性。比如,公共医疗服务,引导医院通过采取云存储架构,提高诊断效率,缓解医疗资源紧张,降低整体数据管理成本,把医疗数据转化为生活数据,将日常生活个人身体信息进行收集分析。使医疗信息进一步融入个人生活。对于“信息高速公路”的拥堵提示,防止网络供应商的垄断,提高其透明度,确保居民享受公平公正市场环境下的自由自主选择。
应用库,提供更符合社会应用需求的大数据服务库。大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。在上海努力实现“创新驱动、转型发展”发展方针的指引下,提高大数据成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率,更好地培育出一批商业模式、产品和服务创新的新兴产业,为创新注入新动力,推动转型发展。
(三)加强信息资源开放力度,鼓励市场化应用
借鉴发达国家经验,加强原始数据的归集与处理,创新体制机制,进一步通过市场化手段,促进政府信息资源的开发利用水平。考虑到政府信息资源向社会开放的现实基础,以及工作的复杂性与艰巨性,实际操作时,统筹考虑不同类别信息服务业企业、社会组织及个人需求的紧迫程度和政府信息资源开放对经济社会发展的作用,在特定领域、聚焦重点,针对数据开放呼声较高的政府部门开展试点开放,鼓励形成具有典型性和代表性的市场化数据开发利用模式与体制机制。
(四)创新管理途径。保障公众数据安全
大数据时代,信息安全已经成为一个核心问题,对信息进行隐私保护是政府对数据管理的职责之一,需要围绕数据的归集与使用,进行规范化、制度化设计。首先需要对“数据”进行明确定义,从内容上可以分一般数据和敏感数据,一般数据包括姓名、年龄、住址等,敏感数据包括宗教、信仰、健康状况等等。上述所有数据都因受数据法的保护。同时规定调查、采集、储存、留存、整理、比较、修订、链接、复制、征询、发放、转让、封锁、删除、销毁以及其他各种形式的处理,均属于“数据处理”。如果收集的数据会进入政府部门或企业机构的自动处理程序,则需要向数据监管机构报告。
同时数据监管机构要规定服务商的义务:如禁止擅自传送采集的数据;必须采取必要的数据安全措施;只能雇用向公司承诺为数据保密或依法宣誓保密的人;要与委托人签署包括知情权、纠正权、删除权、转送权等内容的委托合同;每笔业务完成后,除非委托方委托留存,否则要销毁;要向委托人提供相关数据,以便其向监管机构报告。通过严格的数据保护措施,一方面可以提升民众的数据保护意识,另一方面也给了消费者一个相对干净的使用环境。
管理上的两个创新途径:创新途径一,“差别隐私”,将数据模糊处理,促使对大数据库的查询不能显示精确的结果,只有相近的结果。个人隐私保护从个人许可到数据使用者承担责任的转变是一个本质上的重大变革。大数据时代,需要设立新型的隐私保护模式,该模式应更着重于数据使用者为其行为承担责任。监管机制可以决定不同种类的个人数据必须删除的时间,再利用的时间框架则取决于数据内在风险和社会价值观的不同。创新途径二,“大数据审计员”,在使用预测分析时考虑个人动因以及催生大数据审计员。评估数据源的挑选,分析和预测工具的选取,包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,有权考察与分析结果相关的运算法则、统计方法以及数据集。采取这一灵活的自我监管方式的专业人员保护大众利益,与政府共同商议公共领域大数据的最佳使用办法。
(五)提升大数据辅助科学决策水平
除提供服务外,还要进一步发挥大数据在提高政府部门决策的科学化水平方面的突出作用。大数据是信息化发展到一定阶段的必然产物。其本义是对数据的开发利用,以支撑科学决策,追求以最小的资源消耗,获得最大的价值。安全、效率、成本是其科学化决策的重要依据。在掌握实时数据的运行管理系统下,能更清楚地了解群众需求、人口变动情况,从而更准确地进行规划、布局,提升政府公共服务。上海在努力建设智慧城市中已经应用了大数据的理念。通过利用客观存在的海量数据,能够有效降低调查成本。
为了更好地促进经济发展,应鼓励促进政府部门、社会组织及研究机构,加大开发、应用大数据辅助决策的力度,在辅助决策的流程、方式、展示与工作机制等方面加快创新,使决策部门可以更敏锐地把握经济社会发展走向,制定并实施科学的公共政策,从而提高数据及时性、准确性。