国家治理进程中的政府大数据开放利用研究
来源:中国行政管理杂志 更新时间:2015-12-24

 

作者:王芳,南开大学商学院网络社会治理研究中心主任,信息资源管理系教授、博士生导师;陈锋,南开大学商学院信息资源管理系博士研究生,天津300071

近年来,大数据引起了企业界、科研机构和政府部门的高度关注。一些企业利用大数据技术实施精准营销或提高内部管理效能。[1]目前,美国、英国等国家已开始利用大数据提高政府决策水平或改进公共服务,在教育、医疗、公共交通等领域已初见成效。[2]中国共产党的十八届三中全会提出“推进国家治理体系和国家治理能力现代化”,使得我国政府大数据利用面临新的政策环境。大数据利用对推进国家治理体系和国家治理能力现代化将会发挥何种作用?政府如何更好地利用大数据进行国家治理?关于这一问题目前已有一些探讨,但尚需进一步的分析研究。本文拟在对相关实践与研究成果进行回顾的基础上,进一步分析国家治理进程中政府大数据利用的相关问题,并提出相应的对策建议。

一、 政府大数据与政府开放数据

政府大数据与政府开放数据是两个当前备受关注的概念,二者既相互联系,又有一定的区别,对二者的关系进行辨析,有助于更好地理解国家治理现代化进程中政府数据的价值。

(一)政府大数据

随着信息技术应用的深化,尤其是物联网和移动互联网的广泛覆盖,产生了大量分散异质的数据。信息处理技术的发展使得采集、存储和利用这些数据成为可能,大数据的概念应运而生。目前得到普遍认可的大数据概念是“无法在可容忍的时间内用传统IT技术和软硬件工具对其进行采集、存储、管理和分析的数据集合”。[3]人们对于大数据基本特征的认识也在不断深化,[4]从“3V”[5]扩展到了“7V”,包括:Volume(大量)、Variety(多样)、Velocity(快速生成)、Viscosity(黏性)、Veracity(准确性)、Volatility(时效性)和Variability(易变性)等。[6]大数据技术被视为一种认识世界的新方法,它将世界的本质看成是数据的集合,通过发掘混杂数据间的关系来认识世界,[7]并在此基础上为用户提供挖掘需求、精准营销、个性化服务以及高效的决策支持。

政府数据是政府机构在实现运营目标的过程中生成、收集、维护、管理和拥有的数据。与企业相比,政府作为社会资源的主要管理者和分配主体,掌握的数据类型更多,地域范围更广,时间跨度更大。自1993年实施“三金工程”以来,我国信息基础设施逐步完善,电子政务建设成绩显著,[8]产生了大量的数字化数据。根据数据产生的来源,可以将政府数据划分为五种类型:一是政府各部门内部管理过程中所产生的数据,如往来公文和人事数据,大部分与公共事务没有直接关系。[9]二是政府在进行社会管理和提供公共服务的过程中实时产生的数据,这类数据种类多,规模大,不断更新,广泛存在于税务、工商、海关、教育、交通、卫生、公安、民政等承担公共管理与服务职能的部门,如工商企业登记、税务缴纳、公民户籍、道路视频等信息。三是由政府专门的职能机构所采集的社会管理数据,如政府统计部门定期采集的宏观经济、社会、人口方面的数据,[10]以及气象、遥感、测绘、环境监测等数据。四是由政府通过业务外包或政府采购方式所获得的数据,如由财政资金资助的专项调查报告、科学研究成果数据等。五是互联网上的公开数据,如上市公司报表、互联网百科全书、社交媒体数据等,这类数据不仅可以为个人或企业所利用,也可以为政府所收集、整理和利用。在这五类数据中,除了第一类外,其它都具有大数据的多项特征,可以看作是政府所拥有的大数据。

根据数据管理机构的类型,可以将政府大数据划分为:一是政府各部门直接管理的数据,如文书档案以及工商、海关、税务、公安、公共交通、文化等部门拥有的企业、个人及社会组织登记信息。随着电子政务的深化和智慧城市的推进,这一类数据的数量和种类正在不断增加;二是由公共事业机构或国有企业管理、政府在必要情况下有权调取的数据,如医院、供水、供电、教育、图书馆等公共事业部门所存储的数据;三是由企业收集和管理的数据,为了国家安全、查处腐败或侦破刑事案件,政府部门或司法机构在法律许可的条件下可以调取的数据,例如企业会计信息、公民通话记录等,但使用目的受到严格限制。

根据信息公开的程度,可以将政府数据划分为三种类型:依据《中华人民共和国政府信息公开条例》对社会完全公开的信息,例如政府政策法规、政府采购信息等;不完全公开的信息,主要是政府各部门内部管理使用的信息,例如税收征管信息、居民户籍信息;保密信息,涉及国家安全、商业秘密或个人隐私的数据,例如公民的通话记录和网络访问记录等。

(二)政府开放数据

开放政府数据(Open Government Data)是移动互联时代政府信息公开的一种理念和实践。美国政府的研究人员将开放数据定义为“公众可获取的,能够被用户完整观测和使用的数据”。[11]为了实现数据的开放和共享利用,需要将不同来源的数据进行语义关联处理,以便于机器检索和人机交互,这就是关联数据(Linked Data)。为了实现关联数据的可操作性和标准化,[12]一般采用RDF(Resource Description Framework,资源描述框架)数据模型,利用URI(统一资源标识符)命名数据实体,通过HTTP(超文本传输协议)表达并读取数据。关联数据强调数据发布和组织的规范,使得政府开放数据更加易用。

目前,世界许多国家都在积极推动政府数据的开放。美国、英国在推动开放政府数据、引导社会利用方面一直走在前列。[13][14]2011年9月,在联合国大会上,巴西、印度尼西亚、墨西哥、挪威、菲律宾、南非、英国、美国等八个国家联合签署了《开放数据声明》,成立开放政府合作伙伴联盟(OGP,Open Government Partnership)。截至2014年2月24日,开放政府合作伙伴已由最初的8个成员国发展为63个成员国。[15]目前我国中央政府的开放数据工作尚处于论证阶段,数据开放较少,部分地方政府在开放数据、引导社会力量参与方面已经取得了一定的进展。2014年上海率先实行政府数据资源向社会开放,通过政府数据服务网(www.datashanghai.gov.cn)提供数据查询、浏览、下载等功能,出自28个市级政府部门的190项数据内容成为重点开放的对象。总体来看,我国的政府开放数据进程和美国、英国等国家相比还有一定的距离。

(三)政府大数据与开放数据之间的关系

首先,从内涵上来看,大数据是数据存在的一种形态,强调数据的规模;而开放数据则是数据提供公共利用的一种方式,强调数据的无限制使用。二者并不在同一个分类框架之下。

其次,从数据范围上来看,政府开放数据是政府大数据的组成部分。政府大数据是政府拥有的各类数据,既包括互联网上的政府开放数据,也包括大量涉及个人隐私和商业机密的非公开数据。而开放数据的范围相对较窄,主要涉及具有公共利用价值的数据,不包括涉及国家安全、个人隐私和商业机密的数据。尽管开放数据可能包括少量由个人或企业收集、制作的数据集,但主要来源是政府数据。

第三,从数据存在形式上来看,政府开放数据追求以标准化格式与关联数据的方式向公众提供开放利用,是经过一定的组织整理而成的数据集,有时还附有支持数据利用的应用软件;而政府大数据则存在于不同的部门或系统中,具有多种格式,既包括经过加工整理的数据集,也包括实时产生、采集的各类数据。

第四,从利用目标来看,开放数据旨在促进政府的开放与透明,将具有公共利用价值的数据及时向社会公众开放,目的是方便公众使用、促进企业创新、改善公共服务;而政府大数据则关系到政府信息资源的积累保存、整合集成和开发利用,政府大数据挖掘和分析的主要目标是挖掘政府数据资源的价值,提高政府的公共决策水平,改善政府的公共服务质量。

第五,从开发利用的主体来看,开放数据的主要开发利用主体是社会公众、企业、社会组织和政府机构,目的是实现数据的增值利用。例如北京龙信公司基于国家经济户籍库,通过数据分析发现1990年至2011年我国财政收入与企业注册资本之间的关系呈高度线性相关,其相关系数高达0.987,而斜率为0.148,表明放开企业注册可以增加政府财政收入。[16]而对于政府大数据而言,除了开放数据之外,大量的政府数据的开发利用以政府为主导,主要目的是为政府提供决策支持。虽然部分具体业务可以通过服务外包方式委托给企业、科研机构或社会组织承担,但政府依然是数据开发利用的主体。

第六,从开发利用方式来看,政府开放数据倡导直接以数据集的形式通过互联网提供浏览和下载,也有其他方式如对公众开放API(应用程序接口),提供查询接口,鼓励社会进行二次开发,还可以直接提供基于政府数据的应用软件,例如适时查找公厕、停车位的APP等。对于政府大数据而言,首先要实现数据的采集、清洗、转换,在此基础上才能实现数据的挖掘分析或开放共享。大数据存储量巨大,一般难以通过互联网开放存取。

可以说,政府开放数据是政府大数据的组成部分,是政府大数据开发利用的目标和方式;而政府大数据则是政府开放数据的基础和来源。

二、大数据开发利用对国家治理的意义

国家治理(state governance)现代化是当前我国政府大数据开发利用的重要契机。国家治理现代化是指运用现代化治理的理念、方法和技术工具,对国家的政治、经济、社会、文化进行有效管理的过程,包括经济治理、社会治理、环境治理、文化治理以及各类组织治理,等等。不同于以单极治理为特征的国家统治,国家治理强调治理主体的多元化和治理工具的多样性。国家治理的主体是政权所有者、管理者和利益相关者等多元主体,强调合作管理,其客体是社会公共事务,其目的是增进公共利益和维护公共秩序。[17]政府大数据是政府所拥有的重要信息资产,对其进行有效的开发利用将会提高政府的决策水平,增强政府的社会管理和公共服务能力,对于推进国家治理体系现代化具有重要价值。可以说,大数据既是国家治理的环境和工具,同时也是国家治理的对象和结果。

(一)大数据是当前国家治理的技术环境

目前,互联网的应用已经渗透到经济、社会、文化生活的各个层面,并产生了大量的数字化数据。2011年,全世界产生和复用的信息约有1.8ZB,[18]而到了2013年已经达到4ZB,[19]两年时间内翻了一倍多。这些数据不仅作为静态信息资产存在,而且反映了经济、社会、政府组织动态运行的特征、质量和存在的问题。可以说,在移动互联时代,国家治理处于一个全新的大数据技术环境之中,对国家治理主体的行为准则、策略选择、相互关系以及治理效果的评价都提出了新的挑战。透彻理解大数据环境的复杂性,充分把握大数据环境多变、透明、互联互通的特点,有效应对大数据环境带来的意识形态斗争、信息安全、文化渗透等风险,是当前国家治理必须要考虑的问题。

(二)大数据是国家治理的工具

国家治理能力现代化要求治理手段与时俱进,符合时代的要求和趋势,体现出科学化、信息化与结果的有效性。大数据可以为治理主体提供更加快速准确的决策信息,帮助治理主体及时了解国内外的局势、公众的需求、政策效果反馈信息以及存在的问题,从而成为国家治理的重要工具。麦肯锡公司2011年的研究报告发现,大数据技术可以从提高透明度、发现需求、提高政策的针对性、辅助决策和引导管理部门内外创新等五个方面改善公共管理。[20]美国白宫行政办公室经过3个月的调研于2014年5月发布了一份近80页的研究报告,论述了大数据和开放数据对美国政府和个人隐私的影响,列举诸多案例论证了大数据在医疗卫生、教育和国土安全等公共服务领域的重要价值。[21]可见,大数据已经成为美英等国政府公共管理的有效工具之一。

(三)大数据是国家治理的对象

国家治理的目标是保障国家安全、促进经济繁荣、增进公共利益、实现社会公平正义和维护公共秩序。国家治理的对象涉及到各类组织、社会单元、生态环境、公共事务以及政治、经济或社会活动。大数据既是各类组织和社会单元活动的记录,也是特定公共事务或社会活动的表征,因而成为不可忽视的治理对象。由于政府大数据产生于不同的部门、机构和系统中,存在着部门分割、元数据标准不统一、数据质量参差不齐、共享困难等种种问题,因此需要进行科学治理。目前我国实施政府数据统筹治理的典型是广东省佛山市南海区。南海实行先统筹后开放的策略,通过政府数据资源目录与交换平台,建设主题数据库和跨部门综合管理服务平台实现数据共享、业务协同,并为决策提供支持。南海数据统筹局结合网络安全协调委员会、专家咨询委员会与数据治理委员会对数据进行统筹治理。借助于有效的政府数据治理,南海市在公共服务、社会网格化治理、物联网监管、重点人群社会关系、舆情管理、综合治税等方面取得了显著的成效。

三、政府大数据治理过程中的利益关系

大数据在为国家治理带来机遇的同时,也带来了风险,如信息安全风险,同时对数据的连续性管理和个人信息保护提出了更高的要求。为此,需要对其背后深层的利益关系进行分析。

一是价值取向的争议。开放与保密是一对矛盾。就政府开放数据而言,持积极态度的学者认为政府数据开放可以更好地方便公众利用,促进产业创新,增加政府透明度,从而增加数据价值;而持谨慎态度的学者则认为数据开放涉及到个人隐私、企业机密和国家信息安全,开放数据运动隐含数据权利的概念,同时造成不公平和低效率。[22]这两种观点的冲突实质上是价值取向的争议:在市场效率与社会公平、个人价值与社会价值之间,哪个应当优先考虑?只有首先确定价值取向,才能细化制度建设。[23]就当前我国的情况而言,应当加快个人隐私保护、国家信息安全立法的进程,制定大数据交易的法规与实施细则,使得政府数据的开放与大数据的开发利用有法可依,健康发展。

二是权益分配和保护问题。大数据的开发利用涉及多个利益主体,不解决权益分配和保护问题,就难以实现数据共享。例如个人数据的利益相关者包括个人、数据收集者、数据处理者、数据应用者及监督者5种角色,涉及个人、数据企业、政府、媒体、第三方隐私保护组织等利益主体。[24]数据权利涉及所有权、控制权、使用权,还包括交易权、查询权和收益分享等权利。已有一些案例反映了关于数据权利的争议。2013年北京市的高考成绩还未公布,网上已有人出售2013年高考考生信息,包括手机号、监护人、学校、年级、年龄等。 [25]教育部门是否可以把高考成绩出售给信息服务公司,医院能否出售病人病历?王芸早在2004年就提出,政府信息资源的所有权属于社会公众,公民有权利获取和使用政府信息,并享受部分收益权,作为管理者,政府在信息公开时应当保护所有权人的利益,比如隐私或国家安全。[26]

三是效益评价与成本考量。在给定的社会经济发展水平与技术条件下,信息公开与共享的收益成本比大于垄断状态。[27]政府数据的开放与共享涉及到数据的采集、存储、整理、发布、挖掘和分析等整个过程,需要行政机关付出人力和物力等成本。但是,数据拥有部门和数据使用部门之间的成本分摊、收益分配以及权责归属却是难以清晰界定的问题。例如由公安部门管理的户籍信息是许多业务部门需要的数据,但是与其他部门或社会公众共享户籍数据不仅会给公安部门带来额外的工作量,而且存在个人信息泄露的巨大风险。在政府数据的管理开放过程中,所投入的成本容易量化,但是其经济社会效益与潜在风险却难以量化计算。为此,需要建立政府大数据利用的成本效益评价标准,明确政府数据部门的职能、人员编制及财政预算。

四是数据管理变革与风险防范。随着电子政务的深化,政府信息管理部门积累了业务、财务、人事等多种数据,但是对信息部门的内控管理并没有引起足够的重视,数据泄露的风险不断增加。知名漏洞响应平台曝光江苏、陕西等全国至少19个省份的社保系统存在漏洞,数千万用户的社保信息遭遇泄露危机。为了防范数据开发利用过程中的风险,一些地区在数据管理体系上进行了新的探索,例如广东省佛山市南海区成立了数据统筹局来统筹管理各部门的数据,在管理过程中通过数据治理委员会来决定数据的开放层次和物理存放地点。当然,数据的集中管理也存在着一定的安全隐患,比如,技术人员将有机会接触更多敏感数据,增加了数据泄露风险,美国斯诺登事件表明技术人员可能会泄露敏感数据。

四、政府大数据开发利用的现状、问题和对策

政府在开发利用大数据方面具有独特的优势:作为数据拥有者,政府掌握的数据更多更广;作为数据提供者,政府可以向社会免费开放数据,还可以通过税收减免、资金补贴等方式调动社会各界参与数据的开发利用;作为数据的利用者,电子政务、网络问政、智慧城市的发展都为政府大数据的开发利用提供了巨大的需求空间。目前,世界许多国家在政府大数据开放和开发利用方面取得了进展,但同时也存在不少问题。

(一)当前政府大数据开发利用的进展

从规划层面来看,目前美国、英国、澳大利亚等国都制定了国家层面的大数据战略和规划,通过立法、制定规划和政策支持等形式加强对大数据的研究和利用,引导社会组织参与利用政府大数据,在社会治安、天气预报与应用、交通管理、卫生保健等方面有较多应用案例。[28]2012年3月,奥巴马政府在白宫网站发布了《大数据研究和发展倡议》。2012年5月,美国数字政府战略发布,提出以信息和客户为中心,改变联邦政府工作方式,尽可能开放数据,为美国民众提供更优质的公共服务。[29]欧盟将数据信息基础设施作为Horizon 2020计划的优先领域之一,并专门征集针对大数据的研究项目,例如预算为5000万欧元的FP7Call 8项目。 [30]

目前我国尚未出台独立的大数据法律或规划,一些部委和省市开展了大数据研究和产业规划的前期工作。2013年5月国家发改委和中科院启动了“基础研究大数据服务平台应用示范”项目,着手研究大数据处理与分析的关键技术,提供在线基础研究大数据的集成共享与知识发现服务,并在天文、材料领域开展应用示范。2013年科技部将大数据列入973基础研究计划;2013年度国家自然基金指南中,管理学部、信息学部和数理学部都将大数据相关课题列入其中。与此同时,一些地方政府纷纷出台大数据相关产业的发展规划,例如上海市2013年发布了《上海推进大数据研究与发展三年行动计划》,同年重庆市制定了《重庆市大数据行动计划》。这些地方政府规划以市场需求为主导,把大数据作为有发展潜力的产业进行培育,重视大数据利用的基础设施建设、技术研究和产业扶植。同时,也提出政府应该在民生服务(医疗等)、城市管理(交通、治安等)等方面发挥大数据应用的示范作用。在具体的举措上,都提出探索制定地方性法规制度、加强组织协调和推进数据共享。2015年,继广州、沈阳之后,成都筹备成立全国第三个大数据管理局,将负责拟定全市大数据战略、规划和政策措施并组织实施,推动政府部门权威数据在安全的前提下实现公开、共享。[31]

从实践案例来看,美国以开放数据为先导,鼓励各类社会主体参与利用政府数据,公众不仅利用政府数据改善公共服务,也可以对政府实施监督,例如对白宫访客记录的分析就是对公务接待的监督。[32]目前我国政府大数据主要用于决策支持和舆情管理,如传染病预警预报和卫生舆情监测预警。[33]从实施主体来看,目前单个政府部门实施较多,跨部门协作实施较少,社会主体参与政府数据利用也较少。上海市交通管理部门通过交通综合信息平台全面、实时整合处理全市道路交通、公共交通、对外交通领域车流、客流、交通设施等多源异构基础信息数据资源,交管部门可以根据实时路况采取相应的处理措施。审计机关在工作中可以接触财政、企业、工商管理、金融机构、水利等不同行业和部门,采集的数据范围广,可以开展跨机构的大数据开发利用。例如利用某市地税局税收征管数据、社会保障中心的失业保险数据、劳动就业服务局的失业人员登记数据和财政局的财政资金审核拨付数据进行整理分析,发现市保险中心少征失业保险费1291万元。[34]人民网舆情监测平台通过对网页中新闻的跟帖评论和网络社交软件的数据进行分析,适时监测网络舆情动态。[35]

(二)当前我国政府大数据开发利用存在的问题

总体来讲,我国政府数据的开放和大数据开发利用尚处于起步阶段,除了深层次的利益问题,当前还存在以下具体问题:

第一,政策法规与技术标准的建设较为滞后。政府大数据的开发利用涉及到数据采集、处理、保存、挖掘和分析利用等多个环节,每一个环节都需要有相应的制度法规和技术标准作为依据。目前我国除了《政府信息公开条例》及其实施细则之外,尚未出台针对政府数据开放和开发利用的政策法规,在一定程度上制约了政府数据的开放和开发利用步伐。

第二,政府数据的统筹管理才刚刚起步,部门间的数据共享利用还存在很大的障碍。统筹管理可以促进数据共享,提高行政审批效率。目前政府正在大力推进行政审批改革,2013年3月出台了《国务院机构改革和职能转变方案》。2015年5月,发改委《关于2015年深化经济体制改革重点工作意见》要求“再取消和下放一批行政审批事项,全部取消非行政许可审批,规范行政审批行为,推广网上并联审批等新模式;……实施企业投资项目网上并联核准制度,加快建立健全投资项目纵横联动协同监管机制等”。天津市滨海新区政府已经率先实现了“一颗印章管审批”的改革,取得了初步的成效。但是,网上并联审批需要各审批机构协同工作,这就需要对分散于不同部门和机构的数据进行统筹管理。目前除了广东南海之外,其它地方的数据统筹尚未正式启动。

第三,政府数据开放进程缓慢。目前北京、上海的政府数据开放已取得了一定进展,但是开放的种类、数量还比较有限,主要集中于公共交通、医疗卫生、舆情监控等领域,在满足用户实际需求方面还有较大差距,而中央部委和其它地区的政府数据开放基本上尚未启动。

第四,政府数据的质量和可用性有待提高。为了使服务对象能够更加方便快捷地使用政府数据,需要采用统一的元数据标准和方便用户下载浏览的数据格式,提高数据的真实性、准确性和完整性。

第五,政府大数据开发利用的技术平台建设尚不够完善。与商业企业相比,目前政府开放数据网站以及应用软件的建设都还不够完善丰富,需要进一步加强。

(三)我国政府大数据开发利用的对策

政府大数据的开发利用应该符合国家治理体系现代化的根本目标,坚持法治化、民主化、市场化与科学化导向。针对当前我国政府大数据开发利用过程中存在的问题,需要以治理的思想,平衡各主体间的利益,可以从以下方面探索解决办法:

一是加快立法进程,在立法、规划、管理机构调整等多方面展开布置,明确数据公开和使用的范围,明确政府、企业、社会团体、个人在数据收集、存储、利用过程中的权利和义务,实现依法对数据进行采集、管理、开放与利用。美国在政府开放数据进程历经数十年时间,先后通过了《信息自由法》、《电子信息自由法》、《数据质量法》、《开放政府法》等法案,值得我国借鉴。

二是用民主协商的方式解决价值观争议和权益分配问题。政府大数据开发利用面临复杂的利益和风险问题,需要通过民主协商方式细致协调各方利益,寻求有效的解决方案。对一些有争议的问题进行深入分析,准确定位,制定具体明确的解决方案,兼顾数据开发利用的公平与效率。

三是对政府开放数据实施风险评估。政府数据的开放利用存在着一定的风险,涉及个人隐私与企业秘密泄露以及危害国家安全等问题。因此,需要针对不同类型政府数据的开放与利用进行风险评估,制定合理的风险防范策略,完善相关的法律法规,保证数据的安全利用。

四是采用经济分析方法进行大数据开发利用的成本效益评价,运用市场化的方法对成本与收益进行合理分配。没有科学合理的效益评价,政府数据开放和利用就难以有政策依据和稳定的财政保障。

五是科学利用大数据分析结果。科学合理地使用大数据是国家治理能力现代化的要求。大数据分析结果通常只是揭示了相关关系,而相关关系并不一定就是因果关系。大数据关于样本等于总体的假设通常是不符合事实的,因而统计学中的抽样误差问题依然存在。[36]“数据驱动的科学”鼓励人们进行被动的数据收集,而不是主动的实验与测试,也诱使人们搞“数据欺瞒”(hornswoggling,指缺乏统计学依据的数据欺诈)。[37]对大数据结果的偏信和轻率接受,可能导致错误的决策。因此大数据的开发利用应结合正确的理论和其它科学分析方法,实现科学管理与利用,避免滥用和误用。