美国大数据的国家战略
来源:新华网 更新时间:2015-03-25
  2015 年1 月7 日我们正在经历一场由大数据引发的社会革命。人类生活中的一切活动,每次购买,每次对话,每次社交,每次移动,甚至我们的身份和身体的变化都成为信息收集、存储、分析和使用的对象。多样化的数据、巨大的数据量以及它们潜在的商业价值已经开始对公共政策的制定,对社会经济和公民隐私产生深远的影响。毋庸置疑大数据会带来巨大收益,无论是企业创新还是消除疾病。当大数据快速向社会的各个方面渗透,当数据分析技术快速发展和数据利用范围迅速扩大时,政府与公民、政府与企业、政府与政府之间的关系正在发生变化。如同任何一种新科学(如核物理)出现一样,政府的政策会对这门科学的应用产生深远的影响。
 
  作为世界上最大的数据收集者和最大的数据使用者,同时又是公民基本权利的守护者,各国政府对数据科学和大数据的举措,会严重影响到它的发展方向和发展速度。科学既能造福人类也可为害人类,大数据也不例外,有远见的国家战略和政策一定是在保护公民隐私权的前提下,加速数据信息的自由流动,鼓励创新、催生新产业创造新就业、进而促进国家的经济繁荣。中国现代化进程的起点和中国的文化造就了我们善于利用“后发优势”。因此从借鉴比较国外政府的经验入手,研究制定适合国情的大数据发展战略和发展路径,是继续深化政务电子化,加快实现中央提出的健全国家治理体系与治理能力现代化的明智之举。
 
  以美国为代表的发达国家在推进大数据上已经形成了从发展战略,法律框架到行动计划的完整布局。
 
  2009 年1 月21 日现任美国总统奥巴马宣誓就职后的第一个工作日就签发了“开放政府”备忘录(Memorandum on Transparency and Open Government),指导新一届行政当局从开放政府数据源、建设开放型政府入手,以数字革命带动的政府变革。“开放政府”的目的简洁明了:改进公众服务,提升公众信任,更有效管理公共资源和增进政府责任。互联网时代的开放型政府,首先必须开放政府数据。5 月20 日,美国政府开放数据的门户Data.gov 上线,第一批47 个政府数据源向社会开放。2009 年12 月8 日,总统签发“开放政府数据”行政令 (The Open Government Directive),要求在45 天内所有政府部门无一例外的必须向社会开放3个有价值的数据源。2010 年5 月经过12 个月的运行,Data.gov 升级到2.0。政府开放的数据源达到2.5 万个。2011 年9 月20 日白宫正式启动 “开放政府国家行动计划 1.0”,首批26 个开放政府项目向社会公开。2012 年3 月29 日,在公开政府数据源的22 个月后,启动联邦政府大数据行动计划,宣布了由政府资助的分布在13 个部委的84 个大数据项目,其中多数项目基于不同部门的开放数据源,联合民间企业协同展开,如癌症和心血管疾病研究。2013 年5 月9 日,总统签署开放数据政策(Open Data Policy)。2013 年12 月5 日“开放政府国家行动计划”进入 2.0,又添加 23 个政府开放项目。
 
  在逐步扩大开放政府数据源,启动开放政府项目和部署政府主导的大数据项目后,2014 年1 月17 日,美国总统指定白宫法律总顾问波德斯塔,由他领导行政当局与总统科技顾问委员会合作,邀请科技专家、隐私法专家、企业界学术界和政府领导,综合评估 “大数据”和公民隐私交集后已经带来和将会带来的新问题。作为综合研究的一部分,总统要求超前思考“大数据”对人类社会的影响,重点研究现有技术和未来技术会对现行法律带来哪些挑战,那些法律和政策需要修订或制定以适应变化。评估探讨“大数据”会从那些方面影响我们的生活方式工作方式,影响和改变政府与公民之间的关系。总统希望得到建议,如何在政府和民企之间合作推动创新,在最大限度地降低公民隐私风险的前提下,保证信息的自由流动,创造更多的商业机会和就业机会。
 
  2014 年3 月,美国政府向全社会发出公开征询,希望民众从不同层面提出看法,为政府的大数据战略献计献策。
 
  征询从五个纬度展开:
 
  1. 收集、存储、分析和使用大数据对公共政策的影响是什么?例如,当政府利用大数据后,美国目前旨在保护消费者隐私权的法律框架和以及隐私保护策略,能化解大数据大分析带来的新问题?
 
  2. 如果政府采取更多地举措、给大数据的科学研究更多的资助,能为政府带来哪些可量化的收益?那些类型的大数据分析技术会对公共政策带来新挑战?有哪些政府部门和特定行业在使用大数据技术时,应该被政府和公众更多的关注?
 
  3. 那些关键技术和技术趋势将影响大数据的采集、存储、分析和使用?那些新技术或新做法,在保护隐私的同时能实现大数据的有效利用?
 
  4. 监管政府和私营部门处理大数据的政策框架及法规应该有何区别?例如,执法部门,政府服务,商业,学术研究等。
 
  5. 跨行政区、跨国家使用大数据会带来哪些法律问题?如当前的国际法律,法规,或规范的适当性?
 
  2014 年5 月,由总统科技顾问委员会执笔的报告提交总统。报告提出五大建议:
 
  1. 政府政策制定应更多关注大数据的实际使用较少放在数据收集和分析上
 
  2. 在政府各个层面的政策规范制定中,不应关联特定技术而应指明希望得到的结果
 
  3. 为推进大数据技术的应用,白宫科技政策办公室和政府网络信息技术研发部门需大力合作,强化国家在用于保护隐私技术方面的研究,加强与隐私相关的社会科学的研究。
 
  4. 白宫科技政策办公室还应与高等教育和职业教育合作,鼓励和增加培养隐私保护专业人员
5. 美国应当在立法上保持在国际上的领先地位,加快修订国内法律法规,鼓励采用新方法新技术应对新的隐私需求。换个角度讲,总统科技顾问委员会的评估结论是,单靠技术无法保护隐私,政府必须制定新策略,修订现行的隐私保护的政策法规。总统科技顾问委员会建议:新的政策应该侧重于的对个人信息的具体用途是否会对个人隐私产生不利影响;政策制定的重点应放在利用数据的结果上,也即用个人数据分析在“做什么”,而不是“如何做”,以避免政策成为技术进步的障碍;政策框架应能加快开发和商业化大数据技术,这些技术不仅包括新的研究领域和潜在的技术选项,而且应包含能消除对隐私权不利影响的新技术新方法。通过政策的引导,能更有效地利用大数据技术,让美国在立法和商业上在全球继续保持领先地位。只有解除对个人隐私受到侵犯的担忧,才能最大限度地利用大数据的好处。
 
  最后,总统科技顾问委员会呼吁,更多的科学和专业人士共同努力,以对隐私充分尊重的方式,开发和使用大数据技术。
 
  美国政府的经验给了其他国家很多启示。
 
  首先,国家的大数据发展战略不仅仅是一个技术发展纲要。尽管它针对一门新兴科学和相关技术而来,但它是站在此项技术会给未来社会和公民生活带来的冲击的角度,以完善法律框架、政策框架为要,配之以恰当的财政计划项目计划以及合作计划。
 
  第二,因为政府是集数据收集,数据使用和公民隐私保护为一体的最终仲裁者,所以政府必须充分考虑科学与公民、科学与政府、科学与工业以及科学与科技之间的互动关系,制定的法律政策既要能鼓励利用这项技术更多的造福人类同时又能抑制利用其为害人类。
 
  第三,政府资助的重点应放在科学研究(如数据科学),应当用诸如合同或购买的方式激发鼓励民间企业开发应用技术。
 
  第四,科学和技术是现代文明的基础,历史上每次重大科学技术的出现,都引发了巨大的社会变革,因此,政府在关注特定科学和技术的同时,要资助和鼓励相关社会科学的探索争鸣。目前无论从哪个角度看,大数据仍处在初始阶段。尽管企业和媒体对大数据时代的到来表现出了空前的热情,但政府的政策制定者,社会法律学者和科技人士应当对此保持清醒并对已经面临的和将会出现的问题有所准备。今天数据积累的速度远远超过数据能被处理和能被利用的速度。2013 年全球产生的数据中约22%有可能被用作分析,但结果只有5%实际被分析用到(IDC)。照目前数据产生的速度预计到2017 年,全球又会积累超过四倍于今天的数据量。结果导致存储设备、数据中心和电力消耗的快速膨胀。截至 2014 年7 月仅美国就有290 万个被称之为服务器农场的数据中心,面积达6.66 亿平方呎,两年后将达7.27 亿平方呎。绝大部分数据在分立分治的系统中快速堆积,这些数据互不相识互不来往,除了消耗资源,还没有产生任何价值。纵向累积的、缺乏多维度关联的数据的确越来越大。但这并不是 “大数据”而只不过是“数据大”而已。在我们刚刚步入大数据社会时,不妨做一些前瞻性思考。这些思考应当以数据为源头以人类社会为终点。简单说,应当从物理层面审视和规划数据如何收集、存储、处理、传输和共享;应当从数字产品生产层面考虑研发什么样的分析工具、使用什么样的软件平台和基于什么样的环境(如开放代码);从使用层面考虑引进培养什么样的人才和训练什么技能,以及在更广义的范畴考虑如何形成大数据思维和文化,大数据将会对未来企业与人、政府与人的关系有何影响。
 
  大数据社会要求人们学会用一种全新的方式打量这个世界,工具、技术、技能和人才缺一不可。要及早部署和投资在以下方面:
 
  数据分析工具和软件平台:人工智能(AI)技术,自然语言处理、模式识别、机器学习、预测分析、数据熔炼、信号处理和元数据管理等等;大数据要求同时在数十数百甚至数千台服务器中进行大规模并行运算的软件,目前使用的大多数关系数据库管理系统、桌面数据库和可视化软件包已很难满足需求,因此仍需关注MPP 数据库、分布式文件及分布式数据库的发展。
 
  数据分析人才和算法模型:培养训练会使用大数据分析语言工具如ECL, Cassandra,Hadoop,Hive、MongoDB 等的人才只是整个需求的表层。再深入一层,要让大数据发挥作用,跨行业顾问、分析师和有行业经验的编程序人员缺一不可。图形及视觉表展现在人机对话和数据表达层作用极大,但融合技术和艺术、能将“抽象”形象化的语言、工具及人才尚不多见。没有数学模型很难想象数据如何“大”起来,数据只有通过算法模型才能被电脑解读,但数学模型在政治、社会和金融等领域只能逼近现实无法百分之百的重合现实。对于解读数据关联的隐喻而言,这些模式非常有用但必有局限性。所以如何建立能精准模拟世间万物的数学模型,是集理论研究与应用开发的重要地带。
 
  当人类让数字讲话、把决策权更多的移交给“大数据”时,第一个重要问题就是数据的质量。“垃圾进、垃圾出”(Garbage-In, Garbage-Out)这句话早在50 年前就被用来描述自动化处理数据时的质量问题,此话今天依然有效。研究表明,知识工作者平均花近一半的时间在寻找数据、验明数据、修正数据、剔除不靠谱的数据。数据质量问题可能发生在收集、存储、处理、传输和分享整个过程中的任何一个环节,但第一个关口仍是数据录入端(记录或采集口)。大多数情况下,数据输入端很少知道数据使用端为什么需要这种数据,用这些数据做什么。当使用端发现问题时,除非是系统性问题,大多被随手解决,少有追根溯源从源头纠正问题。那么数据的质量如何保证,谁应对质量负责呢?解决数据质量的问题,更多的是在管理不在技术。行之有效的方法是把数据质量的管控权更多地转给使用端(业务条块),建立数据“原料方”和“生产方”之间的直接的客服关系,形成制度和方法从数据源头和元数据层面控制质量。
 
  进入大数据时代,一个“大”字很容易掩盖一切。现实情况是,我们可用的数据越来越多样化,但其中大部分的数据是使用者在只知其来源不知其如何产生、质量被如何管控的情况下而被使用的。因此,要想让人们信赖基于大数据的决策,对所有数据源提前测试试验必不可少。不管数据是大是小,真实可靠最重要。只有逼真的模型、精准的分析,才能体现大数据的价值。过去没有数据是瞎子摸象,现在数据太多是大海捞针,瞎子摸象和大海捞针的结果相差无几。大数据很容易使人们的关注点从因果关系移动到相关关系。大数据分析的结果常常能帮助人们回答“是什么”而不是“为什么”。肤浅的使用大数据,有可能引导人们止步于探究事件背后的深层原因,满足于了解现象之间的联系并利用这种联系得出是对非对的解读。
 
  综观世界上所有政体和政府,他们都是最大的公民信息收集者、数字产品的生产者同样又都是保护公民隐私的最高管理者。实现真正的数据共享是大数据腾飞的基础,主管部门应该多多关注数据开放和共享的规则,公民信息安全和隐私的保护。在可预见的未来,我们面临诸多挑战:技术挑战会出现在从信息搜索、数据捕捉,存储,传输、存储、共享、分析直到可视化全过程。另外必须面对大数据对社会人文的挑战。法律层面,更开放的网络会带来更多的数据窃用、滥用和非法监控。一旦强大的新型数学数据工具出现,如何控制它不会被用在恶意方面。在人文伦理层面,在数据越来越多地获得否决权的人工智能社会,如何对待人的经验积累和直觉判断?大数据技术日新月异,由大数据、深度学习(Deep Learning)引发的新一轮人工智能技术会对人类未来造成什么样的冲击,是摆在科学和社会学者面前的另一个重大课题。实事求是地讲,不论拥抱或排斥这种新形式的数据科学,“精灵”再也装不回瓶子里了。(原作文金言 中国信息协会大数据专家委员会副主任)