美国大数据应用状况分析对实践的启示
来源:网易 更新时间:2014-06-12

       美国是最先推出大数据战略的国家。2012年5月,美国政府宣布投资2亿美元提高大数据技术(包括数据的储存、分析、收集),以加快科学研究、加强国家安全、改革教学和培训体系以及促进专业人才发展。
  
  大数据与开放政府数据对电子公共服务、开放和透明政府以及政府公众与企业间的互动,都蕴藏着巨大的变革潜力。大数据与开放政府数据可推动多方协作,为农业、健康和交通运输等各个领域面临的挑战提出实时解决方案,推动更大程度的开放,并引领政策制定走向新时代。
  
  本文以美国为背景,对有关开放政府数据与大数据的关键政策问题进行评论,然后为大数据和开放政府数据的实践提供建议,以推进数据驱动的创新。
  
  大数据应用
  
  2012年3月奥巴马政府发布了“大数据研究和发展计划”。作为回应,美国国家科学基金会、美国国家卫生研究院、国防部、能源部和美国地质调查局都在投资大数据创新。美国很多公司正在围绕大数据的采集和利用能力来开展他们的商业活动,并将这些活动作为其产品或运营后端的一部分。科研群体、政府和私营部门也正在加速生成各种主题的大规模数据集,包括:气候变化、交通模式、健康和疾病数据、购买行为以及通过社会化媒体互动表现出的社会行为。大数据应用的案例有:
  
  Inrix公司和新泽西州运输部之间的合作伙伴关系。Inrix公司通过汽车和移动电话GPS装置上的信号和数据,采集主干道上的车速数据,然后实时向新泽西州运输部警示任意主干道上的路况险情,同时向司机的车载GPS装置或移动电话发送警示来提醒司机注意路况险情。
  
  气候公司(TheClimateCorporation)是一家天气保险公司,他们制作保单来弥补联邦农作物保险和因气候造成的农民损失之间的差额。该公司通过庞大的传感器网络分析和预测2000万美国农田的气温、降水、土壤湿度和产量。在知晓高温天的天数以及土壤湿度数据后,建立的模型来帮助其预判农民需要的天气保险金额以及公司需要支付的保费。
  
  纽约州能源研究和发展管理局运用一系列的大数据技术来评估气候变化对纽约州的影响,并为农业、公共卫生、能源和交通运输等领域提供应对气候变化的策略。这一应用也被引入美国疾病控制中心,它正与美国其他10个州和城市一起开展“阅读州和城市计划”,共同研究和应对气候变化,而大数据技术是其中一个非常重要的组成部分。
  
  开放政府数据
  
  大数据战略,往往建立在开放政府数据的基础上。开放政府数据在美国并不是一个全新的概念。多年来,政府的信息和数据在不断变化,采集和发布政府数据的方法和途径也同样经历了这些变化。开放政府数据在催生新的科学研究成果、加快经济增长、为政策制定提供信息以及制定为民服务的新政策方面都深具潜力。有关开放政府数据的政策选择将对大规模数据集应用的创新和研究、政府开放和透明以及其他众多领域产生深远影响。
  
  作为奥巴马政府开放政府计划的一部分,2010年美国政府建立data.gov网站,向公众开放“高价值”的数据集。这一政府开放数据平台现已可直接为用户提供海量的原始政府数据,并期待用户能挖掘这些数据的新的利用价值,从而以过去无法实现的方式加深我们对政府活动和更庞杂的社会事务的认知。这些技术方法推动了数据的可获取、开放和透明,同时又让公众、组织、社区和其他社会成员在现有数据的基础上产生新的创新性认知。作为一个面向公众的平台,它可成为一个促进协作、存储数据集、推动社区参与和提供参与机会的工具。除此之外,数据还可通过这些平台以多种格式(如CSV,XML和Excel等)储存和开放。每种数据格式都有其特定含义,可限制或促进数据的应用。
  
  现行政策分析
  
  关于大数据和开放政府数据的一个关键问题是,政府信息和数据的管理、使用、再利用和可获取政策。美国有一整套复杂且不断变化的信息政策(法律、法规和备忘录),用来管理信息的生命周期,从信息的生成、信息的传播、再到信息处理和归档,涉及到如何在数据可获取、隐私、安全问题、数字资产管理、归档和保存等问题上寻求平衡。这个政策框架尽管也不断调整,但仍落后于技术的进步,这一脱节使人们对美国现行政策框架是否足以应对大数据带来的问题产生了疑问,并提出以下几个关键问题:
  
  我们能确保数据的可获取性吗?在大数据时代我们如何保护隐私?我们如何确保数据的质量和准确性?在目前的归档和保存条件下,如何管理我们的数字资产?大数据时代我们能否发展有力的数据再利用政策?
  
  下文将具体分析在大数据和开放政府数据时代,当前美国的信息政策框架的现状和滞后性,并给出了信息政策调整的建议。
  
  (一)数据可获取和发布
  
  美国管理和预算办公室在数据获取和发布方面为政府机构提供了广泛的指导,他们确立了以下原则:政府机构必须及时、公平、有效地以适当的方式把信息发布给公众。政府机构必须建立和维护“信息发布产品清单”。政府机构必须考虑到公民获取能力的差异,让那些不能上网的公众也能获得重要信息。政府机构应制定多种策略来发布信息。当使用电子媒体时,那些涉及妥善管理和文件归档的规定同样适用。政府机构需要评估并确定最合适的方法来采集和保存文件。
  
  美国管理和预算办公室也为政府机构网站的信息管理提供广泛的指导。要求政府机构对提供的所有在线应用进行标准化的风险评估,并要求政府机构执行多项与隐私相关的措施。其他有关信息获取和传播的政策工具还包括:1.要求政府机构对英语能力有限的人提供适当的信息获取方式,涉及所有的“联邦的项目和活动”。这个政策的目标是为了解决公民使用电子政务的鸿沟,尤其是那些不以英语为母语的人。2.规定残疾人在公共教育中可平等获取所有的电子材料。规定政府在提供服务和福利,以及开展政民沟通时,不得将残疾人排除在外。保证残疾人平等地参与政府活动和获取政府信息,并确立了他们获取信息和使用通信技术的一般权利。3.推进和实施了线上信息和通信技术的可获取性。4.由联邦政府采购、维护或使用的电子和信息技术必须满足特定的获取性标准,以确保残疾人能够获取在线信息和服务。
  
  (二)隐私、安全、准确性和归档
  
  政府网站正变成双向社区,增加了网络病毒或其他攻击载体侵入政府环境的可能性,同时也增加了信息意外泄露的可能性。信息政策框架也做出了相应调整以应对这一变化。比如,管理和预算办公室要求政府机构尽可能采取足够的安全措施,以确保信息不被篡改,并确保其准确性、保密性和可获取性,以符合政府机构的预期和用户的需求。
  
  然而,当前的相关政策并不能保证解决大数据所带来的大量使用不当问题。对个人身份信息、政府数据与信息的安全性以及对公开数据的准确性的担忧,都与大数据相关。大数据的质量、可靠性和权威性是政府、科研群体以及非政府组织和私营部门最关注的问题。未经确认或验证的数据、或用错误方法采集到的低质量数据可能会导致错误的研究发现,进而严重影响一系列的决策和政策制定。
  
  data.gov的数据管理政策,致力于解决这些问题,具体包括:规定负责采集和发布数据的政府机构要确保数据的准确性、及时性和整体质量。要求政府机构进行版本控制,确保数据集具有明确的标签。要求政府机构确保data.gov上发布的数据不涉及国家安全。要求政府机构确保发布的数据符合保密和隐私保护的相关规定。
  
  沿着信息的生命周期继续往下走,大数据的使用、储存和保存等方面也面临各种挑战。推动大数据的开放和可获取,与促进大数据的利用具有显著差别。此外,特定领域的数据应用(即只有某个特定领域的科学家们使用)和广泛的跨学科数据应用(即跨学科领域和跨常见研究领域的应用)之间也有不同。
  
  同时,需要为大规模科研数据集建立专门的数据库。构建数据社区的一个要素是迫切需要整合和管理来自不同源头和不同部门的数据。这些数据流必须在政府、私营部门、公共事业公司、各种设备和个人之间流动交汇,才能真正有用,并为社区和国家发展提供信息。因此,有必要在各个实体间建立、采用并遵守一套正式的数据管理标准和操作办法,以保障数据兼容性、命名规则和组织架构。而且,为确保研究人员们对于数据集的知情使用,也需要制作具有明确定义的数据文件和编码本。
  
  “聚合”指的是用户将从不同网站得到的数据结合起来,大数据使当下信息政策环境变得更为复杂。管理和预算办公室要求各政府机构的公共网站,提供开放且符合业界标准格式的数据,使得用户能够整合、分解、操纵或分析数据以满足他们的需求。目前经过聚合的数据往往缺乏正式的授权和验证程序。正如data.gov网站所提出的,“一旦数据从该政府机构页面被下载后,政府不再能保证其质量和即时性。此外,美国政府无法对取自data.gov的数据的任何分析结果做担保”。虽然这一免责声明限定了data.gov的责任,但二次数据使用问题仍需要解决。
  
  大数据的监管也是一个不可忽视的问题。数字化监管涉及对电子研究数据的维护、保存和增值,并贯穿其整个生命周期,例如数字资产的概念问题、数字资产的创造、获取和使用问题,以及数字资产的评价和选择工作。随着新的电子数据资产的持续增长,有必要为大数据的整个生命周期制定有效的数据管理策略。
  
  最后,在诸如data.gov社区这样的数字“开放空间”里,永久的、最终的文件越来越少,而几乎所有文件管理和归档工作都是基于这些文件建立起来的。可现在由于使用非政府的第三方应用程序或软件,且数据调整和修改不断发生,使得数据所有权、储存进度以及归档工作都面临巨大的挑战。
  
  政策和治理原则
  
  当政策制定者考虑、辩论并制定政策时,当私有部门、非营利部门与政府在进行合作时,我们会发现对开放政府数据和大数据立法或者制定一套政策和治理结构非常困难。政府需要在进行数据开放并利用大数据技术的时候,需要制定一套指导原则。而且这些指导原则只是一个开始,并非结束。随着对大数据创新的理解不断深入,我们需要建立并维持一个强有力的政策和治理框架。这些指导原则是:
  
  1.不造成伤害。在政府、私有部门和公众社会间共享数据可能涉及到私人的、敏感的个人信息,而这些组织中的大多数并不拥有相匹配的数据管理、利用和再利用政策。当非政府组织也是大数据合作项目的参与者时,个人不应该被强制或被要求将政府出于某种目的而采集的数据共享给这些非政府组织。
  
  2.长远眼光。数据的长期共享、保存、检索以及获取将要求超越当前技术水平,具有长远眼光。需要保证大数据及其附属产品能在未来的10年、20年乃至更长的时间里都能获得。从一开始就坚持遵守开放数据标准及技术标准可有效推动这一过程。
  
  3.数据表述。我们需要保证数据元素、数据采集单位(例如,是个人层级还是社区层级)、或数据的其他方面都被很好地界定,同时数据采集和使用政策得到清楚地表述。
  
  4.承担责任。大数据对于提供信息和制定政策潜力巨大,但也可能造成损害。大数据通常包含了多种数据集的聚合,而这些数据集最初并不是出于整合的目的而生成的。在大数据创新中,政府需要对他人使用其数据所造成的损害承担责任,确保对公众的保护。
  
  政策建议
  
  大数据带来了一系列问题,而当前的政策框架却无力解决这些问题,这就需要一个大数据的治理模式。这一治理模式需要考虑以下具体问题:
  
  隐私。在个人、家庭、设备或其他层面,大数据包含了各种个人信息数据。隐私保护法律和政策可能会与大数据所带来的机遇相冲突,而与此同时,大数据正在侵犯个人或社区的隐私权。
  
  数据再利用。数据通常是由政府机构或其他组织所采集的,一般与社会服务的被服务者相联系。另外,个人、政府机构或公司常拥有在允许范围内使用数据的权力,以及采集和使用数据时的隐私保护政策。当大数据应用不断整合来自不同机构、政府以及家庭的数据集以期发现新思路并为决策和政策制定提供信息时,向个人清晰地进行数据利用和再利用政策的指导也非常必要,从而使个人能够在知情的情况下,做出与其个人数据相关的决定。