创建大数据项目的五大步骤
来源:中关村在线 更新时间:2013-09-22

 
    企业需要积极的提升他们的数据管理能力。这并非意味着他们应该制定繁琐的流程和监督机制。明智的企业会配合他们的数据活动的生命周期制定灵活的流程和功能:根据业务需求启动更轻更严格、更强大的功能,并根据需求的增加来提升质量或精度。
    一些企业正在利用新兴技术来应对新的数据源,但大多数企业仍然面临着需要努力管理好他们已经掌握或者应当掌握的数据信息的困境,而当他们试图部署大数据功能时,发现自己还需要面对和处理新的以及当下实时的数据。
    为了能够实现持久成功的大数据项目,企业需要把重点放在如下五个主要领域。
    1、确立明确的角色分工和职责范围。
    对于您企业环境中的所有的数据信息,您需要对于这些数据信息所涉及的关键利益相关者、决策者有一个清晰的了解和把控。当数据信息在企业的系统传输过程中及其整个生命周期中,角色分工将发生变化,而企业需要对这些变化有一个很好的理解。当企业开始部署大数据项目之后,务必要明确识别相关数据的关键利益相关者,并做好这些数据信息的完善和迭代工作。
    2、加强企业的数据治理和数据管理功能。
    确保您企业的进程足够强大,能够满足和支持大数据用户和大数据技术的需求。进程可以是灵活的,并应充分考虑到业务部门和事务部门的需求,这些部门均伴有不同程度的严谨性和监督要求。
    确保您企业的参考信息架构已经更新到包括大数据。这样做会给未来的项目打好最好的使用大数据技术和适当的信息管理能力的基础。
    确保您企业的元数据管理功能足够强大,能够包括并关联所有的基本元数据组件。随着时间的推移,进行有序的分类,满足业务规范。
    一旦您开始在您企业的生产部门推广您的解决方案时,您会希望他们长期持续的使用该解决方案,所以对架构功能的定义并监督其发挥的作用是至关重要的。确保您企业的治理流程包括IT控制的角色,以帮助企业的利益相关者们进行引导项目,以最佳地利用这些数据信息。其还应该包括您企业的安全和法务团队。根据我们的经验,使用现有的监督机制能够达到最佳的工作状态,只要企业实施了大数据应用,并专注于快速在进程中处理应用程序,而不是阻碍进程的通过。
    3、了解环境中的数据的目的和要求的精度水平,并相应地调整您企业的期望值和流程。
    无论其是一个POC,或一个已经进入主流业务流程的项目,请务必确保您对于期望利用这些数据来执行什么任务,及其质量和精度处于何种级别有一个非常清晰的了解。这种方法将使得企业的项目能够寻找到正确的数据来源和利益相关者,以更好地评估这些数据信息的价值和影响,进而让您决定如何最好地管理这些数据信息。更高的质量和精度则要求更强大的数据管理和监督能力。
    随着您企业大数据项目的日趋成熟,考虑建立一套按照数据质量或精确度分类的办法,这将使得数据用户得以更好的了解他们所使用的是什么,并相应地调整自己的期望值。例如,您可以使用白色、蓝色或金色来分别代表原始数据、清理过的数据,经过验证可以有针对性的支持分析和使用的数据。有些企业甚至进一步完善了这一分类方法:将数据从1到5进行分类,其中1是原始数据,而5是便于理解,经过整理的、有组织的数据。
    4、将对非结构化的内容的管理纳入到您企业的数据管理能力。
    非结构化数据一直是企业业务运营的一部分,但既然现在我们已经有了更好的技术来探索,分析和这些非结构化的内容,进而帮助改善业务流程和工业务洞察,所以我们最终将其正式纳入我们的数据管理是非常重要的。大多数企业目前都被困在了这一步骤。
    数据库中基本的、非结构化的数据是以评论的形式或者自由的形式存在的,其至少是数据库的一部分,应该被纳入到数据管理。但挖掘这些数据信息则是非常难的。
    数字数据存储在传统的结构化数据库和业务流程外,很少有许多的治理范围分组和数据管理的实现,除了当其被看作是一个技术问题时。一般来说,除了严格遵守相关的安全政策,今天的企业尚未对其进行真正有效的管理。当您的企业开始大跨步实现了大数据项目之后,您会发现这一类型的数据信息迅速进入了您需要管理的范畴,其输出会影响您企业的商业智能解决方案或者甚至是您企业的业务活动。积极的考虑将这些数据纳入到您企业的数据管理功能的范围,并明确企业的所有权,并记录好这些数据信息的诸如如何使用、信息来源等等资料。
    不要采取“容易的轻松路线”,单纯依靠大数据技术是您企业唯一正式的非结构化数据管理的过程。随着时间的推移,企业将收集越来越多的非结构化数据,请务必搞清楚哪些数据是好的,哪些是坏的,他们分别来自何处,以及其使用是否一致,将变得越来越重要,甚至在其生命周期使用这个数据都是至关重要的。
    要保持这种清晰,您可以使用大数据和其他工具,以了解您企业所收集的数据信息,确定其有怎样的价值,需要怎样的管理,这是至关重要的。大多数进入您企业的大数据系统的非结构化数据都已经经过一些监控了,但通常是作为一个BLOB(binarylargeobject)二进制大对象和非结构化的形式进行的。随着您的企业不断的在您的业务流程中“发掘”出这一类型的数据,其变得更加精确和有价值。其可能还具有额外的特点,符合安全,隐私或法律和法规的元素要求。最终,这些数据块可以成为新的数据元素或添加到现有的数据,但您必须有元数据对其进行描述和管理,以便尽可能最有效地利用这些数据。
    5、正式在生产环境运行之前进行测试。
    如果您的企业做的是一次性的分析或完整的一次性的试点,这可能并不适用于您的企业,但对大多数企业来说,他们最初的大数据工作将迅速发展,他们找到一个可持续利用他们已经挖掘出的极具价值的信息的需求。这意味着需要在您的沙箱环境中进行测试,然后才正式的在您的生产环境运。