通过介绍大数据时代的业务特点以及目前大数据时代面临的挑战,对基于云计算的大数据统一分析平台进行了详尽的研究与设计,包括大数据分析平台的架构体系、大数据分析平台的软件架构、大数据分析平台的网络架构、大数据统一分析平台的方案特点等,分析了基于云计算的大数据统一分析平台方案的竞争优势,基于云计算的大数据统一分析平台将更有效支撑未来电信运营商业务的发展。
1 大数据时代的来临
随着通信行业竞争的不断加剧,运营商如何有效地利用庞大的信令数据进一步实现深度运营和精确营销已经成为当务之急,急需一种可控投入就可满足可控信令数据存储,并能高效地对其分析、挖掘信令数据价值的数据平台。Big Data”大数据”是继云计算、物联网之后IT产业又一次颠覆性的技术变革,对国家治理模式,对企业决策、组织和业务流程,对个人生活方式都将产生巨大的影响。在研究领域,麦肯锡认为,数据已成为流入全球经济每一个领域的洪流。大数据完全能够成为企业的新型资产,形成竞争力的重要基础,并发挥重要的经济作用。IDC认为,大数据处理将在2012年成为一项必备能力。Gartner认为,2015年超过85%的财富500强企业将在大数据竞争中失去优势。2012年3月,奥巴马政府发布了“大数据发展计划”,并将其定义为“未来的新石油”。这一系列事件使得大数据成为又一个炙手可热的名词。
电信运营商引入大数据技术,通过可控的成本实现海量数据存储分层的同时,通过缩短数据处理路径和提供超大数据处理带宽,有效减少数据分析响应时间,提升信令分析的业务价值,增强运营商核心竞争力。
2 大数据时代面临的挑战
2.1 大数据概念
(1) 数据规模大:很难给出一个绝对的数字标准来确定大小,可能用一些模糊的感觉来相对比较;
(2) 数据结构复杂度高:复杂的数据结构的数据能够传递更丰富的信息;
(3) 数据关联度高:数据关联度的高低关系到数据的可挖掘程度,如果数据关联度低,无论数据量如何大,结构如何复杂,也形成不了大数据。
2.2 大数据时代面临的问题
(1) 简单的脚本语言预处理,无法解析过于复杂的数据结构;
(2) 关系型数据库在大数据面前面临尴尬;
(3) 商业数据库的优化空间有限;
(4) 数据质量无法做到有效监控;
(5) 越来越多的业务需求向数据运算能力妥协。
3 基于云计算的大数据方案研究与设计
3.1 大数据统一分析平台设计思路
图1 大数据平台体系架构
(1) 在企业内构建统一的数据运算平台;
(2) 企业所有者可以直接控制其数据实例;
(3) 通过实体整合直接提供企业级的数据访问功能;
(4) 灵活的扩展和配置降低了投资的平均风险。
3.2 大数据统一分析平台软件架构
图2 大数据平台与传统方案架构比较
云时代的大数据平台不仅以高性价比、高扩展性的硬件体系支撑PB级别,甚至ZB级别的海量结构化、半结构化、甚至非结构化的数据存储。同时还需要能够高速的挖掘这些数据的价值,为企业创造利润,真正实现大数据等于大价值。
基于云计算的大数据统一分析平台结合数据库存储和Map Reduce架构为企业构建高效处理的结构化、半结构化、甚至非结构化数据的大数据分析平台,客户可以以此平台为基础实现数据资产从成本中心到利润中心的转变,以数据驱动业务。
图3 大数据统一分析平台数据软件架构
(1) 软件架构
通过Master主机和多节点的Segment主机和数据库通过互联网络连接。应用程序通过Master主机访问数据,网络中的每一个存储节点都是独立的数据库,相互之间没有共享。在多存储节点和Master主机之间进行数据交换。各个节点的segment服务器通过互联网络进行连接,完成相同的任务,从用户的角度来看是一个服务器系统。
其基本特征是由segment服务器(每个segment服务器为节点)通过互联网络连接而成,每个节点只访问自己的本地资源包括内存、存储等,是一种完全的无共享结构(share-nothing),因而扩展能力最好,理论上期扩展无限制,目前的技术可实现512个节点的互联,数千个CPU。每个节点可运行自己的数据库、操作系统,但是每个节点不能访问其他节点的内存,节点之间的信息交互是通过节点互联网实现的,这一过程称为数据重分配。(2) 高可用性方案设计
图4 大数据平台高可用性架构
Master主机与备Master主机采用一主一备方式同步进程,Master主机与多节点的Segment主机通过GE网络进行连接,每一节点Segment主机上包含了主网段和镜像网段两份数据,保障整个系统架构的高可用性。
3.3 大数据统一分析平台网络架构
(1) 目前的共享架构方案
图5 完全共享性架构
“完全共享”体系局限于单一服务器(通常是价格比较昂贵的SMP服务器)。
图6 共享磁盘架构
“磁盘共享”体系允许系统带有多个服务器,这些服务器与SAN或其它共享存储设备相连。这种体系需要通过一个狭窄的数据管道将所有I/O信息过滤到昂贵的共享磁盘子系统。
从结构上分析,采用“完全共享”或“磁盘共享”体系,其扩展性和性能受到相应的限制。而且,通用磁盘共享体系复杂、脆弱,在处理万亿字节数据时难以胜任。
(2) share-nothing完全不共享架构方案
图7 “完全不共享”架构
完全不共享架构的磁盘SAN/FC网络、网络主机SAN/共享磁盘、通用数据库等是针对OLTP处理功能设计的,在运行大量小规模交易查询数据时效果最好。
在“完全不共享”体系下,在主机上规划查询项目,并将其分成若干部分在集群上并行执行,所有通讯功能都在一个高宽带网络互连体系上实现。这种体系的一个重要优势就是每个节点都有一个通往本地磁盘的独立高速通道,从而简化了体系,并提供扩展性很好的并行扫描和查询处理功能。
3.4 大数据统一分析平台方案特点
(1) 数据保护-节点镜像
图8 大数据统一分析平台数据保护
在大数据统一分析平台中,只有Master主机保存了系统的元数据,每一节点的Segment主机保存了用户的部分数据,通过镜像,Segment主机的镜像数据保存在不同的Segment主机上。
比如:Segment主机1的主要数据版本1在Segment主机1,它的镜像数据保存在Segment主机n;Segment主机2的主要数据版本2在Segment主机2,它的镜像数据保存在Segment主机1;Segment主机n的主要版本数据在Segment主机n,它的镜像数据保存在Segment主机2;
根据这样的镜像配置,如果有Segment主机down机了,仍旧可以从其他节点的Segment主机恢复完整的可用数据到本Segment主机数据库系统。
(2) 基于外部表的高速数据加载
图9 大数据统一分析平台外部表加载
①并行数据流引擎,可以直接用SQL操作外部表;
②加载完全并行,加载速度可达4.5TB/小时。
(3) MapReduce & SQL一体环境
与传统的RDBMS系统和编程环境不同,大数据分析平台采用MapReduce & SQL一体化的环境。
(4) 私有云计算平台
硬件采用X86开放架构的PC服务器,数据分布式存储和采用大规模并行计算,从根本上解决I/O问题,性能线性扩展,高可用保障,资源按需定制。
3.5 大数据统一分析平台优势分析
(1) 允许根据业务优先级按需调配和再分配大量计算资源的敏捷性;
(2) 能够分析更细化、更多元化的低延迟数据集(大数据),同时保留数据内的细微区别和关系,以便得出有利于优化业务绩效的差异化洞见点;
(3) 围绕关键业务计划展开组织范围的协作,快速传播最佳做法和组织发现的结果;
(4) 成本优势:可以利用商品化处理组件来分析大数据,从而利用以前即便能利用也不能经济高效的利用的业务机会。
基于云计算的大数据统一分析平台将带来可大幅扩展的处理容量,允许利用细粒度数据集,实现低延迟数据访问以及紧密的数据仓库和分析集成,为公司和企业提供有实际内容并有可操作性的洞见点。
4 结束语
根据Gartner的预测,2012年大数据技术处于高速的发展时期,不断取得技术上的突破,产品密集发布或者其他能产生重大利益的项目快速大量出现。基于云计算的大数据统一分析平台将有效地支撑数据关联度高、数据结构复杂的数据,有效支持PB级别数据、有效减少数据分析响应时间,提升信令分析的业务价值。基于云计算的大数据统一分析平台对电信运营商未来业务和技术的发展有重要的战略意义和经济意义。