作者:刘恕
U盘是个人日常使用的信息存储设备,存储量最多达到几个GB。但是,当面对数十TB(1TB相当于1024GB)乃至数千TB级海量数据、多台计算机联网共同读、写信息时,数据存在哪里,又如何管理呢
?
在中科院计算所国家高性能计算机工程技术研究中心(以下简称“工程中心”)的机房,记者看到一排排嗡嗡作响的机柜和显示着数据的屏幕正在高速地运转。正是这些存储数量达几十个TB的“黑匣子”―――网络存储支持着遥感测算、石油勘探等行业对海量数据的大规模、分布式、并行访问的需求。在863计划的支持下,工程中心相继研发出适合我国国情的蓝鲸系列网络存储产品,并已广泛应用于国防、军队、科研、教育等众多领域。
推进我国信息化深度
网络存储系统到底是什么?中国科学院计算技术研究所总工程师徐志伟解释说,网络存储就是将存储设备直接连接到网络上,网络存储技术就是对这种直接连接到网上的存储设备进行组织与管理,形成网络存储系统,并管理和控制网络硬盘的使用。
他介绍说,网络计算机平台有4类系统―――服务器、存储系统、路由器等网络设备以及微机等客户端设备。其中,存储系统不是通常所说的微机和服务器中的硬盘,而是盘阵和网络存储之类的系统。服务器和存储系统通常又被称为服务器端系统,它们通过网络与微机等客户端设备互联起来。
存储系统是近年来增长最快的网络计算技术,其全球市场销售额已经超过了服务器市场,尤其在北美和日本等发达地区更是如此。这种趋势在今后还会继续,因为不论是局域网还是广域网系统中,数据量增长都还在提速。
“一个国家的信息化广度可以粗略地用客户端设备量来表示,客户端设备越多,在一定程度上也反映了用户越多;一个国家的信息化深度则可用服务器端设备量来表示,这是因为一个国家的信息化程度越深,联网程度就越高,服务器端的应用数据和应用程序就越多,应用水平也就越先进。”
来自IDC的一组数据显示,中国在信息化广度方面已经有了长足的进步,微机市场销售额已经超过了日本。但是,我国信息化的深度不仅与发达国家有较大的差距,甚至低于世界平均水平。我国在存储系统的销售额只占全球市场的1.5%,比近邻韩国还低许多。“加快存储市场的高速发展是推进信息化深度的前提和要求。”徐志伟如是说。
为此,2001年,计算所面向网络计算的发展趋势,通过中科院“百人计划”引进了国外优秀人才许鲁博士,开始了网络存储技术及其产品的研究工作,工程中心成为当时国内进行仅有的几家国产存储技术研究的机构之一。
力挺自主创新存储产品
数据表明,今天我国的存储市场,仅占全球的1.5%,而服务器市场占到了4%,网络和通讯设备市场也在4%以上,存储行业发展严重失衡。
徐志伟分析说,造成我国存储系统落后的主要原因是国产化程度很低,因而成本仍然很高。过去几年里,我国的微机产业和服务器产业有了很大的发展。但是,我国几乎还没有存储系统的品牌产品,更缺乏自主创新的存储系统技术。
深谙信息技术发展之道的许鲁告诉记者,从历史上来讲,信息技术有三个大的技术发展阶段,分别是计算技术浪潮,网络技术浪潮和存储技术浪潮。计算技术浪潮发生在上世纪80年代中期,以CPU为主要目标,包括PC和服务器方面的发展。在国际上,形成了英特尔和AMD两大巨头。同时,中国本土产业也形成了联想和浪潮等厂商。网络技术浪潮形成于90年代中期,它提供一般的PC机与服务器之间的通路。在国际上形成了思科等国际巨头,与之相应国内形成了中兴、华为等厂商。在2000年后形成的存储技术浪潮,其主要目标是提供数据内容。在国际上造就了EMC等厂商,而在国内其产业几乎还是一片空白。
目前,我国的存储市场多数集中在IBM、惠普、EMC这些国际知名品牌手里。国内自主品牌在存储领域,只占8.7%的市场份额。其中有80%以上为国外贴牌加工或生产濒临淘汰的低端产品。
“如果把8.7%与20%这两个数字相乘的话,你可以发现真正的自有技术的产品,只占到不足2%的市场份额。在这不足2%的市场份额内,具有市场竞争力的核心存储产品几乎是少之又少。”许鲁痛心地说,我们可以一辈子用国外的舶来品,但是不仅要为之付出高额的成本,更重要的是用户在需求上没有任何发言权。
许鲁的观点在市场上得到印证。据有关机构预测,5年内我国网络存储市场规模将达到近100亿人民币。从市场需求角度,对于国有品牌及自主技术,用户需求强烈,渴望得到符合国情的产品、解决方案和专业化服务。这无疑为自主创新的存储产品在中国的应用和发展提供了重要的契机。
蓝鲸做到4个“最”
“存储系统不是我们日常使用的U盘或电子盘,更不是人们常见的磁盘阵列,而是由多个网络智能化的存储控制器/设备和管理系统构成的。”许鲁打比喻说,如果把U盘和电子盘作为PC,磁盘阵列则相当于我们计算角度上的服务器,那么存储系统就是高性能的计算机。由此可见,存储是计算机系统中比较难的领域,技术门槛高,属于计算机的核心技术。
网络存储难在既要存储数据,又要有效管理和调度数据的使用。几年来,许鲁带领他的团队开展了网络存储研究、开发和产品化等一系列的工作,解决了包括以存储为核心的系统管理,计算资源、存储资源和数据资源的按需部署,数据资源的备份、恢复、容灾和共享等关键技术。
在863计划“海量存储系统技术与集成―――以海量存储为核心的网络服务器系统”和“虚拟化网络存储功能软件”等课题的大力支持,工程中心已经设计并实现了四个以网络存储为核心的大型系统平台。这四个系统包括蓝鲸虚拟存储系统、蓝鲸服务部署系统、蓝鲸集群存储系统和蓝鲸数据备份系统。其中,蓝鲸虚拟存储系统为资源的分离提供了基础平台;在分离的基础上,蓝鲸服务部署系统可以将计算资源和系统数据动态合成,按需构成用户所需的计算环境;而多计算机间的数据共享则由蓝鲸集群存储系统支持。这几个系统数据都可由蓝鲸数据备份系统来提供数据备份支持,共同构成大型存储系统。
在这四大系统的基础上,工程中心成功开发出蓝鲸网络存储系列产品。这些产品填补了国内在网络存储行业的产品空白,实现了具有自主特色的虚拟化和按需服务等先进技术,不仅在性能、可靠性、可扩展性、可管理性达到了国际同类产品的先进水平,而且成本降到了1/3。蓝鲸存储系统能够有效地管理512TB的存储资源,并能按照用户的需求动态划分资源,蓝鲸服务部署系统能够在1分钟之内提供用户所需要的操作系统和应用软件服务。
更令人欣喜的是,蓝鲸存储产品投入应用到国防、军队、教育、政府、科研、能源、遥感、旅游、广电、视频监控等多个行业和领域使用后,得到了国内外同行和用户的认可与好评,在大型存储系统的应用中成为国内产品系统规模最大、产品技术成熟度最高、实际应用领域是最宽、潜在覆盖领域最广泛的国内网络存储产品。
2006年9月,全球最具权威的IT研究与咨询机构Gartner对蓝鲸集群存储系统在石油物探领域的应用情况进行研究。这是该机构首次对中国国产存储产品做出客观的评价。报告称,用户非常满意蓝鲸集群存储的使用,它支持4个主要的计算工作,甚至可支持4个工作同时运行。到目前为止,系统还未遇到任何系统性能瓶颈问题。
“明年我们将要研发出PB(1PB相当于1024TB)级存储容量的产品,把相应的应用成功移植上去。”展望未来,许鲁充满希望地说。
数字863
蓝鲸网络存储产品的应用
蓝鲸部署系统应用在政府、科研和军队等领域,如肇庆市人民政府信息中心、深圳先进技术研究院、总装某部、海军某部等单位,主要用于普通和保密办公环境,方便了办公环境中的计算机系统维护,使系统管理员对计算机的管理能力由之前平均每人50―100台计算机增长到200台,另一方面是通过基于PCSAN的保密办公环境解决方案,有效地防止了网络泄密事件的发生。
蓝鲸部署系统在能源领域里,如新疆油田公司勘探开发研究院,主要用于大型计算机集群的系统部署,目前最大支持计算节点达到260个。同时部署190个计算节点时,部署时间从之前使用传统的网络分发方式时所需的6―12小时缩短为不到1个小时,大大提高了集群系统的部署效率,也方便了计算资源的灵活调度。
蓝鲸集群存储系统在军队和国防领域,主要应用在核模拟、数字风洞、文献检索、遥感数据处理等应用中。在国防领域某研究所的数字风洞应用中,该系统已经稳定运行一年半,其表现出的性能是传统网络文件系统的10倍。
蓝鲸集群存储系统在科研和能源等领域,如深圳先进技术研究院、新疆油田公司等应用单位,主要应用在集群计算方面,最长应用时间已经超过两年半。目前该系统在新疆油田的地震数据处理中,最大支持计算节点已达到289个,计算效率提高了1―3倍。