中国信息化杂志封面:有多少信息可以共享
来源:天极网 更新时间:2012-04-14
             冬天就要来了,你做好准备迎接雪崩般的数据了吗?

  这是一句应景的广告词。如果是夏天,只需把雪崩换成暴雨或洪水,一样可以蛊惑人心。因为不论对政府行业,还是金融、电信、电子商务行业来说,从没有像今天这样对数据产生如此巨大的依赖。铺天盖地的数据既是看得见的财富又是当头重压,更多的数据需要存储,更多的业务需要处理,更多的分析需要完成,而且没有喘息时间,这些都期待着所有的数据管理要素继续改进。管理得当、分析精确、交换顺畅的数据可以创造无限价值使企业健康成长,反之,则是风险重重、隐患不断、气血不通甚至心跳骤停。各大数据库厂商深谙其中之道,对于数据库产品的更新换代从来不惜余力,国内的行业用户也经历了从被动交学费到最大程度自主选择的过程。

  从早期集数据库和开发语言于一体的Dbase、Foxbase、Foxpro到后来的大型关系型数据库,再到今天基于互联网的B/S/S三层架构管理信息系统开发技术,从数据的分散管理到大集中,数据被看成是IT应用的核心之芯,开发利用好信息资源无疑是信息化发展的主线。然而,从当前国内的行业应用情况来看,数据标准机制不完善、信息资源共享困难依然是各行业普遍存在的问题。在面对大众的终端应用时,有多少信息可以为民众所用,有多少数据可以无障碍共享?

  随着科学技术、电子商务尤其是 Internet 的迅猛发展,信息的来源、数量、形式和使用方式都发生了很大变化,使传统关系数据库面临着巨大挑战。如何有效地处理异构环境下复杂的数据类型,成为数据库技术的重大趋势之一,其相关的产品的推出也让暗涌不断的数据库市场再起波澜。只是,有时再好的特效药也治标不治本,世界上最先进的软硬件,其最优越的性能面对行业自身的发展瓶颈有时也只能干着急。不管数据库市场竞争如何激烈,厂商们的理念如何超前与诱人,我们只有看清自己的先天不足,尽可能地改善应用环境,培养优秀的数据库人才,把自身的发展特点和市场上相应的技术相搭配,再来考虑合身之选。不管是IBM DB2,还是Oracle 10g、MS SQL server还是MySQL 5.0,总有一款适合你。假如仍然不能满足你的需要而这种需要又具普遍性,那么这对于厂商来说,无异于又发现了一个新的兴奋点。

  需求千变万化,技术不断演变,各方合力共同把信息资源用好管好,最终为的是服务好信息社会的普罗大众。

  社保数据库 标准之忧

  今天,百姓可以足不出户在网上办理就业登记和社保申报,社保服务向网络和社区的延伸使面向公众的服务更加便捷。为大众提供服务的社保窗口已经呈现出多样化的特点,网站、电话咨询服务中心(12333)、核心业务系统的Browser客户端等,均可以提供网上业务处理功能。这一切,都离不开数据的管理和应用。

  在政府部门当中,社保系统需要的数据主要是公安、工商、税务部门、民政,公安部门的数据,因此拥有相对来说信息最全的数据库,其应用也深具代表性。也正因为如此,大量的数据交互每天都在产生,数据库成为其IT建设的关键。

  在劳动和社会保障部信息中心的陆春生处长看来,金保工程的主要内容,就是基于数据库的劳动就业和社会保险业务系统构成核心业务系统,通过数据接口与周边的定点医疗服务机构、定点零售药店、参保企业、代发银行和邮局、代收税务等系统交互;通过数据交换与财政、民政、教育、发改委等部门构成电子政务协作网;通过劳动保障专网完成抽样数据和统计数据的逐级上传;通过网站、电话咨询服务中心、大屏幕、触摸屏等将数据展现给服务对象;通过数据统计、分析、挖掘为领导决策提供支持;通过街道社区等基层部门完成数据的采集以及就业、退休人员社会化管理和服务的下延。

  数据共享的标准之忧

  同其他信息化先行的政府部门一样,劳动保障信息系统建设数据库系统建设大致经历了分散建设阶段、地市级集中阶段、数据共用、数据共享、数据交换阶段和劳动和社会保障一体化的大整合阶段。

  在各地劳动保障信息系统建设的起步阶段,多数地市将数据库建立在区县,主要考虑灵活、安全,另外是考虑养老保险和医疗保险区县级统筹的实际情况。但这期间数据库分散建设也带来很多弊端:如设备重复投入、统计工作难度加大,以及市级电话咨询服务中心无法连接业务数据库,进而无法提供账户查询等个性化服务,另外还会造成统筹区内个人重复参保的现象。

  随着统筹层次的升级以及计算机管理的内在需要,各地社保部门基本纷纷建立市级集中的数据库,部分地区上升到省级集中,如黑龙江及西部省份。但是仍然有一部分地区,如江浙一带的有些地市,仍采用各区县分别建立数据库的现象,主要是因为养老保险和医疗保险仍然是区县统筹。地市集中的好处主要是便于系统维护、数据库保持一致、减少区县级机构的维护工作等。

  后来发展到数据共用、数据共享和数据交换则是一个较为特殊的阶段,因为数据共用和数据共享并非一回事。举例说明,法人单位基本信息库和个人基本信息库,相关系统实时访问同一个库,叫共用;而如果以上两个库由第三方维护,相关系统将该数据复制到本地使用,称为共享;不同部门要利用对方的专业信息或提供给对方使用,这叫数据交换。由于社会保险五险种非一个部门管理,进而导致不同的开发商参与系统建设,相互之间的互不信任以及人为设置壁垒,或者同一家开发商采用了不同的标准和技术架构,导致系统割裂。数据只能采用共享或交换的形式,极少数地区实现基本信息的共用。此时,劳动就业系统与社会保险系统之间也是如此,不同业务之间形成一种松耦合关系。

  甲骨文公司北方区政府及公共行业销售总监孟文波为政府行业服务近十年,谈到政府部门的数据资源整合,孟文波认为,以前分散的建立的系统形成的数据的格式不一,部门之间的沟通和信息共享还存在问题,出于职能的限定、保护,还有分散建设造成了资源浪费和资本投入的交学费的过程。政府用户在不同的发展阶段所发生的不同数据,是必然产生的问题。为了将其统一渐渐消融,只有在现在的基础上不断打补丁,这是很多厂商在用的手段,但补丁越来越多也会成为新的问题,因此简化IT架构是甲骨文致力的方向之一。

  IBM软件部中国区Linux软件负责人张克强认为:国内政府行业用户的很多数据都没有达到真正的共享,不是数据库本身的问题,而是使用数据的问题,不同的部门采购时选择了不同的数据库产品,整合需要一个统一的标准。此外,还牵涉到政府的机制特色,到底哪些数据拿出来就能用,哪些数据能共享,需要大家做一个评估,再就是数据未来的扩展性,有的数据不仅仅是一个简单的数据,也有可能包含一些图形图像等等这样,都需要标准去制定,国内还没有出台这样的标准。

  目前,劳动和社会保障一体化是劳动保障信息化建设的发展趋势,劳动保障系统采用统一整合的大系统,两大系统共用单位基本信息库,并统一信息入口,业务之间紧耦合,在单位和个人各种状态发生变化时业务之间相互联动。如先确立劳动关系,才能参加社会保险,但现在遇到的最大障碍是一旦涉及到资源、岗位和机构的拆分和整合,就会触及单位和个人利益,进而无法逾越。

   新系统中的老问题

  信息孤岛这个话题几乎是老掉牙,然而多年来它矗立依然。陆春生认为:造成政府部门的数据共享障碍的原因主要有以下几个方面:

  1.信息持有者过高看重了信息的价值,将原本可以公开的信息封闭起来。

  2.对于有些确实有价值的信息,共享时牵涉到利益分割,再就是有些民营职业介绍机构来公共职业介绍机构抄信息。

  3.涉密信息。

  4.数据质量不高,担心暴露问题。

  5.统计数据不准确,担心业务数据和统计数据的矛盾暴露出来。

  解决信息孤岛需要从几个方面入手:

  1.“十一五”期间政府信息化建设的重点将是扩大政务信息的公开和透明,首先政府部门要树立以人为本的服务理念。

  2.解决统计数据的失真问题。

  3.公共职业介绍机构要立足于下岗失业人员等困难群体,解决职介部门的事业编制,取消职业介绍收费项目。

  4.抓好系统建设数据清理工作。

  5.处理好涉密信息,做到涉密信息不上网,上网信息尽量公开。

  现在各政府部门系统基本是处于纵向建设、横向对接阶段,有些地方通过共享法人单位基本信息库和个人基本信息库的方式共享有些若干个字段信息。但由于机构设置问题、税收和财政体制问题,各地很难一次性集中所有资金建成一个大而全的系统。因此,分散建设和分步建设还将是一个长期存在的现象。不同部门业务数据库具有相同意义的数据字段的冗余现象,且往往不一致,不能互相比对和利用。

  陆春生认为:当前各部门的系统都在走地市级集中式的方式,且制定了一系列的行业标准和规范,横向跨部门的系统建设和数据集中基本上不太可行,目前只能通过信息化综合部门制定数据交换标准,建立信息共享和交换平台,如建立供各部门共享的法人单位库以及人口基本信息库。当谈到如何应对异构系统的数据交换,陆春生解释说,由于不同的开发商采用不同的软硬件平台、不同的开发语言、不同的系统架构,形成了复杂的异构系统,要实现他们之间的数据交换,又不能相互开放数据库。只能通过服务的方式,将需要共享的数据,通过“数据访问服务”打包发布的形式进行相互利用。目前流行的数据总线和业务总线的方式,以及面向服务的架构(Service oriented architecture)正是为了解决目前体制性障碍无法跨越的情况下的数据共享和业务整合问题。

  政府用户在成熟

  对于数据库平台和产品的选择方面,劳动保障信息化使用的产品主要包括,数据库、中间件、开发工具、管理工具等,目前主流产品包括Oracle、Weblogic等,政府部门选择产品及厂商主要看重的仍然是价格和售后服务,尤其是后者。如孟文波所言:10年前,政府招标都是针对硬件、软件不同的产品招标,现在大多数都是对于解决方案的,希望厂商不仅仅是一个产品的提供商,而是作为一个咨询方,能够提供如何有效整合、实现更好应用的建议。

  今天,政府用户越来越成熟,其诉求除了实现应用,还要促进管理和流程的优化和提升。随着政府从管理型到监督服务型政府的转变,部门之间横向的沟通增多,为公众提供综合服务的不再是一个政府部门,而是多个政府部门,如联合执法、一站式服务等,信息资源的共享就显得非常关键,建立相关数据标准是当务之急。

  成长型企业 随需而选

  几年前,电子商务在人们心目中留下了“泡沫”、“虚无飘渺”等印象。今天,传统企业却正在以惊人的速度涌向电子商务。有别于人们对“电子商务”这一概念认识上的误区,全球的企业信息化正步入新的“电子商务”时代,这一电子商务新趋势的显著特征是:全球经济一体化进程继续加快,国际化市场竞争更加激烈,迫使企业与企业之间结成更加紧密的战略联盟和协同作业,形成跨企业的产业链与产业链之间的竞争,通过Internet与先进的一体化电子商务工具,进一步寻求和利用外部资源,增强企业的竞争力。

  在这股波及全球的电子商务新趋势中,所有围绕企业管理相关的事务,如生产、财务、人事、销售、物流、采购、服务等环节,不再被看作是一个个单一、封闭的过程,而是通过一个更加集成、互动、灵活、无缝连接的架构式电子商务平台,来实现企业与供应商、经销商、合作伙伴之间的信息共享和信息互动。

  今天,很多的中小企业都盯着比自己大的多的对手。要想让竞争不输在起跑线上,那么首先在信息管理这块短板上就要有所改变。小企业不具备大企业的规模效应,要花费高成本搭建自己的信息系统既不现实也不划算,自己招聘技术人员,买服务器和软硬件,也不可能买很贵的,如果一旦系统出现问题,数据流失该怎么办呢?现在阿里巴巴为中小企业用户推出的一项新型服务正在试用之中,明年将正式与用户见面,那就是把所有企业用户的数据和应用都放在阿里巴巴管理,由阿里巴巴来保证他们各个数据的安全性和保密性。阿里巴巴副总裁王涛认为:“相比于大企业追求的最大限度的个性化的配置、复杂详细的需求,可定制的服务,中小企业更看重的是可靠的数据管理方式,合理的IT成本,使自己不断发展壮大去同更强大的对手竞争。”

  为用户提供这样的集体外包支持,阿里巴巴自身的数据库系统必须要做到十分强大。作为全天候24小时为客户提供及时、充分的服务电子商务企业,对于数据库的应用本来就非常猛烈,每天多少亿的页面访问,基本上都有DB的访问在后面,动态访问的量和频度都非常之高,在这一类数据库应用的压力方面,阿里巴巴是行业里上规模的代表。去年,公司原有的老系统已经无法支持增长迅猛的新业务,因此公司投入巨资把所有硬件软件都更新升级到现在的系统之上。

  在互联网企业,数据库人才的重要性不亚于任何软硬件。据王涛介绍,阿里巴巴集中了互联网领域里面最优秀的数据库人才,包括不少顶级高手,在行业里面都很有影响,很多人才在开发数据库类的应用。在系统配置方面,现在用产品的是包含网格计算技术的甲骨文10g版本,硬件部分用的是IBM的小型机,装有很多的CPU,具备万亿次的计算能力。此外还使用一些“分库”的即时手段,几个数据库一起支持大容量的定发访问。在存储方面用的都是高档存储,对硬件的支持是业内最好的设备。在网络方面,建立了自己的自治域,在互联网上有自己的网络地址,购买了很多万兆的交换机。系统实行“双机热备”,如果一套系统当机的话,会自动切换到另外一套,分别有“近线”备份和远程的备份。

  对账仍需人工

  每天,阿里巴巴网站上的在线交易所产生的数据跟十几家银行都有实时地交换。一般情况下,数据共享都是由阿里巴巴的数据库和银行的数据库进行实时的结算,如果有数据不一致的情况发生,每天还要用人工的方法进行对账。同样银行那边也需要专职人员进行人工对账。这势必会牵涉到成本的问题,”双方本着对客户负责按照标准建立的这套体系,也无法顾及到成本。这块我们也不断地去开发更好的应用,最终希望把两者的差异性的机会缩小,使人工的成本降下来”。王涛说。

  阿里巴巴在去年和今年对于数据库的投入都非常大,在产品的选择上,王涛直言追求的是一个性价比。采购方面都是多家比较、测试、购买,过程非常严谨,厂商他们在很多方面给我们很大的支持,把我们看成一个合作伙伴。对于做数据整合的数据库产品,王涛说:“关键要看企业的规模和他的应用的复杂度。从我们的角度来说,选择甲骨文也好,还是IBM DB2也好,都能解决我们的问题,关键是性价比、速度、实施和服务。”目前来讲,因为阿里巴巴是一个成长很快的公司,要求技术人员对于开发工具能够很好的掌握,并很快地开发出新的应用。

  “我们的应用每年都在变,现在公司规模不是很大,却在不断地在扩大,数据库产品选择甲骨文是因为产品对技术人才的要求和所提供的综合平台的能力,跟我们比较match,能够配得上,公司小的时候可以用,再长大一些也可以用。现在熟悉DB2的人才不是很多,DB2都是很多大型企业在用。所以选择哪家关键是取决于我们的人对于哪个产品更熟悉,开发速度更快,对于阿里巴巴来说,技术永远都一个手段,不是追求。从硬件来讲,IBM是很好的选择。对我们来说,这样的组合比较适宜。”选择最适合自己的,不同的企业有不同的选择,王涛看重的是系统的可伸缩和灵活性。

  “更小的公司可能会选择微软的SQL Server,管理起来没有那么复杂,容易部署,对硬件要求也不高。上手容易,还有的企业会选择开源的产品,关键是自己的需求、发展的速度和应用的复杂度。”

          自力更生作分析

  2005年初,阿里巴巴成立了自己的数据分析部门。两年来承担了最重要的数据分析的工作。包括推广资源,外向联合,流量首页访问人数的统计,基于访问路径的客户行为分析,通过自力更生申请的专利技术做了起来,这种开发出来的应用已经在公司内部广泛应用,很好地支持公司的商业决策。下一步的计划是把两三年来的大量的客户行为作更深层次的数据整合,引进BI商业智能的模型,对用户行为进行细分,给用户提供更贴身的服务。在这方面主要是阿里巴巴自己开发,王涛解释说首先市场上的东西一方面比较昂贵,其次在内部实施的成本也比较高,学习的成本、咨询的成本都比较高,还牵涉到公司内部数据保密的问题。“我们有很好的技术队伍,所以这是一个明智的选择。”

  王涛认为:做好数据库主要是选择正确的平台,使选择的数据模型怎么能更好地优化这个系统,支撑大规模的应用。硬件、网络的支持也很重要,例如阿里巴巴在全国各地建立了Caching的机制,来应付大量的访问。主要是基于性能方面的考虑,一方面把访问分流,另一方面是前一个用户访问过的东西,后面的用户再访问的时候,如果是前者已经抓取过的部分,就不用再去数据库里面抓取,这样的动态的缓存技术比普通的缓存要复杂。这一方面,阿里巴巴建立了比较完善的体系。

  近年来,阿里巴巴集团旗下的淘宝网声势大振,每天都有大量在线竞拍。不管是B2B还是C2C,对数据库的要求都非同一般,淘宝上的实时竞价拍卖对于数据库的要求还要更高一些。王涛笑言:“你在淘宝上每搜一个宝贝,都要通过数据库去抓取。数据库是心脏,如果心脏不跳了,我们就完蛋了。”

  数据库市场 谁主沉浮

  今年的国内数据库市场依然热闹非凡,尽管圈地运动已经结束,市场份额的大调整至少还要5~10年,尽管主角仍然是IBM、甲骨文和微软,但为获得新市场份额所上演的情节和桥段从未落幕,就连开源数据库厂商也不再甘于寂寞。

  创新=竞争优势?

  从技术角度上来说,三大商业数据库厂商都有自己的杀手锏。今年,IBM力推层次型与关系型数据库结合的DB2 9.0,强调XML数据的“本地”存储,区别于其它领先的关系型数据库。除了降低成本,还可以保持XML数据的完整性以及优化索引和搜索性能,打出了非结构化数据管理的风向标。据说,DB2 9.0最大的技术突破是能够处理XML格式的信息,Viper 包含68项专利,它是由分布在全球8个国家的750 名开发人员历时5年开发的。除了在XML数据存储方面的改进外,DB2 9.0在压缩技术、安全性、自主性、分区技术等方面都有独到之处。

  美国工程院院士、IBM中国开发中心总经理郑妙勤女士表示:对原生XML文档的全面支持,是DB2 9.0诸多创新点中最闪亮的一个,它将开拓一个以XML应用为主导的新纪元。为了改善DB2一直高高在上的形象,在初夏的5月,IBM还独家赞助了“中国首届杰出数据库工程师评选”活动,使更多的技术人员能够得到IBM数据库产品的培训,比往日更显亲和力。

  DB2 9.0的新理念是否能在市场上彰显出与之相应的竞争优势,现在还要等一个推广的过程。但纵观国内的一些行业的数据整合,异构环境下的数据不对称不少还是由于标准或体制的一些因素。例如,同国外银行相比,尽管中国的银行用的设备都是世界上顶级的,在管理上、业务和服务上却存在相当的差距,这已不单是产品的问题。当前一些金融机构对于数据共享实行的方法主要还是做接口进行数据交互,再加上升级风险和成本考虑,要接受DB2 9.0似乎需要时间。

  恒安人寿的CIO林新观谈到异构环境下的数据整合时表示:“现阶段保险公司与其他机构数据交互主要是做接口通过不同方式进行数据交互,如给银行是通过文件交互,对保监会通过XML数据传输,目前尚无统一的标准。保险业的数据交换标准可能两年后出现。”其在选择厂商时主要考虑的内容及顺序依次是:满足业务需求;系统的稳定性;服务支持力度;产品的灵活性和易用性;开源性。

  在中国银行和电信等高利润的大型数据库应用的领域,IBM的全方位解决方案足以傲视群雄,无人能撼。其强大的研究资源和集中服务在行业用户心目中有不可替代的地位。但在政府行业用户和中小企业领域,甲骨文和微软的渗透力强,表现出色。甲骨文依傍的网格计算和开源支持,不但使其在高端关系型数据库市场上地位稳固,还吸引了相当一批对成本控制和系统伸缩性要求高的政府用户和中小企业。

  甲骨文认为:对于不断变化发展的政府和中小企业用户来说,购置可以支持未来两三年的产品可能会造成成本的浪费和增加,采用网络技术的随需随付,可以按照当前的需要进行配置,如果你的需求和资源发生变化,可以再另外往上增加建设。

  作为最先支持Linux的厂商,在Linux平台上的数据库80%是甲骨文的产品。无论对国内和国外都有全面的支持。甲骨文跟国内的红旗Linux成立的联合实验室和联合支持中心,让用户打任何一方的电话,都可以得到两个产品方的综合支持。

  网格、集群、对Linux的支持,甲骨文宣传这些应用的潜台词是可靠性和安全性。对政府用户来讲,除了技术的先进性外,更看重安全和可靠性。一个企业发生问题可能影响的范围只是一个企业,如果政府的数据发生问题,其影响可能是全国的。

  得陇望蜀的还有微软的SQL Server。尽管其产品Server 2005系列被业界人士评为无新意之作,但微软产品强大的集成能力、更低的总成本和灵活易用性已经帮他们取得了相当的市场份额。在中小企业市场局面的顺利打开,为微软进军高端企业市场增强了信心。

  微软公司 SQL Server战略与基础架构总经理David Campbell 表示:“依托微软对Windows Server System、Web服务以及对.NET的巨大投入,最终实现了服务器产品与开发工具之间的深度整合,并且与其它微软产品的密切协作,成就了微软在企业级特别是高端企业市场的独特优势与价值。”对于高端市场,微软的态度一直是“Ready to Rock”。

  开源 摇摆天平的砝码

  此外,今年不得不说的是开源数据库。8月底,开源数据库厂商My SQL与国内Linux平台厂商拓林思公司联合在北京成立研发中心,其中还包括了一个培训中心,做到培养和招收人才两不误。My SQL北京的研发中心参与全球产品的一部分开发任务,另外还负责把中国客户的声音反馈给总部。据10月来京访问的My SQL公司的副总裁Larry称,“My SQL在中国的网站下载量是全球第二,仅次于美国”。

  现在My SQL北京研发中心主要针对互联网企业客户,由于互联网企业技术人才多、要求低成本等特点,对开源数据库产品很是适宜。此外,一些大集团的分支机构在具体业务的数据库选择上,也会运用到开源产品。据北京研发中心的高级市场经理蒋顺利介绍,最近研发中心刚签了西门子的一个大单。其实作为电信运营上做集成的厂商也有不少青睐开源产品的。

  毕竟15分钟的安装速度、开放代码的安全性免费的产品提供、可剪裁的功能和强大的网络社区的服务,是非常具有诱惑力的组合。即使你还有这样那样的顾虑,但是,让我们看看来自Gartner / IDC研究的重要发现:

  到2008年,将有70%以上的IT组织使用开源数据库;

  到2008年,MySQL将会成为关键应用的重要选择;

  被调查的56%的公司计划把Linux作为一个数据库管理系统平台;

  Linux将在3年内超过Unix成为主要的数据库管理系统平台,即使是对于最苛刻的数据库应用;

  被调查公司中的40%计划用开源取代私有数据库管理系统;

  49%的回答这种已经在使用MySQL,17%计划使用它Gartner把MySQL称作开源市场内最强大的新生力量,去年秋季发布的MySQL 5.0使用的快速增长,也暗示着全球对开源数据库技术的强烈兴趣。

  眼下,看开源数据库正试图逐渐摇摆起商业数据库的天平,对于广大的国内用户来说,这至少是一个可选择项,甚至是用来与厂商讨价还价的筹码。国内的软件从业者倾向于开源还因为其无国界的说法,设想是否可以有国产开源数据库诞生的契机,但采访中我们并没有得到肯定的答复。其实东软、人大金仓、武汉达蒙都推出过国产的商业数据库,只是还处于发展的初级阶段。而在另一面,顶级的商业数据库厂商在不断地买进新的产品线,合纵连横,面对越来越热闹的数据库市场,作为用户越来越精明,对于挖掘自身信息资源价值最大化之道也越来越明了。