任何事物,不怕小,就怕没有势。雷军说:“站对了风口,母猪都能飞上天。”阿里网商银行去IOE成功了,传统银行业是否也能去?在去IOE的风口上,大数据能否成为趋势?国产数据库又能否借势飞起来呢?可能在很多人眼里,大数据还是一个谜,多大的数据才算得上是大数据?它到底是备受追捧的新贵还是本身就存在于自然界里的幽灵?大数据的到来,是否意味着曾经领衔主角的关系型数据库要退居幕后?我们又如何从海洋般的大数据里挖出金子?带着这一串串疑惑,本期IT名人堂我有幸采访到了武汉达梦数据库有限公司董事长冯裕才先生。
正所谓老当益壮,宁移白首之心;穷且益坚,不坠青云之志。这也许是我第一次见到冯总的感慨吧!这位年纪七旬的董事长为我们续写了国产数据库的传奇故事。三十多年来,是他带领着达梦人筚路蓝缕,勇往直前,将国产数据库推向了世界的舞台。而在今年,达梦的志向也更为远大,它的转型触角直指大数据平台,世界的舞台也将揭开新的一幕。
在海量的数据中,非结构化数据占85%,半结构化数据占比10%,结构化数据占5%,如果把结构化数据比喻成素描,它负责勾勒轮廓和重要特征,那么半结构化、非结构化数据就好比水彩,起到丰富细节和内容的作用。在大数据时代的挑战下,作为国产数据库的领头羊,达梦的大数据平台利器开始浮出水面了。
皮皮(Q1):冯总,今天非常荣幸有机会能采访到您。为什么呢?有两个主要原因,第一,世界上没有几家公司有实力做大型商业数据库,而你们却做出来了,这一点让我们国人觉得无比自豪;第二,您虽然今年70岁了,却仍然奋斗在第一线,非常难能可贵,让我们年轻人觉得无比尊敬;这一点跟甲骨文的老板Larry Ellison很像,他也年过七询。冯总,和我们IT168网友打声招呼吧。
冯裕才(A1):非常感谢IT 168,很高兴有机会参加这次的采访。我现任华中科技大学计算机学院数据库与多媒体技术研究所所长、教授、博士生导师,武汉达梦数据库有限公司董事长。有人说我是教授,也有人说我是商人,我觉得定位都不准确,我认为我是一位坚持30多年,专注于研发达梦数据库产品、做自主可控国产基础软件的“追梦者”,是一位痛并快乐着的“创业者”,也是数据库中国梦的“坚守者”。
皮皮(Q2):其实我也注意到,您早年的学的也不是计算机专业,但是您在80年代的时候就开始做数据库这个行业了,当时是否出于自己的兴趣所在?
冯裕才(A2):确实如此,早些年我不是学计算机的,本科阶段我是学发动机的。当时从国防科大调到华中来,觉得计算机的软件行业很有前景,特别是在接触操作系统以后,越发觉得计算机的应用需求量会越来越大。记得当时,自己确实也有些兴趣,当然也有一些偶然的因素,这要从我的一段经历说起。我在华中科技大学担任讲师阶段,曾经到武钢参加技术学习。当时武钢热轧车间花费巨资,从日本引进了一套无人职守的轧钢系统。日本人特别在意技术的保密性,为了防止技术泄密,在整个系统的安装与调试过程中,对现场出现的所有技术问题,哪怕是没有任何技术含量的焊接,日本人也从不当着中国人的面解决。在完成设备的调试安装后后,日本人当场就销毁了技术资料,这些技术文字资料是堆起来有足足三卡车那么多。当时这件事情深深地刺痛了在场的每一个中国人的自尊心,也使我意识到:不掌握核心技术,将永远受制于人。上世纪70年代末80年代初,我接触到了数据库管理系统,当时美国的数据库管理系统已经商用了,而中国的软件行业却几乎一穷二白,所以我那时就暗自下决心,要研究数据库技术,做一个属于咱们国家自己的数据库,不再受制于人。
1986年元旦前夕,我的数据库项目获得了3万元的研究经费,这在学校成了‘放卫星式’的新闻。从80年代初,经过有七八年的苦心钻研,我们在1988年,终于用Pascal语言开发出了自己的数据库,比当时国际上流行的DBASE产品还要好用,引起了业界的轰动。
皮皮(Q3):提到达梦这个名字,感觉非常有寓意,因为达梦顾名思义就是达到梦想的意思,这是不是意味着达梦数据库可能会接近甲骨文的高度了,或者说有一天甚至会超过Oracle呢?如果真的有这么一天到来了,会不会棋逢对手,您会对甲骨文的老板说些什么呢?
冯裕才(A3):说起达梦,其实是采用了咱们名字的英文缩写词,。90年代IBM有数据库DB2,我们希望也有自己的数据库Database,所以第一个词是D;另外,达梦数据库是于2000年11月成立的,它的前身是华中科技大学数据库与多媒体研究所,我们突出多媒体Mutimedia,所以整合起来是DM,汉语英译过来取名为达梦,也正好寓意我们有一个中国梦的意思,我们要自主研发国产数据库。
到了2012年,我参观Oracle的总部,他们在商业技术应用领域确实值得我们学习。时至今日,他们通过长期的努力,把不成熟的产品做得越来越好。但是,无论从体系结构上,还是在国际标准等综合因素上,他们数据库所具有的功能我们达梦也都有。我们需要关注的是,中国人对数据库产品有自己的使用需求,这和美国情况不太一样,而达梦是把更多的焦点放在国内用户单位的根本需求上,不会一味地模仿他人。从国产化替代角度来看,我们在兼容性方面下了很大功夫,目前在国产数据库市场上,我们产品的兼容性是相当高了,完全可以实现逐步替换Oracle。若回到刚才的问题上,达梦将来能不能超越甲骨文?首先,在中国市场上,我们的产品在国产数据库领域已经占有相当市场份额;其次,我们已经走出国门,产品在东南亚、非洲这些国家也有一席之地。我们相信,迟早会有一天,达梦产品会卖到美国去,这一定是可能实现的。因为目前在中国,达梦数据库与Oracle在很多领域同台竞争,比如国家电网、南方电网等,我们在不断优化产品的功能、性能、服务、性价比等关键因素,就是要在我们中国的市场上超越它,然后再与Oracle去竞争国际市场,当然我希望有一天,能够在国际市场上双方打个平手,要实现这个梦想,我们还有很漫长的路要走。
皮皮(Q4):我们也期待这一天的到来,刚才我们提到了,中国做数据库的厂商并不多,做的好更是微乎其微了,一方面可能是因为数据库技术的本身就很复杂了,可能很多人会觉得做SQL的增删改查不难,但要实现事务的ACID四个特性(原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability))就没那么容易了,想要做到数百万数据高并发访问量,那就更难了。做基于数据库的大数据平台,数据挖掘,那又是难上加难……我想知道的是,达梦能够做到国产数据库里的翘楚位置,有木有一些做数据库的独门秘籍,请冯总跟我们大家分享一下。
冯裕才(A4):我觉得秘籍倒没有什么,其实我觉得一个企业跟一个人一样,第一个要确定目标;第二,你要有一种达到目标的坚持性,达梦的诀窍就在于坚持性,另外我们也面临社会上的很多诱惑,比如说很多人习惯在现成的系统上进行改装,我们坚决坚持原创,开发具有中国知识产权的数据库,这就是我们的原则。所以你要说达梦的秘籍是什么?其实就是选定了目标,坚持不懈为目标而奋斗。
皮皮(Q5):那我们知道,衡量一个数据库好不好,可能从用户的角度来讲会有很多种指标了,比如每秒钟事务的吞吐量等等。达梦数据库有哪些指标是甲骨文这些厂商所不具备的优势,比如价格上是不是更便宜?
冯裕才(A5):我觉得用户在面临数据库产品选型的时候,价格只是一方面,不是最关键的因素。如果说你这个产品的品质不好,价格再便宜也没人买。我认为,一个产品用户是否买单,首先是考虑这个产品是否能够满足用户的需求,所以产品的功能、性能是重要的指标,在使用过程中的客户服务也是一个指标。总体来讲,达梦在这几个方面同国外产品相比还是很有优势的。
再值得一提的是,我们和军方合作了26年,有什么秘诀吗?一个宗旨是安全,在一个系统里面,每一个固件是安全的,系统也不一定安全,可能有安全的操作系统、安全的数据库、安全的中间件、安全的应用软件,系统也未必安全。固件的安全是系统安全的必要条件,但不是充分条件。
一直以来,我们想做一款安全的国产数据库产品,我们实现了这个目标,从国际标准的安全级别的来看,分了7级,像Oracle在中国市场上他的安全级别是C2级,我们现在相当于是B2级。从中国的安全级别来看,标准是5,我们现在排到了3级和4级,而甲骨文处在2级,所以从安全性的角度来看,他们没法跟我们比。当然,这也是政治因素的考虑,他们高安全版本的数据库是不卖给中国的。其次,我还想多谈一点的是,我们会针对某些行业、针对某些用户的特定需求,来做定制化接口功能的扩展。但甲骨文公司的业务线拉得比较大,能赚钱的业务太多了, 他们花功夫做定制化功能是不合算的,同时服务费用也很高,相比之下,我们达梦的服务不仅可以提供本地化服务,其费用相当于他的零头了,服务及性价比这一块他跟我们没法比,这也是为什么很多国内厂商更愿意和我们,而不是找Oracle。刚才讲的一个是安全性、第二个定制化、第三个服务、第四个才是价格,我们价格相对来说很便宜,是Oracle的一半都不到,综合这四个方面的优势,我们在很多行业里取得了不错的业绩。
皮皮(Q6):刚才也谈到了安全性,我们很多人可能也说现在是一个后IOE时代了,比如说阿里领先的去IOE时代可能在前两年就已经做得风声水起了,对于很多企业来说,去IOE是不是真的说去就能去呢?
冯裕才(A6):对很多企业来讲,去IOE不是一夜之间就能完成的,它需要有一个过程,所以在这个过程中,IOE系统与去IOE系统会出现共存的局面。达梦针对这样一个需求,开发了一款具有自主知识产权的同步软件DMHS,DMHS能让IOE的国外系统和自主可控的国产系统并行地运行,这样一来,它们的数据是完全一样的,通过并行运行一段时间以后,用户可以观察实际的效果,对比IOE系统和去IOE系统的运行参数,灵活选择合适的时机,逐步地把IOE系统给去掉。
皮皮(Q7):所以说去IOE是一个两手抓,循序渐进的双保险过程。
冯裕才(A7):对,比如说像银行系统,是不可能马上卸掉原有的IOE系统的。其实你不需要卸掉,让两套系统处理同样的事情,你可以观察两个系统它各个方面的性能指标,一直到最后您满意放心了,就可以选择直接卸掉原有的IOE系统,所以我们这款产品在中国市场非常受欢迎,像金融系统、证券系统都是采取这种去IOE的方式。
皮皮(Q8):从这个角度来看,确实能够帮助客户解决了后顾之忧。我们知道,面对类似于12306、淘宝双十一、京东618这样的高并发访问,厂商一般会采取缓存和数据库集群的方式来应对。比如甲骨文对应的集群方案叫RAC,它是多个数据库服务器共享数据库的解决方案。那么,在面对高并发访问量时,达梦数据库是否采用类似的机制呢?它有哪些突破点?
冯裕才(A8):我们不会简单地去模仿甲骨文的做法,也不会去复制相应的技术。为了解决客户类似的问题,我们也有自己的集群。比如说达梦大规模并行集群MPP,MPP 集群可以用来解决大数据量存储容量、IO 瓶颈、查询分析瓶颈、可扩展性等问题,能为 OLAP 应用提供良好支持。再比如,我们自主可控的数据实时同步软件DMHS,它堪称为大数据的保险箱,能够有效提升大数据的效能。还有我们解决了国产芯片目前不能支持用户的多项分离技术,我们的读写分离集群DMRWC适用于网站、办公系统等读多写少的系统,通过扩展备机数量,提升系统并发能力。
值得一提的是,我们也有专门的技术,针对不同的应用需求来采取不同的应对方式。你刚才问到12306以及像京东618,实际上,这些电子商务网站在面对高并发访问负载的时候,用到了一个核心的思想,那就是分而治之,换句话说,我们用集群来分散用户的访问量,避免出现用户过于集中访问的局面。这里的集群技术就是采用了分而治之的办法,采用多个平台、多种方式来避免出现大量用户扎堆在一个独门桥上,这样一来问题就能化解了,比如说春节期间12306用到了多个集群,把负载压力分散到各个地区上,所以总体来讲,我们采用的分类的思想大概有四五种集群方式,可以解决目前所面临的这些问题。
皮皮(Q9):确实像您所说的,达梦推出的集群利器更具多样化,有应对大数据并行计算分析的集群,也有并行实时同步的软件,还有读写分离集群,来确保主机和备机数据实时一致,通过扩展备机数量从而提升系统的并发能力。那目前,随着传统行业逐步进入大数据时代,电商化、社交化、智能化,数据挖掘的需求就日益突出,相应衍生出了很多大数据平台,有些人可能会想到基于Hadoop的大数据处理平台,那么达梦的大数据平台与Hadoop大数据平台有哪些区别?它有哪些新的价值与创新?
冯裕才(A9):我认为大数据与其说是平台,还不如说是平台化解决方案,前面我也说了,不同的大数据场景可能要用不同解决方案。达梦的大数据平台在数据存储、数据交换、数据管理、数据分析、数据展现等方面根据不同业务需求都有针对性的的解决方案,可以为传统业务应用、资源交换共享、大数据分析等提供统一的服务和支撑。例如我们的平台可以实现对非结构化数据与结构化数据的融合管理;我们的数据交换可以实现对结构化数据、非结构化数据的抽取和相互转换;针对大数据实时查询比对等业务场景我们有基于Spark的分布式内存计算框架;我们的数据分析、展现除了支持传统的关系数据库,也支持非结构化数据库、内存计算框架等。因此达梦的大数据平台服务,是一个平台化的解决方案,我们针对不同的大数据场景都有针对性解决方案。
皮皮(Q10):大数据来了,有些人可能会疑惑,很多传统的关系型数据库的厂商是否会改行?还有的人可能认为大数据来了,在技术方面是否会面临着一场革命?
冯裕才(A10):大数据确实给传统数据库厂商带来挑战,但传统数据库在大数据时代依然有其细分领域和应用场景,但我们也看到优秀的传统关系数据库厂商已经开始引入非结构化数据库、分布式内存计算、数据融合中间件等丰富自己的产品线,顺应大数据的技术趋势。另外,大数据的来源并非在今天才产生,尽管现在的信息量剧增,但是大数据本身就存在于大自然。作为大自然的一个对象,比如人,我们早期的人事管理,用的是关系型数据库来解决和管理,换到现在需求变了,可能存储的信息也变了,比如人的照片、声音、视频等数据,需要非关系型数据库来存储。但我们必须承认,人的基本属性比如姓名、年龄等信息还是不能丢。所以关系型数据库和非关系型数据库应该是共存的局面。
皮皮(Q11):我们知道数据库的软件和市场主流的服务器、软硬件,以及网络之间如何做到这种深度的融合是一个难点,当然也是一个最大的关键点,如果说数据库的这个软件与其他的第三方的厂商达不到这种良好的适配的话,就会导致这个数据库的整体性能下降,稳定性也大大降低了,达梦的大数据平台是以达梦自主研发的数据库产品为核心,它与第三方的软硬件产品的适配如何呢?
冯裕才(A11):我觉得这个问题应该分两个层面,第一个就是作为我们的核心产品达梦数据库与操作系统、硬件设备的优化,目前达梦在和国内的服务器、操作系统厂家联合做达梦的数据库一体机,我们通过一体机实现数据与操作系统、硬件的最佳适配,大幅度的提升数据库的性能。其实国外的数据库厂家也在做同样的事情,例如oracle的一体机。
另一个就是针对大数据平台的软硬件兼容与适配优化,目前这个工作主要是由系统集成商来做,但从技术角度来讲,一般的系统集成商的技术水平无法解决这个问题。因此,我们达梦公司在武汉总部建立大数据平台基地,涵盖硬件、操作系统、数据库、中间件、GIS、全文检索等共性软件,联合各软硬件厂商,建立大数据平台联盟,将各类软硬件集中起来,进行适配、优化和深度融合,现在已经建立有一支专业队伍专门研究平台优化融合工作,相比其他家大数据平台公司,我们更关注用户的大数据平台是否能够真正稳定、安全、高效的运行。在项目实践中,我们的服务使客户的系统整体处理性能有了显著提高,例如,我们采用mpp与实时同步工具使原来运行在rac集群上的数据查询性能至少提高10倍以上(数据量为1.6T);采用达梦的解决方案使得原来运行在hive上的大表的数据碰撞比对性能提高近100倍。
皮皮(Q12):您刚才也提到了达梦大数据平台有很多很成功的案例,具体到对于我们的用户来讲的话,达梦大数据平台到底能给我们带来哪些价值呢?它在海量的数据处理与分析方面有哪些应用场景呢?比如说在安全性、兼容性还有可扩展性方面有哪些优势呢?
冯裕才(A12):达梦在公安、国土、消防、政法、电子政务等领域有很多大数据平台的实施经验。我以湖北公安云项目为例,来简单介绍下我们是如何在大数据处理与分析方面给客户带来价值。
湖北省公安云项目是一个比较典型大数据平台项目,现在已经实现了公安横向、纵向及与外部委办局的动态数据交换与共享,实现了对公安结构化数据、非结构化数据的融合管理,针对公安的套牌车实时查询等应用场景我们引入了并行内存计算框架,来实现数据的快速比对与查询;针对公安大表比对碰撞需求,我们开发了支持结构化数据库与非结构化数据库的开放式情报分析平台,能动态组合各类情报信息,在处理过程中,组合、筛选、合并各类异构数据资源,按照情报分析人员的业务需要,对各类数据进行探索式动态分析。从目前各省的公安云的建设情况来讲,湖北公安云在数据源整合、数据应用等方面在全国领先,这个和平台的通用性、兼容性、时效性是分不开的。
总体来讲,达梦公司既 不是应用开发商,更不是系统集成商,也不仅仅是数据库产品提供商,而是一个集大数据平台咨询、规划与技术服务的PAAS平台提供者。我们的大数据平台是基于数据平台层的,可为底层的基础设施层提供支撑,同时对来为上面应用层,也能提供统一的数据服务标准,使各类用户都可以在这个平台上申请他们所需要的服务,比如专业人员、领导层和系统管理员,这三类用户我们都可以提供数据服务,这就是区别于其他一些平台不同点。未来,我们的系统平台还会扩展至移动端,为更多用户带来价值。