熊 炜 周 玮
时代瀚堂数据库解决了古文字的计算机输入难题
他一个人制造出了“原子弹”
你能想象,在互联网上自由使用《说文解字》、《康熙字典》中的古汉字么?许多古汉字尤其是生僻字虽可以用五笔字形等输入法初步实现输入,但由于缺乏可操作的管理系统,在互联网上使用仍然艰难,这对于承载着厚重文化传统的汉字而言,无疑是一种潜伏的危机。
2003年,王宏源从加拿大滑铁卢大学归国创立北京时代瀚堂科技有限公司,并在两年后正式推出了含有四字节字符文本的全文检索方法。它实现了大量的生僻字、古字在通用计算机上的数字化管理。“这项发明对国家来说无异于原子弹,而这本应由国家来完成。”北京师范大学中文系教授、汉字与中文信息处理研究所所长王宁赞叹道。
时代瀚堂的检索系统就像一个古籍文献的电子图书馆,将《说文解字》、《康熙字典》、《佩文韵府》等多种古汉字典籍一网打尽。目前已经建成或正在建设的数据库包括“字书类数据库”、“殷周金文库”、中国简帛库”、“甲骨文库”等,这些内容都是因为在此之前四字节处理技术瓶颈未被突破,而无法在计算机平台上实现数字化。从而告别了拼造、扫描、贴图等解决生僻字输入问题的土办法,为古籍的数字化、电子化提供了彻底的解决方案,也为中华五千年文明的的传承和复兴打下了良好的技术基础。目前时代瀚堂已是全球唯一一家能够提供此方案的公司。
现在,学者们通过瀚堂检索系统,鼠标一点就能很轻松地查阅各种文献资料,为他们进行学术研究提供了便利。当然,这项技术的应用范围不只是学术领域。现在民航、金融、户籍管理以及公检系统,都陷入很多人名地名无法用电脑输入输出的困境,如果这项技术广泛运用开来,很多麻烦也将迎刃而解。
“如果把所有文字比作一座金字塔,这些生僻字、古汉字只相当于塔尖那一点点,但是,它是人类知识库的高端部分,占领了这一领域,就不可替代。”王宏源说道。
叫好无奈不叫座
王宏源的数据库刚一推出,就好评如潮,人民日报、中新社、新浪网纷纷进行了相关报道,社会反响也相当不错。但数据库在市场上的反映却英雄气短,不容乐观。
公司目前的客户主要是大专院校和各大图书馆,收入则基本来源于数据库使用付费,而目前该数据库的付费用户不过20余家,其余接近100个用户全部处于试用期,国外很多设有中文系或者汉学研究所的大学也还处在试用阶段。王宏源无奈地表示,试用是业内不成文的规定,但半年的试用期有些用户已经延长到了两年甚至三年。数据库在有些大学试用时,流量经常居高不下,深受师生欢迎,但就是费用一拖再拖,公司现在也狠不下心终止他们的使用权。而相比许多国外数据库动辄数十甚至数百万的费用,公司数据库一年8万元人民币的收费实在称得上是寒酸。一项产品是否成功要由市场来说话。王宏源意识到了产品的对象市场太小。他估计:“其实我们产品最终消费用户充其量就300来个。”而对他的数据库给予极高评价的王宁教授也表示,全国范围内对这个数据库关注的人群不会超过100万。此外,公司目前正在创业初期,每个月都要投入20万到30万元,数据库每年赚到的不到200万元,只是杯水车薪,巨大的开销让王宏源备感压力。
王宏源和他的数据库,在高高的金字塔尖感受到了阵阵寒意。
产品普及还需时日
尽管公司面临种种困难,但王宏源乐观地表示:目前是创业初期,还处于投入阶段。只要拥有这个举世独家的核心技术,他对公司以后的前景还是相当看好。但无可否认,产品定位太过高端,阳春白雪、曲高和寡的惨淡局面,依然让王宏源倍感尴尬。时代瀚堂检索系统是公司的拳头产品和招牌,自然要继续坚守。但要避免高处不胜寒的窘境,走出遍地荆棘,势必要开始产品大众化、普及化的进程,实现公司盈利渠道的多元化。
王宏源表示:公司现在和社会科学文献出版社建立了良好的合作关系,出版了一些反响不错的古籍,引起了业内人士一致称道。他们还推出了古籍光盘产品的个人典藏版,个人用户购买花费并不多,从而弥补了数据库只面向机构客户的不足。
王宏源还打算进入小学语文课件市场,实现课堂上生字教学手段的电算化,此外制作动画片也纳入了王宏源的日程,他们计划拍出一部大型动画片,内容就是古文字的历史演变,并打算早日实现在各大电视台播放。
尽管这些设想离变成现实还有很长一段路程要走,能否最终创造效益也还是疑问。但王宏源的古文字数据库还是艰难地迈出了走下神坛,扩大市场的第一步。毫无疑问,这个对中国文化传承具有里程碑意义的发明,已经无需用市场表现来证明它的价值。但王宏源肯定还会在市场化过程中遭遇更多挑战,他和他的数据库的命运,到底会如何呢?