多学科交叉难题阻碍少数民族文字数字化进程
少数民族文字信息化研究面临重重挑战
记者 张军妮
随着信息时代的来临,数字化信息技术不断被应用到社会发展的各个方面,作为少数民族文化载体的少数民族文字也不例外,其信息化进程日渐驶上了“快车道”。
“跨文种理解”取得阶段性成果
我国是多民族国家,约有80余种语言及50余种文字,少数民族语言文字信息技术虽然起步不晚,但是与汉语信息化程度相比尚存在一定的差距。在我国,有不少从事少数民族文字信息化研究的团队,由清华大学电子工程系教授丁晓青带领的团队就是其中的一支。目前,由这个团队承担的国家自然科学基金重点项目“多民族文字识别及理解的理论与方法研究”已经取得了中期进展。这个项目由清华大学、西北民族大学、新疆大学和内蒙古大学四校合作,重点研究蒙古文、藏文、维吾尔文印刷与手写文本图像识别理论方法及跨文种识别理解关键技术,并计划于2014年12月结项。
在接受本报记者采访时,丁晓青表示,已经推出的“蒙藏维哈柯朝主要民族文字汉英混排文档综合识别跨文种理解系统”仅仅是一个开始,识别技术只是少数民族文字信息化的第一步。同时,在该项目中,他们还对原有的算法做了改进。早先的研究是将文字切分完再做识别,但往往容易造成粘连现象,使文字难以准确切分;这次他们尝试做无切分的识别,希望对识别结果有所改进。
此外,该团队在跨文种文字理解工作上也在进行新的尝试。“将少数民族文字经过识别,变成计算机可阅读的文档,再通过机器跨文种理解等智能信息手段,实现文字‘查字典’的功能,最终达到汉字文档同少数民族文字文档的自由转换。到那时,只要我们输入关键词或敏感词,就可以搜到少数民族文字对应的相关文档。目前,我们已经有一些研究取得了阶段性成果,此后取得的重要进展我们会通过媒体向社会推广应用,并希望以此能够促进民族文化间的无障碍交流。”当向记者描述该项目未来蓝图时,年过七旬的丁老师眼中闪烁着希望的光芒。
文字信息化研究面临更多学科交叉问题
近些年,我国少数民族语言文字信息化研究虽然已初具规模,但仍面临重重挑战。对此,新疆大学教授吾守尔·斯拉木表示,少数民族文字信息化处理仍处于非常初级、分散、不规范的状态。当前存在的多语种信息服务的标准不统一、发展不均衡及资源无法共享等问题,阻碍了少数民族文字信息处理技术向更高水平发展,导致国家人力、财力的重复投入,造成了许多不必要的浪费。
因为文字信息化研究涉及自然科学、社会科学的诸多分支学科,所以其研究要比传统课题研究面临更多的交叉问题。清华大学电子工程系副研究员彭良瑞以文字识别中的数据资源扫描工作为例表示,因为需要将少数民族文字同汉字对照,而扫描人员往往又缺乏相应的专业知识,因此,很多时候扫描的图像质量不符合要求,给后期的研究造成了极大不便。
由于各民族文字历史渊源、构字法、书写习惯及语法等差异很大,这些差异同时也给少数民族文字信息化研究带来了困难。以藏文为例,有学者表示,现代藏文中音节之间的分割符存在省略现象,从而形成紧缩词;而这些不同作用的紧缩词在藏文文本中出现的概率较高,约30%左右。因此,对这些词的识别给藏文分词工作加大了困难。对此,内蒙古大学蒙古学学院教授那顺乌日图认为,目前我们的少数民族文字信息化尚在文字处理层面徘徊,应该多从语言深层探究语义的处理问题。
开发拥有自主知识产权的产品形势紧迫
少数民族语言文字及其所承载的内涵是中华民族文化的重要组成部分。研究少数民族语言文字信息化理论、开发少数民族文字资源与信息处理技术,不仅仅是自然语言处理领域急需研究的课题,而且是关系各民族共同繁荣发展的重要社会问题。
在采访中,记者了解到,近几年,西方的一些组织、企业相继开发了一些具有中国文字功能的系统软件;同时,也有一些国家“过分”关注中国少数民族文字,企望达到其不可告人的目的。专家建言,我们要重视国内少数民族文字信息化市场,开发拥有自主知识产权的产品形势紧迫。
丁晓青表示,民族问题是大问题,保持各民族团结稳定的关键是要加强沟通。因此,我们要认识到多民族文字识别与理解的意义,通过文档图像的检索,进一步推进“机器翻译”等项目研究,使民族文字语言间实现便捷沟通。发展少数民族文字信息化,对维护民族地区的信息安全、推动少数民族文化创新、维护国家统一和民族团结具有重要价值和意义。