档案管理进入信息化快车道
来源:经济日报 更新时间:2012-04-15

 

    长期以来,资料室、图书馆中的档案、文件绝大部分以纸质形态沉睡,不能被及时传播和利用。要解决这些问题,首先要实现纸质文件的电脑识别,通过高科技设备来完成录入工作,将海量档案与文件快速电子化。

    目前最有效的办法就是采用OCR技术,对文字和字符进行扫描识别,进而转化为计算机内码,以可编辑的电子文档格式表现出来。汉王科技公司是我国在OCR技术方面的领导者,自1985年就开始从事OCR技术的研究工作,就受到国家863计划、国家自然科学基金委员会的重点支持。多年来,汉王科技一直致力于为政府办公信息化提供解决之道,而资料电子化是政府现代信息化建设的典型代表。

    汉王OCR针对档案信息化专门研发的中文快速录入工具———公务助理文本王,实现了资料、文献的一键录入,文档可以输出到指定的Word、Excel等电子格式,识别率高达99.8%,这样的识别率远远超过人工录入的错误率。

    要解决资料的保存、查找、利用,仅仅解决字的识别是不够的,能否识别表格也是个问题。表格的重要特征是除了文字以外还有表格线,特别是斜线、断线,同时表格在文档中所处的位置不同,表格里的内容有可能是汉字,也有可能是数字、字母等,这都增加计算机判别的难度。汉王公务助理成功地克服了这些困难,对表格的识别率达到了99%以上,在全球OCR领域中屈指可数。 

    在处理档案中,由于很多资料极其珍贵,造成它的使用性受到限制。就是普通的阅读,也会对这些珍贵的资料造成大量的伤害,由于每翻阅一次,这些珍贵的资料寿命就会减少60年。因此很多资料只能藏在博物馆、图书馆中。只能保存,不能让使用者随便利用,形成“用”与“藏”的矛盾。所以,同步解决珍贵资料的文献价值和文物价值是非常重要的,公务助理通过版面分析和版面还原技术,可对这些资料进行数字化加工和再造,对这些资料进行原版面复制,让资料在纸上什么样,电脑里就什么样,彻底地解决了“用”与“藏”的难题。

    汉王公务助理的出现,解决了资料中的各种带有公章、图章文件电子化难题,用公务助理智能提取技术,可轻松把资料中的文字和图章自动剥离,形成独立的文字和图片。同时,公务助理还捆绑强大的屏幕识别功能,还可将对珍贵的资料用数码相机拍照,然后导入电脑中,自动识别成可编辑、可查询、摘抄的Word文件。因此,就是再多的资料也可以很快被输入到电脑,传送到网络中。

    作为我国OCR研究开发队伍中的导航人,汉王科技的刘昌平博士认为,汉王文本王公务助理目前应用的版面分析、字符识别、表格识别、版面还原等技术,每一项都是在几十年研究积累的基础上实现的,正是因为这样强大的技术保障,才能对信息化的建设取得立竿见影的效果。