“沉睡信息”如何唤醒
来源:光明日报 更新时间:2008-03-11


  日前,“信息唤醒”座谈会在北京上地汉王大厦召开。来自汉王科技、媒体、部队的代表共同讨论了在信息时代应当如何利用社会先进技术、采用新产品推动信息化建设等问题。汉王科技董事长刘迎建指出:“目前仍有很多‘沉睡信息’亟待唤醒。信息沉睡在政府、教育等部门表现最明显,大多数政策法规、国家标准、教学课件、医疗案例等,往往是以‘本’的形式出现,还没有被充分电子化利用。”

  长期以来,政府机构日常工作中的公文、材料、档案、年鉴、报告等诸多文件,还要靠大量的纸张传递、交流和存档管理。政府大量的资料中存在公章、表格、文字、图片混排版式,尤其是公章上有签名和年月日期等,用传统的扫描方式进行文档的电子化,不能够自由修改和编辑。用市场上的OCR产品,又不能把公章和文字剥离,在识别过程中会出现乱码。

  最近,汉王科技推出一款针对政务办公资料电子化的专用产品——公务助理。公务助理采用汉王OCR核心识别技术“多字体大字符集汉字、表格识别方法与系统”,不但拥有强大的公章智能提取技术(IE),还拥有一键OK、公文处理、版面分析还原、表格识别等识别技术,将大大提升我国公务电子化效率。

  从全球来看,将海量档案与文件信息电子化最有效的办法就是利用OCR技术,通过采用OCR技术对文字进行扫描识别,然后在计算机上形成电子文档,从而替代人工键入汉字和表格的工作。我国在OCR技术方面的研究工作起步较晚,自上世纪70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别研究。由于OCR技术的重要性,国家“863计划”对OCR技术研究给予很大关注和资助,汉王OCR是“863”计划重点支持项目之一。