方正锐思--文字识别软件
来源:中国电子政务网 更新时间:2008-03-11

将字符实现电子化一般采用两种方式:人工键入和自动输入。由于人工键入的速度慢,劳动强度大,满足不了当今文档管理、图书情报管理等行业对于处理大量文字资料实现电子化的需求,从而易造成文档资料的积压。为了适应市场需求,北大方正技术研究院推出有完全自主知识产权的方正锐思文字识别软件,有效的解决和满足了当今不同行业对于海量信息资料从传统保存方式向电子保存方式的转变。方正锐思文字识别软件凭借北大方正技术研究院在OCR领域的研究经验与技术实力,采用多项专利技术,实现了海量纸质文件的快速录入。方正锐思不仅能够实现基本文字字符的电子化,而且强化了可识别的字体范围,增强了对字体变体的适应性,提高了对粗体字、粘连字符、模糊样张的识别率。另外,方正锐思能够准确识别粘连在一起的字符,这对于识别年代久远的铅印样张尤为重要。该产品目前可广泛运用于媒体、数字图书馆、档案资料馆、政府机关等行业,实现了海量文字、图表、图像等形式的自动录入。

 

应用目标

方正锐思凭借北大方正技术研究院扎实的技术实力和自主的专利技术,较高的文字识别率,不仅能够有效的实现传统的OCR功能特点,而且针对不同的行业需求,推出银行票据识别、增值税发票识别、档案识别、工商报表识别、表格自动录入等应用领域的OCR软件产品。

方正锐思按照应用对象的不同,分为通用版、档案版、公文版和CEB专业版四种版本,可以根据需要定制版本。

另外,方正锐思还可以向其他应用系统提供通用版、档案公文版以及具备票据识别等多种类型的开发包,并可以根据具体的需要定制开发包。

应用模型

Ø         扫描:方正锐思自带扫描程序,可以直接设置扫描参数及扫描样张,扫描后可将文件自动保存到预定的目标中。

Ø         图像处理:方正锐思可自动完成图像的“去污点”处理,而无需用户干涉。“去污”只需在系统的内部进行,不会修改用户原图,可以保留用户资料的原貌。

Ø         版面分析:方正锐思可以自动进行版面理解并进行定位,能够准确划分划框区、文本区、表格区、图像区,并且可用线框对各区域进行标识。同时,方正锐思对版面分析的功能也可由用户手动完成,用户可对系统的分析结果加以修改。

Ø         识别 方正锐思可以识别印刷简体中文、表格、中英文混排等形式,能自动根据上下文进行多候选字的挑选与确认。

Ø         校对:方正锐思具有较强的查错纠错能力,可对可疑字以突出颜色进行标注,便于操作员发现错误和修改。

Ø         版面还原:可以将识别并修改好的文本进行还原,并形成供计算机阅读和查询检索的DocTxtCEB格式的数字文档。

Ø         方正锐思通用版:最终识别结果可以输出成DocTxt格式。

Ø         方正锐思公文版:最终可以对完成识别的电子文档进行标引,从而进入方正博通等公文管理系统。

Ø         方正锐思档案版:最终可以将完成识别的电子档案汇入方正博通公文档案一体化管理。

  方正锐思通用版流程图                             方正锐思公文/档案版版流程图

 

功能特点

1.多种字体识别:识别核心内嵌字体达50多种,针对字体的变异,实际识别的字体超过100种。(囊括一般书籍报刊、杂志中能见到的字体。)

2.字符识别范围广:支持GBK2312字符集的全部简体汉字(共6763个);同时支持部分常用GBK2312以外的34级简体汉字;支持所有大小写英文字母及其变体、全部标点、阿拉伯数字及数百个常用符号,并且支持斜体字符识别。

3.识别多种版式:支持中文、英文样张的识别;支持中英文、数字符号混排的样张。

4.有较高的识别率:对一般的书刊杂志、报纸等样张,字体为1号一小五号字号,采用300dpi的分辨率进行扫描,汉字部分识别率一般都可达到99%以上。对纯中文或英文、符号较少的样张,可达到近100%的汉字识别率。对英文、符号较多的混排文章,总体识别率可达到98%以上。

5.识别速度快:对于普通样张,可到达近500字符/秒的速度。

6.支持老样张识别:能很好的识别粘连字、粗体字以及各种老字体;对于档案馆、图书馆收藏的旧铅印资料,达到较高识别率。

7.图像识别范围广:支持黑白(包括白底黑字和黑底白字)、灰度、彩色图像的识别,可以读取多种图像格式。

8.支持表格识别:不仅可实现对一般表格的识别,而且可识别部分非常规表格(无边框的表格,且能自动补上边框;表格线有一定倾斜度;表格线有一定弯曲;表格线很粗;表格线不很清晰等)。

9.中英文混合排版识别:对于中文、英文、数字、符号大量混排的样张有较高的识别率。

10.数码相机样张识别:采用独特的图像几何矫正技术,比较理想地解决了数码相机样张内容扭曲变形的情况。

11.对识别结果进行版面恢复将识别出的内容,包括文字、字母符号、表格、图像、花边等输出为Word文档,还原成跟扫描文稿版面的布局一样,实现“所见即所得”。也可输出为Txt格式的文档,供检索等使用。 在输出时,可将多个图片的识别内容合并输入到一个Word文档或Txt文件中,这在对一篇文章被扫描为几个页面时,能很方便地恢复原貌。

12.较强的修正功能:对于识别图像有较强的纠斜功能(纠正倾斜角可达10度左右),且纠正精度高,同时可自动纠正扫描样张的倾斜;可自动去噪,去除扫描图像上的污点与干扰,且这种去噪的操作在系统内部就可自动完成。

13.准确的版面分析:能对较复杂的版面进行正确的分析,如文艺类、娱乐类等报纸,能自动分辨出待识别样张中的表格、图像、文字等区域。

14.工作过程自动处理: 整个扫描、图像预处理、版面分析、识别都由系统自动完成,不仅提高效率,而且降低对操作员技能的要求。

15.方便的后编改操作: 方正锐思可将识别的文字结果和图像一并显示,可清晰的将不能识别的文字和可能错误的字符分别用特定的标记和颜色强调表示,修正操作简单便捷。