记者:周文林
本报讯 针对政府机构中大量PDF文档无法编辑、拷贝和检索的难题,近日,汉王科技推出了“PDF图像OCR识别系统”。业内专家普遍认为,它的推出使得PDF文档无法编辑、拷贝和检索的难题迎刃而解,将有助于推动中国电子政务的快速发展。
随着电子政务、办公自动化OA工程的全面实施,“无纸化”办公的趋势已经不可阻挡。目前,在国家各级政府的电子政务网络里,以PDF为格式的电子文档得到了广泛应用,全面取代了之前的传统方式。大量的政府文档、通知、档案资料、财务报表都以PDF格式存储、传输、流转、交换和下发。相比较而言,PDF具有许多其他电子文档格式无法相比的优点,如完全保持纸质文档原样,存贮空间小,便于网络传输等。
然而,作为一种“图像”格式,PDF的“只读”特性使其只能“看”,却无法进行文本编辑、拷贝和引用,PDF文档之间也无法相互引用和检索。这样大量文档只能是一堆“死”的文字,而不是可应用的“流动”信息。面对不同部门、不同内容的PDF文档,如果要拷贝、检索、整理和归类,需要花费大量的人力和物力用人工方式重新整理录入。
据悉,新推出的识别系统使政府机构多版本的PDF文档能成为单一的文本格式。该系统不但可以整合不同机构、部门的分类信息,打破传统行政机关时间、空间和部门分隔的制约,使各级政府的各项监管工作更加严密,服务更加便捷,而且还加强了对档案进行科学且高效管理的能力,能充分实现各类信息的在线检索、查询、浏览和阅读功能,从而为海量信息的交叉检索、深度内容的进一步发掘和开拓打开了更为广阔的天地。
业内人士认为,PDF文档转换文本文档产品的普及,将大大加速电子政务的进程。