专家称有用信息沉睡图书馆 利用率不及四成
来源:科技日报 更新时间:2012-04-14

 

  当你上网迫切查询信息时,你是否想到许多相关信息正“沉睡”在纸张上,为了搜集这些“沉睡”信息,你不得不去图书馆或资料室等保存纸质媒介的地方,从而浪费了大量时间,如果这些信息都在网络上共享,那将是多么的方便。信息“沉睡”是我们在生活中经常会遇到的现象,为了提高信息利用率、加大信息共享程度,国务院信息化工作办公室日前发布了《关于加强信息资源开发利用工作任务分工的通知》(国信办[2006]10号)文件。“完善政务信息共享制度”、“规范政务信息资源社会化增值开发利用工作”、“加快以传统载体保存的公文、档案、资料等信息资源的数字化进程”、“支持和鼓励信息资源的公益性开发利用,促进信息资源公益性开发利用的有序发展”等工作已被提上重要日程。日前,教育、科研等相关领域的专家学就信息的开发和利用现状进行了专门研讨。

  嘉宾:

  岳子平(中科院自动化研究所 研究员)

  刘学民(教育部教育管理信息中心综合处处长)

  盖玉云(中关村管委会宣传处处长)

  李志峰(中科院自动化研究所副研究员)

  大量信息依然“沉睡”在纸张上

  主持人:信息这个词,我们都不陌生,在网络高速发展的今天,越来越多的信息充斥在网络中。但是,在信息“泛滥”的今天,我们仍然会碰到在网上查不到所需信息的情况,日常生活中,也经常会听到这样的抱怨,“明明存在的东西,怎么在网上就是找不到呢?”

  岳子平:作为一个长期在科研单位从事科技研究和管理的工作人员,工作中经常和网络打交道,查找这样或那样的信息,经常会碰到你说到的情况,你明确地知道你所需的信息在文件(纸)上是有的,但在网络上就是查不到。我们把这称之为“信息沉睡”。当前,很多行业、部门,如政府、教育、军队、医疗机构等,都存在大量留存于纸质文档、尚未经过信息化手段处理的“沉睡”信息。

  刘学民:我想从教育信息化的角度和大家共同探讨一下这个问题。随着网络的发展和新课程理念下的教学改革,对资源的需求已经成为教育信息化发展到一个新阶段,但是,目前我国教育信息化尚存诸多薄弱环节,其中之一就是优质教育资源的整合还很不够。长期以来,教育界大量宝贵的资源,如教师上课的教案、教学课件、学生作品、试卷集等,传统媒体素材,如教学磁带、录相带、VCD、投影片等,分散、零乱、庞杂、缺乏系统性和一个资源共享的平台。例如,目前,大多数高职院校的档案资源未得到充分的开发利用,档案利用率较低,据有关人员调查统计,高职院校档案案卷平均利用率仅为20%左;高校图书馆的文献利用率达到40%已属不错,低的也只有20%。

  信息“沉睡”造成资源巨大浪费

  主持人:这的确是一种不正常的现象,躺在纸张上“睡觉”的信息,不仅不能发挥其应有的作用,还造成了资源的巨大浪费。

  盖玉云:这的确是值得我们高度重视的事情。就电子政务的发展情况来看,由于政府在最近几年加大了工作力度,我们的基础设施已经比较完善了,但还需要在内容建设这方面下功夫。我们应当逐步增加信息服务内容,有序推进相关业务系统之间的信息共享,促进部门间业务协同,提高服务质量,推动服务型政府建设。

  其次,我们要改善公共文化的传播,支持健康有益的文化,增强文化产品在网络上的供给能力,让中华民族优秀的文化作品数字化、网络化。目前,还有很多优秀的传统作品还是一个“睡狮”,睡着的狮子不如一头羊,所以如何让我们真正文化信息强大,还要看“狮子”的清醒程度。

  刘学民:情况确实是这样。近年来,国家在中小学、高校投入好几百亿,但是资源依然没有能很好地整合、利用。这就像“修了高速公路没有车,有了车没拉货”一样,资源的利用率大打折扣。由于我们信息中心是做全国统计和分析的,我们知道计算机网络设备的淘汰率是三年,充其量是五年。高校固定资产这一块今年采购指标是1.2亿,从固定资产折扣率来算,三年到五年内如果不好好使用,等于废铜烂铁,就不能用。这种形势下,我们必须对信息的再利用好好挖掘,目前需要发展多层次交互式网络培训体系来方便公民自主学习,所以“唤醒”教育资源,实现优质资源共享更是迫在眉睫的问题,希望专门研究信息处理的部门从技术的角度上加大信息的共享和利用。

  李志峰:信息留存于纸面,十分不利于保存、传递、共享、再生。一方面,大量积累的社会信息资源不能很好的为人所用,造成信息浪费。另一方面,中国传统文化正在流失于网络时代。

  我们作为工程设计人员在设计、研发新产品,或者在进行推广、沟通的时候都会遇到引用信息的情况。如果仅仅以纸质载体的形式存在,就受到很大的限制。比如,国家标准问题,我们国家标准主要是从建设部、国务院、国家质量检验检疫总局联合发文,这个对我们国家来讲是很大的知识宝库。遗憾的是这些标准大部分是以“本(纸)”的形式出现,推广利用起来有很大的局限性。我们必须把这些“沉睡”的信息唤醒。

  是什么造成了信息“沉睡”

  主持人:信息“沉睡”说到底是“纸”文化在向“网”文化转化过程中出现了一些问题。

  李志峰:是这样的。根据我们的研究结果显示,阻碍两种文化自如转化一是因为存在录入方式的问题。在日常生活中,仍然是键盘录入方式居多,许多人要么是不知道光学字符识别技术,要么对这项技术知道得不多。

  盖玉云:还有一个是人们的意识问题。现今社会中这样一种现状,很多四十五岁左右的人对信息工具用的不熟练,也不习惯,这些人往往是各种企业或者部门的领导者,他们所掌握的信息都是非常重要的,但没有经过信息化处理,就无法与别人共享。

  如何把沉睡信息唤醒

  主持人:刚才岳老师也谈到信息的重要性以及造成信息“沉睡”的原因,那么我们应该如何“唤醒”“沉睡”信息呢?

  主持人:李老师是技术方面的专家,也请您给我们谈谈这方面的问题。

  李志峰:信息唤醒至少三个方面的技术支持,输入、数据库和网络的检索,中科院文字识别中心在信息的输入和信息录入这一块,作了很多年的研究,早在上世纪80年代中期就开始了,研究界一般称之为OCR技术,翻译成中文就是光学字符识别。就识别输入来说,从研究的阶段看,我觉得我们至少经历了两个阶段,一个是识字,让计算机能够一个字、一个字认识,最开始我们认识宋体字,它的识别能力很小,只有国标的一级字,还有简单的一些符号,后来我们应用扩展到多体,到宋体,仿宋,黑体,后来又到了国标一体二体,到现在包含常见常用一百多种字体,行楷等等,识别字体从六千多个扩大到一两万个字,现在中英文也实现了突破,中英文文告识别能够达到90%-95%左右的识别率。还有一个是对整篇文章进行识别,像我们文章版面的结构,版面的理解,对他进行分析,识别完了以后还要回复成原来版面的格式,这样使我们的应用就会更加的自动,对于整个信息的采集会更加的快速。

  这项技术也是“唤醒”“沉睡”信息,实现“纸”文化和“网”文化的轻松转换的关键技术。这个方面自动化所文字识别中心也做了很多的工作。我们根据这项技术还推出了“一键OK”的汉王文本王。

  刘学民:这个东西我们用过,我发现汉王科技通过“一OK”把很多东西都简单化了。这个产品的出现对于教育部门,尤其对各中小学教育质量的提高,起到了很大的推动作用。最近我们有一个活动对老师进行调研,老师们对这些产品还是非常认可的。

  岳子平:我觉得关键是技术的应用和推广问题,现在光学字符识别技术的推广还很有限。只是在政府办公的红头文件,教育部门的数学公式,各种公式的符号,以及各种业务的票据像税票,银行票据,档案的资料等。作为科研人员,我们非常希望这项技术在信息建设中发挥大的作用,汉王推出来这样一个文本王工具,可以使大量纸质资料电子化,为网络服务提供非常好的内容。同时,技术本身在录入方式上特别强调自动,人工尽量少参与,降低使用的门槛,让信息的获取更加的容易制作,这对于实现纸质信息的电子化、网络化,对于信息资源的开发与利用(信息资源的保存、传递、共享、再生)、文化传承,促进网络文化的发展,具有重要意义。

  盖玉云:信息时代,内容为“王”,技术为“后”。只有“王”“后”的结合,才能实现信息服务产业的真正的强大。没有内容,信息高速无车可行;没有技术,信息内容无路可走。 “信息唤醒”就是要做到内容与技术的完美结合。

  声音连线:

  刘迎建(中科院自动化研究所文字识别工程中心主任 研究员)

  信息时代一个是信息,一个是信息技术。信息技术应该服从于信息,有价值的信息资源就是财富,信息技术就是手段和工具。

  当前我们国内在整个信息化方面投入了大量的资产,从政府的网、电信的网,各个企业的网,硬件、软件投入的比例已经很有规模了。已经走到了世界的前列。电脑的台数已经排到世界第二位。互联网网民数也排到了世界第二,但是信息的上网量却比较落后。由于“纸”文化向“网”文化转化过程中出现了断痕,因此优秀的信息资源无法得到充分地利用。所以我觉得现在信息化建设重点应该由投钱变成投力,这个力就是要想办法把传统纸质文化唤醒。什么叫信息唤醒?就是指把信息资源数字化、网络化,随时等待“调遣”,也就是我们所说的“唤醒”,而核心就是信息技术要为信息服务。

  唤醒“沉睡信息”是当务之急,大量优秀文化沉睡于纸面上,而无法使用、增值和再造,共享。如何唤醒沉睡信息呢?

  唤醒是一个动力,这里面首先要用到信息技术。信息技术的支持至少需要三个方面:一个是输入技术,一个是数据库技术,第三个是搜索技术。输入技术唤醒的工作量是非常大的,大家可以想想看每个单位有多少资料,光靠人是不够的,最好是利用电子化的输入手段,使它能够很快也很轻松的把这个工作做完,现在已经成熟的输入技术是OCR技术。另外像数据库技术,把这些信息资料用数据库进行管理。按照不同类别进行排序管理,如时间序列管理,或者是按照作者、提供部门单位,或者是关键字等等。针对关键字的网络搜索技术目前已经很成熟,速度已经很快了。还有一个搜索技术,是针对数据库的搜索技术,很快的可以把需要的数据检索出来。这三个技术是基础,通过这些技术,纸质的信息资料就有了唤醒的技术支持了。我希望我们在五年左右,整个社会,一个单位、一个单位地把资料数字化、网络化,使得我们整个信息站在传统文化根基上,使我们中华文化在信息时代也能够强盛,使中国成为一个带有自己的民族特色、传统特色的信息化强国。

  其次要唤醒人们的信息化意识,很多年龄较大的人对信息工具用的不熟练,也不习惯去用,这些人往往是各种企业或者部门的管理者,他们所掌握的信息都是非常重要的,但没有经过信息化处理,就无法和别人共享。因此,要唤醒他们使用信息技术来处理信息资源的意识,并且养成一种习惯。这个真的很重要。

  为此,最近几年我为这个事东奔西跑呼吁,找一些同盟,像搜索、电子政务这样的企业,也希望得到政府机关,各个专家的共鸣。