访国家图书馆数字资源部主任王志庚
中国国家图书馆是综合性研究图书馆,是国家总书库和全国图书馆元数据中心,它同时履行国立图书馆和公共图书馆的职能,承担着为中央国家领导机关、重点科研、教育、生产单位和社会公众服务的任务。2008年5月1日,随着《政府信息公开条例》的实施,公共图书馆被赋予了“政府信息公开窗口”的职责,而为了更好地满足公众需求,国家图书馆与北京拓尔思信息技术股份有限公司(简称TRS)签署合作协议,将应用TRS产品建设“国图政府信息整合发布平台”,以构建一个方便、快捷的政府公开信息整合服务门户,使公众可以像应用Google一样搜索分布在全国各地政府网站上的政府公开信息,以及国家图书馆收藏的各类政府出版物和学术文献。
国家图书馆作为全国图书馆界国际化和现代化发展的风向标,它在全国图书馆标准化、规范化、数字化、网络化建设中发挥着骨干作用,为此笔者对国家图书馆数字资源部主任王志庚进行了独家专访,以期望在政府信息公开的新形式下,把国图在数字资源建设方面的丰富经验及先进做法展现给大家,从而推动整个图书馆界在政府公开信息开发和利用领域的发展。
笔者:
随着各级政府部门对政府信息公开目录的建设,政府信息公开资源的开发利用可能成为今后几年市场的趋势,那么国图对于“政府公开信息整合平台”这个政府信息公开领域的首个垂直搜索引擎系统,有什么预期的建设目标和建设效益?
王志庚:
图书馆是搜集信息,整理信息,提供信息服务的场所,图书馆员要做的事情就是给“书”找人,给人找“书”,而政府信息就是我们搜集的对象之一。
2008年5月1日《政府信息公开条例》的颁布,对于图书馆来说是一个发展契机,图书馆成为了政府开放信息的查询窗口。政府信息公开的行为本身是政府行为,它们有层次、分地域、分不同行业和部门,同时政府信息公开的格式也各不相同。但政府信息本身是有关联性的,不是孤立的,从中央到地方,到各部门,怎样引用、摘述、流转、整合这些政府信息公开资源,都需要由我们这样的专业机构介入。利用成熟的文献信息管理方法和工具,把政府公开信息纳入到图书馆信息整合的流程中来,这样就能把资源盘活了,因此我们要建设政府公开信息的整合服务平台。政府的义务是公开,而图书馆的义务是整合和服务。按照我们的设想,国图整合中央级的政府信息,各省馆整合省级和地县级政府信息,通过国图的开先河,带动兄弟图书馆在政府信息整合方面的统筹协调发展。
另外,从信息长期保留和存档的角度来看,政府网站上的许多信息需要长期保存,如,我们现在行政体制在改革,很多中央部委不存在了,但曾经发布在那些部委网站上的公开信息,对今后的学者了解近当代中国行政生态是很重要的参考依据和文献素材,所以说,政府网络信息需要图书馆去做信息整合和服务。
笔者:
《政府信息公开条例》实施至今,关于政府信息公开的诉讼案件已有几十起,如山东某记者要求环保局把企业排污指标公布出来,但公布这些信息对于环保局来说是个大工程,它需要花很大力气做整理工作,而国家限定只能收取检索费、复制费和邮寄费等三项费用,并只收成本价格,如有的地方规定依申请公开一条信息为3毛钱,因此政府就面临着此类依申请公开“3毛钱”的尴尬。在这方面我国还处于一个空白阶段,而在国外这种非常专业的服务却由第三方做,您怎么看待这个问题?
王志庚:
这属于增值服务的范畴,在我个人看来,由第三方承接政府信息资源的增值服务也是中国市场未来的一个趋势,目前在政府信息资源的增值服务方面,国家图书馆涉及到两点:
政府信息资源的数字化,十几年以前的政府信息大多都不是数字化形式的,这就涉及一个数字化的问题,如:涉及政府档案性质的东西需要公开,但它们是纸制出版物,为了让纸制文献被检索、发现和利用,降低整个社会发现和索取利用的成本,就需要把非数字化的信息数字化后放到网上,这也是国图在做的事情,这是一个增值点。
另外一个增值点是“泛”政府信息的整合和服务,也就是公开目录未涉及的相关内容,比如:政府组织的各类会议和公共活动,这些都能衍生出来很多内容,可能是孤立的网站、视频等会议资料,这些就是“泛”政府信息;还有一类是政府官员出席活动的讲话,或者政府官员的博客,这些都涉及我国的政治发展,也需要我们国家政府管理好;另外一类是正式的政府出版物,它们属于商业信息资源。
还有,未来不排除国家图书馆提供“依申请公开窗口”的可能性,当公众有需要时,通过国图提出请求,国图再到相关部门处找到信息源,并经过加工提供给请求者,但国图作为公共服务的部门,提供信息是公益服务,如果涉及费用,也只有成本费,不会赢利。
政府信息公开有自己的目录和元数据标准。国家图书馆有自己的知识组织语言,有分类法,有主题词表,其中主题词表是目前国内唯一面向海量应用的知识组织工具,用这个词表来整合政府公开信息所产生的增值作用,值得期待。
笔者:
从标准的制定来讲,目前政府信息公开主要是在网站上进行呈现,一旦在网站上呈现,它的存储或元数据的提取,就完全是按照网站利用或展现的手法来规定一些字段或元数据,但它们没有图书馆那么深厚的元数据描述基础,或不全面和不科学,在标准制定方面虽然国办制定了标准,但是落实到网站上标准在走形,您怎么看待这个问题?
王志庚:
我们也一直在关注和调研这个问题,不同政府网站的元数据框架差异很大,有些甚至完全为了视觉效果,为了迎合网民浏览和阅读的习惯,迎合用户的感受和体验来制定元数据标准,但实际上从整合和管理资源的角度讲,这种做法不利于信息资源长久的、可持续的保存和增值利用。
这种现象的主要原因是信息公开还是初级阶段,很多政府特别是基层政府还没有完全反应过来,甚至不知道应该怎么做,只知道公开,公开有什么标准、什么步骤、什么程序,没有什么参考的依据。同时信息公开资源的开发利用是一个链条,信息源头不规范,也就是上游不规范,带来了下游整合难度非常大。
因此,我非常希望相关管理部门尽早成立一个高层的技术研究工作组,制定并出台政府信息加工和发布的相关数据、平台和协议的标准规范,这一规范既要适应未来互联网的技术发展需求,同时还要兼顾数字出版、数字教育、数字科研和数字图书馆等系统既有的元数据以及系统互操作方面的标准和规范。
笔者:
国务院7月份针对各省市信息公开的建设情况组织了一次调研,在这期间有关人士提出档案馆、图书馆以后会不会成为政府信息公开的容灾备份中心?基于此观点,您觉得对于电子政务服务商来说,2009年图书馆、档案馆会不会在政府信息公开方面做些事情?尤其是地方?
王志庚:
我国的新闻出版管理规定中有一套成熟的出版物缴存制度,对于全国所有的出版社或其他出版机构,只要出版一本书、一本期刊或一份报纸,就必须向国家图书馆免费提供一定数量的样品,国图具有无偿接受缴送的权利。这也是大多数发达国家都在执行的国家出版物存档制度。
但我国的政府出版物,特别是过去的政府出版物好多是内部资料,它没有明确的缴存制度,所以图书馆特别希望在这次政府信息公开中能够把公共图书馆,特别是省及以下级图书馆作为当地政府出版物的法定收缴单位。只有这样,图书馆才能实现对政府信息的长期备份保存,不管是纸制的出版物缴存,还是光盘,或网络形式的政府信息。
文化馆、档案馆、图书馆作为政府信息的法定收缴机构,或称容灾备份基地,国际早有这样的潮流。另外,现在国际上一个很大的趋势:“图文档合流”,就是图书馆、文化馆、档案馆的合并,这三者融合的动因,有些是出于财务性需要,由于国家经费有限所致“记忆机构”的体制性合并的现象,主要的诱因是记忆机构的功能性融合,这是网络环境下“记忆机构”集体实现价值再造的主动性发展诉求,是现代信息社会共建共享发展的必然结果。
笔者:
网络上有那么多信息,但大家还找不到信息,这就需要用垂直搜索,行业门户去细分服务。而政府信息公开就是很大的服务,那么它的服务会不会细分?会怎样细分?
王志庚:
我觉得肯定要出现细分,无论从供给方还是从需求方,都有细分的要求。我们这里看细分有两点,一个是分层服务,另一个是分类服务,也就是分内容、分主题的服务。
分层服务是按行政机构建设,国图整合中央,服务中央;省图整合省和地县级信息,服务地方;还有其他的业态,如:搜索引擎或一些商业机构,也可能会做这样服务。在我们来看分层服务的内容主要有两种,一种是信息本身的获取和浏览,另一种是一般的检索发现提供的这种增值服务,这是服务本身的附加值。
分类服务方面,从图书馆来讲法律方面,特别是商务、经济,以及文化都是增值服务的热点。
在商业方面,如:区域政府会公布招商引资条例,不同的开发区域会有不同的优惠措施,这些都是政府信息。这些信息往往会随着时间变化而变化或随着中央指示精神而变化,企业对这类信息的需求非常迫切。
关于法律信息,在国际化的大进程中,中国法律的海外需求非常多,外国人想知道中国政府的态度和我们国内的法律和政策环境,这需要法律信息的外销问题。
笔者:
Google 和Baidu 等搜索引擎的排序,采用PageRank算法,网页关联的越多,排序越靠前。这种信息关联在政府公开信息增值服务中是不是关键点?
王志庚:
信息关联是信息(知识)服务中非常核心的内容,分两个层次,一个是文本层,一个是语义层,我们所说的信息关联,和搜索引擎提供的信息关联有着本质的区别,我们把他叫作语义分析,把信息本身放到上下文中,利用图书馆的人工或自动的方法或模型测算出来,这一网页或信息本身与他相关知识点是什么,这些知识点又会衍生出来为用户推荐什么信息,这个往往具备搜索引擎所不具备的。搜索引擎会根据点击量和流量,还有一个排名问题,我说的这个是一个语义上的关联,信息进库是孤立的,经过增值处理,组织之后所有信息都是关联的,一个新闻或网页会成为一条线,一个线会带一个面,一个面会沿展成一个立体。
国家图书馆正在建设的国家数字图书馆已经筹建了若干中文语义服务的基础设施。比如,我们的一个服务叫关键词分配的技术,任何信息符合端口可进来,出去就是标准的东西出来,这是一种基础服务。政府网站给关键词的时候,你把你的文本放到国图的箱子里,出去的时候就有国图给你的若干个标准的关键词,这个关键词是全国统一的,这将是一个开放的网络服务,当然还有很多,我们可以把这种知识服务称为未来语义网络的基础设施。
笔者:
您今天谈到的两点,一个是打造政府信息的数字图书馆,另一个是建设语义网络的基础设施,无论从技术方面还是应用方面我想都会给读者很大的启发。
王志庚:
国图将要与TRS合作的“国图政府信息整合发布平台”项目在国际上就没有同行业在做,它是与网络信息采集保存相关,与信息整合服务、文本挖掘知识组合。我们图书馆人必须把政府信息整合服务作为图书馆价值再造和战略发展的一个新领域,我们也有一个愿景:希望公众找信息去图书馆,图书馆是一个可信赖的政府公开信息的收集者、组织者和增值服务者。