初探政府信息公开化路线图
来源:硅谷动力 更新时间:2012-04-14

 5月1日,酝酿已久、自去年4月5日公布的《政府信息公开条例》即将正式实施,自即日起,各级政府网站的政府信息公开目录亦将正式上线


目前全国各类政府网站加起来有1.3万家之多,光是这些政府网站信息公开目录的搭建,就已经是一个总规模达数十亿元的浩大工程。


国内一些市场研究机构发布的报告也显示,到2010年,中国的电子政务市场将达到数千亿以上。


互联网技术所引爆的全球信息化浪潮已经极大改变了全球商业格局???世界被碾平,竞争在加剧,一时间,中国企业像发现了新大陆一样纷纷加入到长尾市场和商业蓝海的角逐中,而语义互联、人工智能、IPv6、NGN等网络技术的演进,也为中国提供了一个二次崛起的历史契机。然后,肇始于互联网技术的信息化浪潮将多大程度上改变中国政治体制的样貌,至今却仍是一个谜。


不过,有迹象显示,这个谜团的揭开已经指日可待。5月1日,酝酿已久、自去年4月5日公布的《政府信息公开条例》(以下简称《条例》)即将正式实施,自即日起,各级政府网站的政府信息公开目录亦将正式上线。无论是对比以往的信息屏蔽、寻租盛行,还是寄望于未来,以政府规章规格颁行的《条例》,都被人们视为中国继《行政许可法》之后政府的“又一次自我革命”。


信息公开时代浮现


“信息公开的意义比电子政务的意义要大,没有信息公开就没有电子政务。”中国政法大学法治政府研究院博士后研究员林鸿潮向本报记者表示,现有的信息管理不是保密不够,而是公开不够。我国现行的《保密法》,实施非常严格,但我国迄今还没有一部“公开法”。


的确是这样。对一些政府部门来说,信息不仅意味着权力和利益,也意味着政绩,因此各个部门大多对信息的公开谨小慎微,不肯轻易示人。


信息的不对称容易滋生政府官员的渎职、滥用职权、政令不通等现象,数不胜数的腐败案件都是暗箱操作的结果。比如,就卫生部来说,2003年非典疫情,本质上就是由卫生系统政府信息的公开不够导致的,使得疫情信息没有及时、准确地发布,甚至被故意屏蔽或歪曲、淡化。就教育部来说,目前假文凭、假学历的泛滥,也是因为信息不公开所致,使很多用人单位对文凭的真实性将信将疑。


然而,即将实施的《条例》将在多大程度上改变个别部门本应向民众公布的信息私有化的做法,却还是一个问题。据统计,截至目前全国已有200多家网站编制了信息公开目录,但更多的政府网站则按兵不动。即使开设了相关频道或栏目的网站,公开目录的编制也存在明显偏差。


“目前各级政府所编制的政府信息公开目录主要存在两个问题:一是缺少一套全国统一的政府信息公开的标准,包括资源目录体系、数据交换体系等;二是缺少一套科学的、可操作性强的评价体系。这两套体系完备后,应用层面的问题基本就解决了。”北京拓尔思信息技术股份有限公司(以下简称TRS)市场部经理贺兆辉如此表示。


难点与拐点


构建政府新型信息公开体系,这样一个革命性和颠覆性的系统工程,必然耗时耗力,也必然面临各种意见分歧。


比如,即将上线的政府信息公开目录是基于各级政府现有的网站增设一个一级栏目,还是搭建一个专门的政府信息公开目录网站平台,或者二者同时并存?如果是单独搭建平台,则可能与各级政府部门的电子政务门户形成两张皮。并且,以往各级部委和各级政府在搭建电子政务平台时已经投入了很多费用,另起炉灶单设信息公开平台也会导致重复投入。


另一个技术难点是,面对政府海量信息资源,如何进行有效快速的梳理和编目工作,为此,就需要一套根据语法、语义等规则对信息进行抽取和分类,进而满足从主题、应用等多个角度对政府信息资源进行管理、识别、定位、发现、评估与选择的工具。


据悉,全国政府信息公开工作的主管部门很早就意识到了上述问题。今年1月,政府信息公开工作主管部门还特别召集全国各高校信息资源编目专家以及各部门代表成立了政府信息公开研究小组,讨论政府信息公开目录的可行性,其中就包括讨论应该订哪些元数据,哪些类目体系。在考察了包括TRS等厂商在内的国内搜索和文本挖掘技术之后,研究小组此前对政府信息公开目录在技术可行性上的疑虑最终涣然冰释。


解密政府信息公开目录


贺兆辉告诉记者,要搭建政府信息公开目录,有几个核心的技术体系不可或缺。


首先是文本智能技术。文本智能有两块。一块是元数据和内容概要的抽取,这个技术不是提取关键词那样简单,而是需要把信息中的元数据和关键信息块精准地抽取出来。元数据和信息块抽取出来后,还要用语义分析技术判断信息块与文本的相关性,使得内容概要能够准确表达每条信息的主要内容,元数据能够准确描述每条信息的基本属性,这方面TRS的文本挖掘技术起了主要作用。


“目前针对于互联网信息的智能处理技术还很不理想,是因为普通互联网上的信息太杂了,智能抽取不太现实,而政府公开信息则有着一定的规则性,可以用条条框框去规约,这样规则抽取就发挥作用了。但是,只是采用规则抽取效果不一定好,必须结合语义分析。”贺兆辉介绍说。


其次是自动分类技术。政府部门的编目体系一级已经有21个栏目,二级更多达150个栏目,要把这么海量的文章自动匹配,并分到每个目录下,不仅要做到智能抽取,还要能够进行自动分类。这样,分类后的内容到了目录库以后,才可以进行全文检索。据了解,TRS的全文检索在全国部委以上政府网站的使用率达70%以上。


“文本智能技术是编目体系的关键点,有了这个技术还不够,还要加上知识库,这个系统才能‘活’。TRS在很多领域积累了庞大的后台支持库储备,凭着这些储备,TRS有信心拿出一个相当成熟的政府信息公开目录解决方案。”


TRS高级研发工程师孙丽华表示,尽管目前对如何编制目录体系仍然存在一些分歧,但规则+语义分析+知识库三者融合的技术路线,已经提供了一个接近完美的解决方案。


记者了解到,目前国内外一些IT厂商如IBM等也正在研究文本智能技术在政府信息公开目录中的应用问题。


商机与转机


显而易见,政府信息公开目录的上线,将给信息化服务提供商带来巨大的商业机会。目前,全国各类政府网站加起来有1.3万家之多,光是这些政府网站信息公开目录的搭建,就已经是一个总规模达数十亿元的浩大工程。


国内一些市场研究机构发布的报告也显示,到2010年,中国的电子政务市场将达到数千亿以上,信息公开相关应用系统的建设将是其中的核心。尽管目前还只有TRS一家发布了政府信息公开目录服务平台解决方案,但更多的信息化解决方案提供商仍有巨大的市场空间,如万方数据、航天四创、今日投资、富士通等等。


公开信息显示,到2010年,覆盖全国的、统一的电子政务网络将基本建成,届时政府网站目录体系与交换体系、信息安全基础设施将初步建立,重点应用系统将实现互联互通,政务信息资源公开和共享机制将初步建立,50%以上的行政许可项目将能够实现在线处理。到那时,中国将真正进入信息公开时代。