央网搜索引擎建设背景
截止到2004年底,我国以gov.cn命名的站点数达到了10260个,93%的部委拥有部门网站,73%的地方政府拥有门户网站,这对我国政府职能转变和创新管理方式的推动起到了重要作用,但也凸现了各地政务信息分散,缺乏有效的分类组织和整合等问题,影响了政府的政务决策水平和政务信息公开效率的进一步提升。 如何有效整合政务信息资源,发挥政务信息资源的效力? 中央决定建立权威、集中的中央政府门户网站来改变这种现状,中央人民政府门户(简称央网)的建成将成为各部委及各地方政府信息资源的汇聚点,并最终成为政务信息发布和提供在线支持的综合服务平台。 而在央网中搭建专业的政务垂直搜索引擎无疑是有效的解决方式之一。
传统的互联网搜索引擎技术不能满足央网搜索定位的需求 主要表现在以下几个方面: 第一,央网搜索的深度要求更高。央网搜索定位为一个专业垂直搜索引擎,它需要帮助用户获取更专业化和行业化信息,这不能局限于搜索网页上的文本内容,还要能搜索网页内容元数据,以及各种文件、报表等深度内容。 第二,央网搜索需要整合政府网站和政府数据库资源,从一个统一的入口精准地定位信息。央网中的垂直搜索引擎不但要实现对互联网信息的搜索,还要实现对信息资源库的搜索。并更加强调信息的高匹配度和准确率,时间、区域、来源、类质等组合条件检索要求高. 第三,央网搜索要求能提供应用服务搜索。实现对国内相关政府网站上所提供服务的搜索,如:在央网上可以搜索到不同地区网站的报税服务等。
TRS助力央网搜索引擎
在央网搜索系统竟标中,TRS从与百度、Autonomy、Verity等对手的竞争中脱颖而出,为央网提供了全套搜索产品。TRS利用公司多年来自主开发的TRS Database Server作为搜索引擎服务平台,辅以采集和智能加工工具(TRS CKM),为央网提供完整的、智能的、安全的、个性丰富的专业垂直搜索引擎服务。
央网搜索引擎功能和架构
央网搜索引擎的功能
通过http://sousuo.gov.cn进入央网搜索引擎主页,搜索主页简洁,包含了国网网站搜索、国务院公报搜索、政府网站搜索、图片搜索、文档搜索、服务搜索等搜索分类。国网网站搜索是指对国家门户网站http://www.gov.cn自身发布内容的搜索功能,国务院公报搜索是指对国务院公报内容进行搜索,政府网站搜索是指对各级政府网站的网页内容搜索,图片搜索是指对对各级政府网站上的图片进行搜索,文档搜索是指对各级政府网站上的文档内容进行搜索,比如WORD、PDF、Excel、PPT等,服务搜索是指搜索国内相关政府网站上所提供服务。通过这样的分类,可以方便公众有针对性地选择搜索目标。 对于每一种分类搜索,系统都提供“高级搜索”功能,在高级搜索界面上,用户可以根据来源、日期(范围)、标题、作者、正文等属性进行搜索,并且可以指定结果的排序方式是按照网页的时间排序还是按照内容的相关度进行排序。 在搜索性能方面,基于目前的服务器配置,国家门户搜索引擎能够支持瞬间300个并发用户的搜索请求,并可平滑进行硬件扩展,满足今后应用扩展的需求。
央网搜索引擎的架构
央网搜索引擎总体架构实现了跨平台应用,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性,设计了集群和负载均衡,在负载增加和并发访问压力增大的情况下,具有扩展能力。央网搜索引擎系统由采集层、数据加工层、搜索层、系统管理层等部分组成。
央网搜索引擎十大特点和优势
垂直专业搜索----整合政务网络信息
央网搜索引擎实现了对全国副省级以上政府网站(350家)的内容和服务的采集;实现了包括按信息分类、条件组合、文件类型、图片、区域等多种检索方式,同时实现了对多语种、多文种的检索。
与政府网站标准化建设紧密结合----实现更好的搜索效果
如果搜索引擎能够更好地“理解”网页内容,那么相信会提供更好的搜索服务。在央网搜索引擎系统的建设过程中,TRS制定了政府网站内容格式规范,把搜索引擎建设和各级政府网站的标准化建设紧密结合在一起。央网门户搜索引擎对于符合政府网站内容格式标准的网页,能够按照标准进行内容分析,提高了网页分析的准确性,实现更好的搜索效果。
实时更新搜索信息----第一时间获取一手信息
央网搜索引擎所提供的搜索内容,必须能够及时反映政府网站的内容变化,各级政府网站上新发布的政务信息和办事指南应能及时搜索。目前各级网站发布的新网页一般在30分钟之内就可在央网门户搜索引擎中搜索到。
分类搜索----方便用户的搜索过程
央网搜索引擎对公众提供了方便的政务信息、办事指南搜索,合理的分类可以方便用户的搜索过程。央网门户搜索引擎按照服务的类型将搜索内容细分为站内搜索、国务院公报搜索、图片搜索、文档搜索、政府网站搜索等几种类型。央网门户搜索引擎在采集到的搜索各个环节都需要进行细致的分类工作。
深度精准搜索----获得互联网搜索不能提供的满意体验
央网搜索引擎是对各级政府网站的全部网页内容进行采集和索引;央网搜索引擎对网页的全部内容建立索引,可以检索;央网搜索引擎能够为用户提供完整的搜索结果集,搜索到的所有网页都是可浏览的,采用的是精确检索技术。
多种文档搜索----整合内部对象信息资源
《国务院公报》集中准确地收集了国家法规、声明、任免等重要文件,是国家最重要的政务信息资源之一。基于TRS Database Server 的全文数据库服务器平台,为其提供了精准的搜索手段。包括简单检索,以及针对于内容分类、发文单位、文号、期号、文件类别等元数据的组合检索手段。满足了不同层次的用户对国务院公报的精确检索。
应用服务搜索----创新的政务服务搜索功能
系统整合了部委和各省市的政务服务,以及相关的政策资源。用户通过输入关键词,就可以在页面上一并获得网上办事的链接入口和相关政策信息,大大方便了用户的同时,提高了政府的办事效率和服务水平,凸显电子政务价值。
多语言支持----利于多语言搜索服务的扩展
央网搜索引擎内核支持Unicode,所有网页自动转换为UTF-8编码进行索引,实现了多语言检索,包括支持中国少数民族语言文字,以及日文、韩文、俄文、法文、西文等语言文字,为央网门户网站将来扩展多语言服务打好了基础。
多机集群或双机热备结构----实现分布式架构和高可用性
央网门户搜索引擎采用分布式架构进行设计,在系统的多层结构中,任何一层均可以通过增加硬件设备实现平滑扩展,实现了良好的可扩充性。央网搜索引擎的每个环节,均设计为多机集群或者双机热备结构,消除了单点故障,保证了系统的高可用性。
开放性----方便二次开发和信息增值服务
央网门户搜索引擎提供完备的API开发接口,外部应用(比如采编系统)可以通过API接口对网页数据库和索引进行再次开发利用,进行信息增值服务。
|