智能互联网信息采集系统解决方案
来源:中国电子政务网 更新时间:2012-04-15

  CGSEEK是采用以使用者为中心的设计思想,在网页搜索、内容过滤、全文检索、智能内容挖掘和计算机自动分类技术的支持下,全面改善Internet的使用现状,是一个全新概念的信息服务产品。

  智能互联网信息采集系统由网页搜索器CGRobot、网页自动加载器CGLoad、内容提取系统CGCPS、全文数据库系统CGRS、自动分类学习软件CGStudy组成。

  一、 系统处理流程

  首先,选择从互联网上采集信息的目标网站,设定网页搜索器CGRobot的搜索策略,CGRobot自动从目标网站上采集满足搜索条件的网页,网页自动加载器CGLoad将网页自动加载到WEB页面数据库中。用户根据WEB页面数据库中的网页信息,使用网站内容提取系统CG-CPS,制作网页内容提取模板,提取用户需要的信息。CGRobot依据搜索策略和提取模板,自动、批量地从目标网站上搜索网页信息,并转换成文本记录加载到文本内容数据库中。如果要对采集的网页内容进行分类,可以依据自动分类学习软件CGStudy生成的分类文件进行分类。

  从互联网上采集、加工后加载到文本内容数据库中的信息可以利用CGRS系列软件进行信息发布、内容挖掘和信息的再利用。

  二、系统功能

  1、网页搜索器(CGROBOT)

  网页搜索器是CGSeek5.1的前端程序,它能够把网站上全部或部分页面和资源自动收集到本地。系统主要功能:

  (1)用户设定页面搜索范围

  ● 设定URL起始入口

  ● 设定页面搜索范围与限定

  ● 通过资源文件的后缀设定搜索页面中哪些资源文件。如设定图片、多媒体资源

  (2)WEB服务的联接方式

  ●设置WEB服务器的联接方式、数据后处理方式(是脱机浏览还是发送到搜索引擎库)

  (3)每个站点的搜索深度可以根据需要设定

  (4)URL中的表达式分析功能可以指定包含的表达式和过滤的表达式,以满足搜索内容要求

  (5)对页面进行自动分类处理

  (6)设定下载页面的文件最大尺寸和截断长度。

  (7)自动搜索剖析下载网页内容

  (8)自动发送下载页面及映像文件

  (9)遵循网页搜索规则

  2、网页自动加载器

  网页自动加载器是网页页面加载到WEB页面数据库的处理程序,它启动之后自动执行加载功能,毋须人工干预。系统主要功能:

  (1)网页页面及映像文件自动加载到WEB页面数据库;

  (2)自动更新网页页面;

  (3)建立网页页面全文索引;

  3、全文数据库系统CGRS5.0

  全文数据库系统对文献进行管理,并提供强大的检索功能。

  4、网站内容提取系统CGCPS

  从网页数据库中,按照个性化需求设计内容提取模版和规则,从WEB页面数据库中检索满足要求的页面,从中自动提取相关的文本信息。系统主要完成以下功能:

  (1)从Web网页数据库中通过强大全文数据库检索功能,筛选出要处理的网页。

  (2)选出符合制作模板条件的网页,经过添加标引制作成网页提取模板。

  (3)模板自动提取结构化信息转换并标引文本信息内容。

  5、自动分类学习软件(CGStudy)

  自动分类学习软件是通过学习语料库中的语料后生成一个分类规则文件,CGrobot用分类规则文件对网上下载的页面进行自动分类。同时通过反复学习,不断完善分类规则文件,提高自动分类的准确度。

  主要功能包含了:语料文件编制、格式检查、分类学习和语料测试。

  三、系统性能

  1、支持建立多个引擎数据库,最大32767个。

  2、下载速度;和网络速度有关。

  3、支持断点续传。

  4、页面自动分类准确率约80%。

  5、单个引擎数据库最多可存储42亿个页面。

  6、5亿个汉字的信息平均查询时间少于3秒。