作者:庾凯卫
摘 要:介绍了数字图书馆的概念和基本组成结构,阐述了数字图书馆信息资源的分类及其结构、信息资源的组织方法和对象模型,以及信息资源的描述方式。 关键词:数字图书馆;信息结构;信息资源中图分类号:G250.76文献标识码:A
随着社会的进步,信息网络技术、通讯技术的发展,传统图书馆正面临着一个数字化变革的挑战,数字图书馆正以其查询速度快、内容广泛、效率高等优点逐步占据图书馆的一席之地,而数字图书馆信息结构技术也成为当今图书馆数字化的一个热门话题。
1 数字图书馆概述 “数字图书馆”一词是由英文“Digital Library”翻译而来,指用数字技术处理和存储各种图文并茂的文献的图书馆,它实质上是一种分布式信息系统,这种系统把各种不同载体、不同地理位置的信息资源用数字技术存储起来,以便实现跨区域的面向对象的网络查询和传播。据此可以把数字图书馆简明扼要地概括为:有组织的信息资源(数字化馆藏)及相关服务,其中信息资源是用数字化保存的,以便用户通过网络进行信息访问。因此数字图书馆并不是简单的数字化收藏加上信息处理、传播和发布的工具,而是支持面向对象的分布式查询的资料库,这样各种搜索网站也是属于数字图书馆的范畴。
2 数字图书馆的基本结构 数字图书馆的组成十分复杂,概括来说,数字图书馆的基本结构主要有两大部分组成:一是计算机系统及其组件,二是信息资源。
2.1 计算机系统及其组件 组成数字图书馆的计算机系统无外乎软件和硬件两部分,硬件部分本文不作讨论,就软件系统来说它是由网络系统、通讯系统、数字化系统等组成。 网络系统即由当前流行的Windows系列、Unix系列等组成,是它们为数字图书馆提供得以运行的网络平台。通讯系统是数字图书馆的数据通讯的支撑系统。数字图书馆的建设不会建立自己的通讯系统,主要借助于通讯领域。 数字化系统是由许多分布式的计算机软件系统组成,其中的核心部件是由4个子系统组成:用户接口子系统、查询子系统、索引命名子系统和存储子系统。 (1)用户接口子系统。用户接口子系统分为两种,一种是为图书馆用户的,另一种是为图书馆员及管理馆藏的系统管理员的。每一种用户接口有两部分组件,一部分是标准的Internet浏览器,用于用户的实际操作,如IE,Netscape Navigator等;另一部分是客户服务,浏览器连接到客户服务,在浏览器和系统的其他部分之间提供中间功能。这个客户服务允许用户决定到哪里搜索、检索什么。客户服务也解释如数字对象这种结构化信息,它也商定检索词和检索条件,协调数字对象之间的关系,记忆交互作用的状态,在系统各个部分之间进行协议转换。 (2)查询子系统。查询子系统用来从存储子系统(数据仓库)中发现信息。数字仓库中存在很多索引和目录,它们是用来搜索发现用户所需信息的,这些索引和目录可以被独立地管理并且支持多种协议。 (3)索引命名子系统。当用户通过接口子系统提出一个查询要求时,此查询被提交到查询子系统,查询系统返回符合要求的数据对象的具体位置,最后到具体的存储位置获得所需要的结果。该子系统提供一种通用的标识符。使用仓库时,该子系统为数字对象接收输入处理,并返回对象存储地的仓库标识符。 (4)存储子系统。存储子系统主要是利用数据仓库来实现的,数据仓库是用来存储和管理数字对象和其他信息的。一个规模宏大的数字图书馆可以包括各种类型的数字对象。其具体类型视特定的数字图书馆而定,没有一个统一的模式,数据仓库的接口称为数据仓库存取控制协议RAP(Remote Access Protocol,又称远程存取协议)。RAP的特征是明确地识别权利和许可,支持大范围的数字对象的发布,支持良好的开放结构的界面。构建一个数据仓库系统应包含8个功能模块:第一,设计模块用于设计数据仓库数据库;第二,数据获取模块用于从源文件和源数据库中获取数据,并进行清洁、传输,将它加到数据仓库的数据库中;第三,数据管理员模块用于建立、管理和访问数据仓库中的数据;第四,管理模块用于管理数据仓库的运行;第五,信息目录模块用于为管理者和企业用户提供有关存储在数据仓库的数据库中的数据的内容和含义信息;第六,数据访问模块用于为企业的最终用户提供访问数据仓库数据库的方法;第七,中间件模块用于为最终用户工具提供访问数据仓库数据的方法;第八,数据传递模块用于向其他仓库和外部系统中分配数据仓库数据。 在网络环境下,数字图书馆是一个面向对象的分布式网络结构模式,它可适应多种不同的计算机系统运行。一个数字图书馆的构成主要包括用户接口、预处理系统、查询系统和对象库等基本组件。总而言之,数字图书馆是一种信息基础结构的基本资源组织方式,它不是简单的互联网上的图书馆主页,而是一整套面向对象的、分布式的、与平台无关的数字化资源的集合。
2.2 信息资源
2.2.1 信息资源及其分类 数字图书馆的信息资源是数字图书馆的基本要素之一,只有数字信息资源发展到一定规模才有可能产生数字图书馆。数字图书馆的资源类型多种多样,不同的数字图书馆的信息分类方法各不相同,分类的角度也各异。从信息的存储形式来看可以分为SGML(Standard for General Markup Language,标准通用标记语言)标记的文本、WWW对象、计算机程序、数字化音频视频等,每一类具有各自的描述组织信息的方法和规则。这些方法规则描述了信息是如何表示的,信息又是如何被组织成数字对象集的,以及每一个对象的内部结构和相关元数据。 但不管数字图书馆的信息资源是按何种角度分类,我们平常所接触到的数字图书馆的信息资源,从存储的地理位置来划分可分为现实资源和虚拟资源两大类。现实资源是指置放于本地的数字化文献,有光盘、磁盘、磁带等各种载体形态,是我们能够明确知道的;虚拟资源是指置放于异地的数字化文献,我们难以明确知道其存放地点及内容。
2.2.2 信息资源的结构 数字图书馆的信息结构是基于3个简单的概念之上:数据类型、结构元数据和元对象。数据类型属于描述数据的技术性质,如格式、处理方法等;结构元数据是描述类型、版本、关系和数字资料的其他特征的元数据;元对象是一种对数字对象提供参照的对象。
2.2.3 信息资源的分布式馆藏 数字图书馆的信息资源称为数字化馆藏,逻辑地定义为从广泛的信息空间选择资源的标准集,是存储在特定数据仓库中的资源集。不同资源的选择标准又是各不相同的,特定的数据仓库的位置是不确定的。数字化馆藏不仅是信息资源,而且提供资源发现工具,馆藏中的资源是那些能用资源发现工具直接发现的东西,所以数字化的馆藏有两种显著的特征:分布式存储特征和馆藏资源的动态特征。
2.2.4 信息资源的组织方法 图书馆的信息资源是有组织的,数字图书馆也不例外,否则就不能称为数字图书馆。综观国内外的各种数字图书馆(包括各类搜索网站),其中的信息资源分类不外乎两种方法:即分类标引和主题标引。 (1)分类标引法。分类标引是一种层累制的、等级列举式的划分知识的方法,它能较全面和客观地反映知识的全貌及其内在逻辑联系,它具有知识系统性和族性检索的能力和扩/缩检功能。当前的搜索引擎及其他数字图书馆在组织网络信息、编制网络信息目录方面大致采用了以下一些分类方法:主题分类法、学科分类法、分面组配法、体系分类法(如《杜威十进制分类法》《国际十进分类法》《美国国会图书馆分类法》《中国图书馆分类法》等)。 (2)主题标引法。主题标引是一种利用自然语言或规范语言对信息内容进行标引的方法。由于其具有直观性、特定性强等特点,所以在各种检索系统中被普遍使用,特别是关键词标引和自由词标引。
2.2.5 数字图书馆的对象模型 数字图书馆是数字对象的集合,也就是说数字图书馆是由数字对象构筑而成的。数字对象存放于数据仓库中,并以一定结构的数字形式来表达信息内容的方法,若干数字对象被组合起来称为“数字对象集”。数字图书馆中信息资源的组织问题就是对数字对象的组织问题,数字图书馆可以存储和发布任何能够表达数字形式的信息,其表现和利用方面的研究课题既复杂又玄妙,用户所看到的每一个单个作品在计算机中都表现为一组各种类型的文件与数据结构的组合,所以有时从用户的角度可以称这些组件间的联系为对象模型。比如,对用户而言存储于万维网服务器上的一篇期刊文章是一个连续的文本和一些图片,它可能被分别存储为几个文本文件、图像文件甚至是若干可执行程序。一幅图像可能被存储多次:一次是高质量的存档图像,一次是普通使用的中等分辨率版本,还有一次是提供图像概貌、省去大量细节的缩略图。图像虽以单一的著录标识符引用,但对计算机来说却是一组完全不同的文件,发布之后有可能需要有修正错误的新版本,资料被重组或转移到另外的计算机上,也有可能随着技术的进步添加新格式。
2.2.6 数字图书馆的信息描述方式 数字图书馆的信息资源可分为对象数据(Objectdata)和元数据(Metadata)。对象数据是指数字化文本、图像、音频、视频等,元数据是指描述和管理对象数据的数据。我们首先要把不同形式和各种载体存储的信息资源转换成数字化信息资源,为便于检索用某种方法或机制把这些数字化信息资源进行组织并描述出来。目前生成数字化信息资源的技术有两种:一种是将大量的、现存的、以不同形式和载体存储的信息资料数字化,如将文字、图片、声像资料等转换成计算机可处理的数字化信息,另一种是直接生成数字信息。 描述和管理对象数据的数据——元数据的技术和方法是数字图书馆的研究热点。元数据是描述某种类型资源的属性,并对这种资源进行定位和管理,同时便利于数字检索的数据。元数据包括描述性元数据(如书目信息)、结构性元数据(如格式和结构信息)和管理型元数据(如权利、许可管理访问的条款)。目前,常用的7种元数据是:CDWA(Categories for the Description of Works of Art)适用于艺术品;VRA(Core Categories for Visual Resources)适用于艺术、建筑、史前古器物、民间文化等艺术类可视化资料;DC(Dublin Core)都柏林核,适用于网络资源;FGDC(Federal Geographic Data Committee)地理空间元数据内容标准,适用于地理空间信息;GILS(Government Information Locator Service)政府信息定位服务,适用于政府公用信息资源;EAD(Encode Archival Description)编码档案描述,适用于档案和手稿资源,包括文本和电子文档、可视材料和声音记录;TEI(Text Encoding Initiative)适用于对电子形式全文的编码和描述,在诸多元数据研究的热点中最时髦的是Dublin Core。 元数据是描述数字化信息的一种方法,除元数据外还有其他种类信息资源的相关标准或规范,它们与元数据有着密切的关系。这些标准有:第一,标准通用标记语言SGML(Standard General Markup Language)及其相关标准,它包括许多ISO标准,HTML就是其子集,是专门用来为WWW建立超媒体文件的语言;第二,扩展标记语言XML(Extensible Markup Language),它由W3C组织提出并用来定义处理元数据的基本准则;第三,资源描述框架RDF模型与句法(Resource Description Framework Model and Syntax),它是在W3C的授权下制定出来的,将成为最终的规范。 总之,数字图书馆信息结构研究是图书馆数字化建设中的一个关键的技术问题,它代表着图书馆数字化水平的高低,它的提高使得图书馆的现代化服务更全面和深入地展开,使得图书馆跟上信息时代知识飞速发展的步伐。
参考文献 [1] 严怡民.情报学概论[M].武汉:武汉大学出版社,1994. [2] Willam Y Arms.数字图书馆概论[M].北京:电子工业出版社,2001. [3] 王丽华.未来数字图书馆的关键技术探讨[J].图书馆论坛,2004(6):71-72. [4] 董慧.OAI—MHP协议初探[J].图书情报知识,2004(12):70-73. [5] 蒋颖.数字权限管理元数据及其在数字图书馆中的应用[J].现代图书情报技术,2005(3):1-6. [6] 李明禄,薛涛,刘飞,等.基于多域和层次结构的网络数字图书馆[J].现代图书情报技术,2005(10):1-4. [7] 黄晓斌,钱国富.数字图书馆开发平台及其发展趋势[J].中国图书馆学报,2005(4):53-57. 第一作者简介:庾凯卫,女,1966年8月生,1997年毕业于北京大学,馆员,现为武汉大学信息管理系2003级硕士研究生,佛山科学技术学院图书馆,广东省佛山市禅城区,528000