作者:肖玲
[摘要]本文结合广东省立中山图书馆地方文献全文数据库建设的工作实践,对地方文献全文数据库建设的意义、选题原则、表现形成、实现途径以及应注意的几个问题进行了初步探讨。
地方文献是关于某一特定区域全部资料的总和,内容涉及该地区的政治、经济、社会、文化、教育、历史、自然等诸多方面,为促进当地经济建设和文化教育事业发展起着举足轻重的作用。广东省立中山图书馆(以下简称我馆)于1941年杜定友先生任馆长时成立广东文献专藏,开始对广东文献进行搜集、整理和利用,又于1986年开始建立地方文献数据库,为地方文献工作自动化奠定了坚实的基础。如今,我馆不仅建立了地方文献书目数据库、题录数据图片数据库,而且运用先进的科学技券,结合读者和用户的需求,采用点面结合的方式,建立了一批既有地方特色又方便读者使用的地方文献全文数据库。本文拟结合我馆的具体工作实践,对地方文献全文数据库建设进行初步探讨。
1 地方文献全文数据库建设的意义
1.1 有利于突出馆藏特色
随着计算机技术和网络技术的发展,信息化服务已成为图书馆发展的必然趋势。而图书馆在为读者提供信息资源时,不能只提供大众化电子图书、电子期刊以及网络数据库。更应该提供独具特色、独占优势的数据化资源。地方文献具有鲜明的地域性和史料性,是图书馆中最具特色的文献资源,如果将其建成全文数据库,可以更好地突出本馆优势,形成本馆特色。
1.2 最大限度地满足读者的需求
图书馆收藏文献的最终目的是满足读者需要。信息技术的发展引发人们对信息需求的变化。如今的读者不再满足于书目数据库、题录数据库等二次文献数据库,而更渴求能提供原文的一次文献数据库。地方文献全文数据库上网之后,读者可以十分方便地从互联网上阅读、打印甚至下载地方文献的全文资料,一次性达到最终目的,最大限度地满足读者的需求。
1.3 有效地达到保护文献的目的
随着年代的久远,不少珍贵的地方文献出现了纸张泛黄、破损等现象,有的甚至已经遗失,因此在减少文献的破损或遗失与提供文献的利用率之间产生了明显的矛盾。地方文献全文数据库的建成能有效地解决这一矛盾,读者阅读文献时,不需要再从书库里提取原始文献,只需通过计算机阅读数字化文献,这样既保护了珍贵文献又提高了文献利用率。
1.4 扩大了读者范围
地方文献一般只提供馆内阅读,不可外借。这种规定显然令地方文献比普藏文献得到了更好保护,但无形中却将大量读者拒之门外。地方文献全文数据库上网之后,读者对地方文献的利用不再受到地域、时空的限制,扩大了读者范围,提高了地方文献利用率,实现了真正的资源共享。
1.5有利于补充馆藏
实际上,任何图书馆想收齐当地所有文献都是不可能的事,通过购买数字化产品、搜集网上地方文献全文信息等途径,建立地方文献全文数据库,可以弥补馆藏地方文献的不足,提升图书馆的信息服务能力。
2 地方文献全文数据库的选题原则
地方文献数量庞大、种类繁多、形式多样,无论从人力、财力,或者是从版权角度,将图书馆原始地方文献资源全盘数字化或者将所有地方文献数字化资源馆藏化均无法做到。因此,图书馆建设地方文献数据库之前,应该认真选题,做到有计划、有选择、分步骤进行。我馆地方文献全文数据库主要依据以下几种原则来选题:
2.1 需求性原则
读者和用户对数据库需求是全文数据库建设的前提和最终目的。只有充分考虑读者和用户的需求,有目的、有针对地选题,所建成的地方文献全文数据库才能取得良好的社会效益和经济效益。
2.2 特色性原则
有特色就意味着有优势。全文数据库只有选择内容独特、其他馆没有的文献资源建库,才能独一无二.最大限度地避免文献信息资源的重复建设。
2.3 保护性原则
将珍贵古旧地方文献建成全文数据库不仅能有效避免其遗失和破损,而且也有利于对它们的开发利用。例如各地解放前的方志、族谱、报纸以及期刊都是建设地方文献全文数据库的很好选题。
3 地方文献全文数据库的表现形式
全文数据库的表现形式不同,其占用的存储空间的检索方式也不同。目前,地方文献全文数据库主要有四种表现形式:纯文本形式、图像形式、图文兼备形式、多媒体形式。
3.1 纯文本形式
数据库占用空间小,文献经过扫描及光学字符识别(0CR)后,保存为文本文件,全部文字采用自然语言进行标引,令标引达到最深程度,通过全文信息检索技术,读者使用任意词检索,文献的查全率较高。
3.2 图像形式
数据占用空间大,将文献正文扫描为PDG、PDF等图像文件,将书名、作者、出版发行项、目录、关键词等信息存为文本文件,检索深度到达目次级,正文不能进行全文信息检索,文献的查准率较高。我馆的“孙中山文献全文库”、“广东史料全文库”和“广东历史文献全文库”均采用这种形式。
3.3 图文兼备形式
数据库占用空间大,文献中的文字部分经过光学字符识别(OCR)进行全文检索,文献中的图像、图表等扫描为图像文件。
3.4 多媒体形式
数据库占用空间大,,将多媒体资料数字化为MP3、NPEG等格式,通过关键词检索。尽管地方文献全文数据库有多种表现形式,但图像形式比其它形式建库成效快,更省时省力,而且随着图像压缩技术的发展和大容量存储设备的出现,图像形式是目前全文数据库的最佳表现形式。
4 地方文献全文数据库的实现
数据库的建设必须从本馆实际情况出发,充分调研,统一规划,才能取得良好的建库成效。我馆根据资源现状、资金、人力及用户需求,采用馆藏地方文献资源数字化、购买数字化产品以及网上地方文献数字化资源馆藏化三种途径相结合,来建设地方文献全文数据库。
4.1 馆藏地方文献资源的数字化
馆藏地方文献资源的数字化,就是利用现代化技术,将馆藏印刷型、缩微型以及一些未经数字化技术处理的声像型地方文献资源经过数字化之后以机读形式存储,建立地方文献专题全文数据库。
4.4.1 印刷型资源的数字化
印刷型地方文献的数字化主要通过计算机、扫描仪以及相关数字化软件等实现。我馆通过自行加工制作、文献资源发外数字化加工处理等手段,建立地方文献专题全文数据库。
孙中山文献全文库:图像形式,根据超星数字图书馆建库流程,由本馆工作人员自行扫描和制作,将书名、作者、目次、关键词、分类号等信息保存为文本文件,文献正文扫描为PDG格式,利用超星阅览器进行全文阅览。该库收集孙中山先生的著作、手稿、墨迹、录音、录像和大批的相关研究资料共387种,约10多万页。
广东史料全文库:图像形式,采用孙中山文献全文库一样的建库方法。包含3000多种广东史料。
广州历史文献全文库:图像形式,由我馆选定图像类型、扫描模式和分辨率,委托专门的文献数字化加工处理公司进行原始文献扫描和制作。该库现有广州史料130余种,500余册,4万余页。
4.1.2 非印刷型资源的数字化
非印刷型资源包括缩微胶片、录音带、录像带等。通过数字化转换、编辑、压缩等技术处理,转换成电脑可以识别的文档,建成全文数据库。达到方便使用和利于保管的目的。
缩微胶片的数字化通过计算机、缩微数字化设备及相关软件来实现。我馆利用美能达MS3000扫描仪对馆藏缩微胶片进行扫描,分辨率采用300dpi,文件保存为JPG格式,建成缩微文献全文数据库,包含民国时期旧报纸400多种,古籍善本300多种,共65万多幅,存储量达400GB,其中包含大量的地方文献,如家谱、方志、解放前广东报纸和期刊等。
声音资料的数字化通过计算机、录音机、录音线、声卡及录音软件来实现。
视频资料的数字化通过计算机、视频捕捉卡、视频资料播放设备、视频线及视频处理软件实现。我馆关于地方文献声音资料和视频资料的数字化工作才刚刚起步,正在试验之中。
4.2 购买数字化产品
如果所购产品已属地方文献全文数据库,则可直接利用。例如中国基本古籍库光盘工程工作委员会出版了“中国分省地方志”,内容含各省通志、村镇志、名胜志、乡土志等,每种方志均提供全文数据和原版图像,我馆正计划购买建成广东方志库。
如果所购产品属大众化全文数据库,如“超星电子图书”、“维普科技期刊”等,则需结合地方文献的收录范围,对所购产品进行二次开发,将资源进行筛选、重组,建成地方文献专题全文数据库。我馆通过二次开发数字化产品,建立了以下专题性全文数据库:广东新方志:整合馆藏超星电子图书,包括74种广东地方志图书,其中省志29种、广州市志21种、各县市地方志24种。粤版期刊一览:整合馆藏万方电子资源,包括109种期刊,其中大学学报27种、地方特色刊物36种、专业刊物19种、医药学27种。期刊篇名索引:整合馆藏维普科技期刊,包括3000多种地方人士论文、地方性内容的论文篇名索引及其全文。
4.3 网上地方文献数字化资源的馆藏化
互联网上包含大量反映地方政治、经济、社会、历史、现状等方面的资源,它们具备来源广、更新快、种类多、规范性差等特点,作为地方文献工作者,我们有责任也有义务及时搜集这部分资源,充分运用信息分类、组织和管理能力,对其筛选、整合,将它们有序化、规范化,提供给读者利用。
4.3.1 通过超级链接,建立地方信息资源导航库
网络信息内容混杂,即使在网络搜索引擎的帮助下,读者要获取有用的地方信息资源依然要耗费大量的时间,我馆采用超链接这种经济、快捷的手段,建立地方信息资源导航库,为读者寻找网上地方信息提供捷径。例如:
粤版新书速递:链接南方网教育频道,介绍粤版新书的最新出版动态粤版报纸汇粹:链接粤版报纸主页,包括省级报13种、市县报28种、特区报6种、专业报36种。
广东专利文献:链接国家知识产权局,收录广东发明专利14011部,实用型43694部,外观专利103895部,提共专利说明书全文。
粤版图片史料:链接中山文化信息网、深圳新闻网站,集合了18个主题图片库。
广东统计资料:链接广东统计局网站,收录2000年以来广东省权威统计资料数据。
广东特色资源库:链接了42个涉及广东各地文化、艺术、生活等领域的特色资源网站。
广东工商黄页:链接广东省工商黄页网站,收录广东省权威工商企业资料记录427626条,含企业电话、地址等相关信息。
多媒体资料:链接至相应资源网站,收录广东杂技l1部、小品12部、歌舞表演l1部。
4.3.2 下载免费地方文献数字化资源,建立地方文献专题全文数据库
互联网上资源不稳定、欠规范,仅采用超级链接一种方法是不够的,我们只有及时地将那些具有地方特色且免费的数字化资源下载到本馆服务器,转化为稳定、规范的信息资源,才能令其长期被地方文献读者使用。目前我馆正着手开展这项工作。
尽管地方文献全文数据库的建设有多种途径,但各有利弊。通过本馆自行扫描和制作费时费力;通过购买数字化产品和文献资源发处数字化加工处理省时省力,但必须具备充足的经费;通过下载网上全文信息,则必须对资源进行认真筛选和标引,且注意版权问题。
5 地方文献数据库建设过程中值得注意的几个问题
5.1 版权问题
近年来,版权问题已经成为全文数据库建设中十分突出的问题,它直接影响着数据库的使用范围。<中华人民共和国著作权法》(199o年)第14条规定:“汇编若干作品、作品的片段或者不构成作品数据或者其他材料,对其内容的选择或者编排体现的作品。为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原著作权”。由此可见。我国的法律既赋予了汇编作品的著作权,同时也对原作品著作权进行了很好的保护。数据库取得著作权的首要条件就是具备原创性,不具备原创性则必须向作者和出版社支付版权费,否则所建数据库只能在局域网内使用。因此,我们在建设地方文献全文数据库时只有妥善处理好版权问题,数据库才能走向社会,体现其应有的价值。
5.2 连续性问题
数据库的建设是一件长期的系统工程,需要不断更新和补充数据才能显示活力。但事实上,图书馆往往由于数据源不足、经费紧缺、人员变动等因素导致数据库终止建设,这样的数据虽然数量多,但利用率十分低,只能是浪费人力、物力和财力。地方文献全文数据库应尽量避免这种情况的发生。
5.3 人才培养问题
在地方文献数据库建设过程中,人才起着至关重要的作用。只有建库人员具备了高度的工作责任感、良好的专业知识以及高水平的信息资源处理能力,全文数据库的质量才能得以保证。图书馆可以通过业务培训、学习交流等方式,培养一批高素质的复合型人才,确保地方文献全文数据库建设的顺利进行。
总之,地方文献全文数据库建设从无到有,仍在不断尝试之中,本文意在抛砖引玉,希望有更多的同仁来共同探讨这一话题。
参考文献
1 黄俊贵.关于图书馆信息资源建设问题[J].图书馆论坛,2003.(6)
2 张道义.深圳大学图书馆数字化资源建设的探索[J].晋图上,2002.(1)
3 张武耕.地方文献工作六十年之探索[C].广东省立中山图书馆同人文选,2002.
4 张玲,刘学和.关于自建全文数据库的构想[J].情报理论与实践,1999.(4)
5 于晓燕,杨宁莉.图书馆数字资源建设的实践研究[J].现代图书情报技术,2003.(6)