“中文数字资源量非常庞大,国家图书馆有义务采集、整理、加工、服务和长期保存这些有价值的中文数字资源,这是国家图书馆必需履行的职责。”
如今,去图书馆借书的人越来越少,人们开始习惯在网上浏览、阅读和搜索信息资源,那么图书馆该如何面对这一数字化挑战?若把图书资源数字化后,再放到网络上,图书馆又该如何保护这些资源?数字化在颠覆图书馆传统功能的同时,也为其带来了新的发展机会。
最近发布的第四次“全国国民阅读与购买倾向抽样调查”结果显示,6年来网上阅读习惯的人群正以每年递增40%的速度增长,有网上阅读习惯的人已接近30%。数字网络技术的出现和广泛应用正在使世界发生根本性变化,图书业被认为是受网络冲击最大的行业之一。
据2004年数据统计,与上一年相比较,新闻出版行业图书品种增加了9.4%,总印数下降3.8%,年末库存量比上年相比数量增长8.04%。人们开始习惯在网上浏览、阅读、搜索信息资源,如果商业公司对图书资源进行数字化,并将这些资源放在网络上,开放一定的阅读权限给公众,那么,图书馆该如何面对网络冲击?如何保护数字化资源?
激战: 资源争夺
“美国一些机构曾经向我们提出,希望把国家图书馆特藏,例如: 甲骨文、家谱、善本书等文献由他们出资进行数字化,有的机构最初甚至提出来要独家许可使用权100年。”国家图书馆研究馆员富平谈到这件事情心里不能平静,“凭什么这么霸道?”她反问道。但是直到今天,某些机构还在与国家图书馆交涉,他们的理由是,之前所谈过的图书馆都答应了,为什么中国国家图书馆不答应?
这是图书馆遭遇“抢夺”数字化资源的一个实例。随着20世纪末数字化浪潮席卷全球,各个国家纷纷把图书数字化当作国家战略的一部分,开始大规模建设。美国在1994年先后开展了科研单位、大学以及公众图书馆的数字化项目,我国也先后建立了中国高等教育文献保障系统(CALIS)和国家科技图书文献中心(NSTL)。国家图书馆则在2000年开始进入实质性的操作阶段,2005年10月正式被批准启动数字图书馆工程。
在早期图书数字化浪潮中,一些商业机构应孕而生,中国开始出现超星、书生这样的民营企业,后来出现具有各种科研、高校背景的商业内容提供商,如万方、同方、维普等专业公司。在网络化进程之后,以Google为代表的巨头又以强硬的姿态进入数字图书市场,他们把图书资源看作内容服务中不可缺少、必须占领的市场之一,逐一和国内拥有数字资源的图书馆谈合作。
以教育领域为例,Google、百度都曾和北京大学图书馆接触过。北京大学图书馆副馆长朱强说: “今年上半年Google和北大谈过合作,后来不了了之,目前北大只是和百度签署了初步计划书,答应将书目提供给百度,放在互联网上方便公众检索。”
作为网络巨头,Google的一举一动都会引起注目。万方数据市场部经理张秀梅说: “国内数字资源商业公司有规模的差不多30多家,经营状况好的营业额也不过200万~300万元,根本不能和Google这样的商业巨头相抗衡”。同样作为商业化运作的公司,万方数据的数字化方向是科研教育,已建立科技信息子系统、企业服务子系统、数字化期刊群等专业数据库。
Google在中国的目标很明确,第一步是争取与出版社合作,第二步则是直接与图书馆合作。Google(中国)表示: “目前,我们的主要任务是推动出版社合作计划在中国的发展,已经有6家出版社加入到我们的计划中,图书馆合作计划会在适当的时候推出”。而在国外,Google已经与相当数量的出版社和图书馆合作,获得了大量的数字资源,比如美国国会图书馆、斯坦福大学图书馆、牛津大学图书馆等。
Google与出版社的合作计划是指,Google投入资金、设备、人力帮助出版社的图书数字化,之后再将资源公开到网络,读者可以通过关键字查询到图书,浏览到相关的5页内容。Google和出版社各自保留一份图书数字化资源。Google与图书馆的合作大概也是如此,不过遭受了来自出版商的抵制,目前正处于停滞状态。
而在国内,号称中国Google的百度也加快了对图书数字化资源占领的步伐。百度宣称,目前签约的客户有中国科学院国家科学图书馆、北大图书馆、超星图书、书生电子、北大方正,合作的图书书目累计达到1500万册,科技期刊文献达到1.3万种。即使百度对合作的种种细节,比如扫描、版权、公开等等语蔫不详,仍可看出百度在数字资源方面的雄心壮志。耐人寻味的是,这家上市一周年的公司直接跳过了出版社这一步,而和拥有大量信息资源的图书馆、商业机构合作。
无论这些商业公司的行动如何,都希望能与国家图书馆合作,它们看中的正是国图独一无二的资源。国图目前已经和Google达成了协议,通过网络接口可以搜索到国图的书目,而所有资源仍然放在国图中。国图和百度也正在谈论网络接口的事情,如果不出意外,很可能也像Google那样合作。
突破: 数字化瓶颈
中国国家图书馆的数字资源经过10多年的建设,已经从简单加工过渡到深层次的资源利用。在这个过程中,各地图书馆都建设了具有特色的数字资源库。一些商业机构随之成长起来,最典型的代表是超星,这家公司和各大图书馆合作,扫描了大量的图书,各自留一份资源,面向各地图书馆销售图书资源库和面向普通读者销售图书阅读卡。
业内人士指出,当初超星的数字资源仅仅是简单地将图书数字化,后来出现的书生公司、方正公司初期也大概如此,这为中国图书资源数字化之路带来了误导。也由于当初数字版权的不成熟,这些商业公司起步快,获得了大量数字资源。
实际上,数字资源并非是将图书简单地数字化。国家图书馆的数字资源还包括各种非图书的资源,比如甲骨文、碑帖、敦煌文物、年画、金石、民国期刊等,北大也是将手中特色书籍、拓片等资源进行数字化。富平说,近年来,国家图书馆用于购买文献的资金约在1.2亿元左右,其中包括部分外文期刊、外文资料等。即使这样,购买印本文献、电子资源的经费还是不够充足。为了向公众提供更多的数字资源,国家财政每年另拨款1000万元,用于本馆的特藏文献数字化。她说,中文数字资源量非常庞大,包括传统文献的数字化、网上资源和电子出版物,这些有价值的中文数字资源,国家图书馆都有义务采集、整理、加工、服务和长期保存,这是国家图书馆必需履行的职责。
对于保护互联网上的中文数字资源,国家图书馆在互联网起步初期曾忽略过这个问题。富平举例说,现在国图对本馆网站改版时,发现没有保存国家图书馆网页的第一版,最后还是在美国Internet Archive找到了,美国Internet Archive保存了世界各地各种有价值的网站。富平表示,国图有责任保护各种中文网站的资源,这也是人类文化遗产的一部分,要让后来人能够查阅到现在网站的内容。
结合数字资源建设,国图正在与北京大学合作进行网络资源采集的研究与实验,2005年已经采集政府网站2万个,大到国家级,小到乡镇级网站。同时还采集了中文PDF报纸105种,专题资源库7个。从职责上说,国图有义务对中国的网站进行有重点采集,并能提供服务。但目前还有许多困难,首先是要政府部门明确此项任务,授予权力,并有一定的经费投入,在资源的服务上涉及到知识产权,要有一定的法律许可。
也有专家对此持有不同的看法,认为单纯地依靠国图采集政府网络资源是不够的,各个垂直行业应该由主管部门主动采集与保护,国图可以备份一份,而不是什么资源都交给国图保存,否则会增加国图的工作量,也不一定能做全。
中国的数字资源加工已摆脱了初期的粗糙时期,进入深层次阶段。张秀梅认为,数字化仅仅是初级阶段,如何为用户服务、如何利用好数字资源才是重要的。像万方数据这种专业数字服务的公司,要对数据提炼和加工,而不仅仅扫描变成数字资源就结束了。张秀梅说,数字化是非常繁杂的事情,是对数字化资源的再次加工和提炼。万方有400多人参与数字化工作,要做标引、检索字段的规范化,统一格式,做到入库上网,还要做成修改的PDF,可以直接拷贝到Word,比如一些符号电脑不能识别,这些工作必须人工参与。
以后的数字资源的发展,就可能结合网络,提供给读者多媒体的、多角度的、以用户为中心的图书资源,并非是现在简单地将资源数字化。各种多媒体杂志提供了一些思路,以后在图书馆,读者不仅能看书,还能“听”书,这或许是数字资源的一条道路,也是图书馆用来吸引读者的因素,这也为网络公司进入图书市场,提炼加工数据创造了商业机遇。
中国国家图书馆目前有600多台计算机终端,在局域网内供读者查询和浏览信息。
经过几年积累,国图已建成国内最大公众图书馆的数字资源库。这期间,国图还构想过“中国数字图书馆工程”,这是一项跨地区、跨部门、跨行业的宏大系统工程,其整体目标是在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供服务。由于项目太庞大,国图一个单位不可能牵头完成,专家建议采取分系统、分行业建设。截至2005年底,国图自建数字资源方面,已经制作完成了20个资源库,包括全文影像数据、音频视频数字化、网络资源、文津讲坛等,自建资源量到达1亿页、120TB。数字国图今年计划续建资源库12个,新建资源库8个。国图数字图书馆总工程师孙卫表示,数字国图建设的最近一个“五年计划”项目将在2008年正式投入运营。
跨越: 版权门槛
在这场数字资源争夺战之中,版权是图书馆必须解决的核心问题。
朱强认为,版权可以保护整个图书行业的价值链,包括著作人、读者、出版社、图书馆。如果没有版权问题,所有的图书能够通过网络获取,出版社和图书馆就没有存在的意义。北大在开放各种数据库的时候,严格遵守相关的法律条约以保护著作权,简单地说,只要能够在校园网,就能享受相应的数字资源服务。
国图的数字资源包括诸如金石、图书、年画、甲骨等具有中国特色、又没有版权的自建资源,而对于那些有版权的数字资源,则是通过购买各类专业数据库、获得作者授权等方式获取。在抓取网站的时候,国图已经遇到过类似的瓶颈问题,国图在因特网上提供政府网站的内容服务,是可以不经著作人许可,但对于其他商业网站,涉及到版权问题,目前还不能提供服务。
除国图自建资源外,还通过购买商业公司的数据库间接跨过知识产权的问题。国内大多数专业数据公司都拥有一定的背景和资源,本身就没有知识产权这个门槛。这些商业公司也积极寻找多种途径销售数据库,重庆维普和国图合作,将国图一些专业期刊数字化扫描,双方各保留一份。由于资金短缺,国图只购买一些专业数据库的使用权。富平说,根据不同数据库类型、不同使用年限付费,国图基本不会去做专业数据库,现在提供数字化资源内容的商业公司的运作非常成熟、专业,国图没有必要重复劳动。张秀梅认为,数字化资源共享是主流,万方会协助公益事业,而公益事业靠商业机构的力量更会锦上添花。
第三种办法是,国图希望通过作者授权的方式解决版权问题。每年国图要举办文津奖,首届文津奖由读者最终选出9本畅销书,国图希望得到作者的授权,从而服务于图书馆的读者。另外国图还通过捐赠的方式得到作者的授权。
在版权问题上,各种商业内容资源提供商采取不同的方式跨过知识产权这道门槛。以超星为例,以前大都扫描没有版权的书本,而现在则是找作者给予授权,通常分为三种情况: 第一是向作者赠送10年期读书卡; 第二是根据下载量给作者付费; 第三是作者要求单独定价,向用户单独收费。据透露,超星目前已经得到18万读者的授权。也正是由于版权问题,Google推出的图书搜索才被迫中止,等待相关法律裁决。Google认为,图书搜索主要是在技术上实现保护版权,尽管读者可以通过关键字轻而易举地找到所需要的图书,但不能免费阅读图书的大部分内容,Google只提供每个搜索前后5页,同时不可以打印、保存及复制。Google已经开始提供无版权图书的PDF文件下载服务,这意味着,如果版权问题解决,Google将拥有全世界最大的图书资源,任何人都可以下载图书。
知识产权始终贯彻在数字化资源的过程中,包括前期的电子资源、网络资源和卫星资源的采集到后期的各种服务(网站、电子阅览、电子邮件、电子商务、数字广播等)。今年7月1日正式实施的《信息网络传播权保护条例》对公众图书馆显得比较宽容,第7条规定,“通过信息网络向本馆馆舍内服务对象提供本馆收藏的合法出版的数字作品和依法为陈列或者保存版本的需要以数字化形式复制的作品,不向其支付报酬,但不得直接或者间接获得经济利益。”此条例既保证了公众图书馆作为公众设施的职能,又保护了著作人的知识产权,可谓来得及时。
控制: 文化话语权
图书馆内数字化资源的重要性不言而喻,这种资源又不同于一般的自然资源,属于公众领域的文化遗产。2004年12月,中国政府发布了《关于加强信息资源开发利用工作的若干意见》,明确指出信息资源是国家的重要资源之一,与能源、材料资源同等重要。可以这么说,谁掌握了这些资源,谁就掌握了下一代的话语权、文化的话语权。
尽管Google以“知识共享”为理由,投入大量金钱、技术、时间和人力不遗余力地帮助欧洲图书馆数字化,但还是遭受了几个大型图书馆的抗议,扫描计划不得不中止。2005年4月底,欧洲6国领导人联合提议建立“欧洲数字图书馆”,实现欧洲图书在网上的共享。联合协议中称: “如果不进行数字化,也许明天欧洲文化遗产可能就会在未来文明中失去自己应有的地位”。去年,南亚诸国也在计划共同建立一个传统知识数字图书馆,同时还将对相关法律加以修改,防止传统知识遭到商业专利的盗用。
长期研究数字图书馆、数字国图专家组成员孙承鉴认为,必须要警惕这种文化资源的掠夺行为。他说,现在都在走向国际化融合,搜索软件是其中的推动力之一,但必须要掌握文化信息资源,不能以文化共享为理由丧失了文化控制权。中国对图书馆数字化资源的警惕性正在逐步提高,富平举例: 我国西安的兵马俑,以前是可以随意让外国人以各种名义拍摄的,对方把这些资源数字化,进行研究并为本地读者服务; 现在就不允许随便拍摄了。国图和世界各大图书馆合作的过程中也是强调知识产权的所有权。
在“知识共享”方面,中国已经在某些项目中和国外机构有过良好的合作,国际敦煌项目就是成功的例子。该项目是中、英两国合作牵头的,在统一网络平台和数据标准之后,书目数据在网上共享,对象数据放在本地,在网上提供服务,无偿地供研究人员使用。这种合作模式为图书数字化提供了很好的思路。从利益最大化来说,国图并不排斥和Google这样的商业公司合作,最基本的要求就是本馆数字资源的所有权、使用权和处分权,不能随便被拿走,要保证为公众提供服务。富平说,坚决反对商业公司利用国图数字化资源商业化,她正在组织起草国家图书馆合作开发馆藏特色资源管理条例。朱强也希望借助商业公司的技术和资本力量来帮助北大传播知识,可以将书目提供给百度,但是资源一定保留在本地,这是知识产权和保护文化遗产的基本做法。
国家图书馆也与提供数字内容的商业公司讨论版权、文化遗产等一系列问题,国图直截了当地提出: 要保存中文资源。如果商业公司倒闭,或者中文数字化资源全部给国外公司拿走,那么中文数字资源的优势在哪里?我们又该如何传承文化?又如何谈得上保护文化遗产?这些问题基本上都能得到商业公司的共鸣。
商业公司要市场化运作,与国图合作的同时也在与国外公司合作,希望将中文资源市场做大。张秀梅说,万方数据也希望与Google及国图产业链的上下游合作,由此扩大市场知名度,通过国图拿到很好的资源,要在图书市场中找准定位,达到做大市场、多方共赢的目标。而国图希望与更多的像万方这样的专业公司合作,既解决了知识产权,还能保存国内专业数据资源。国外也有不少公司在和专业数据提供商谈合作,双方都在争夺数字化资源,从而更好地为本国读者服务。
孙承鉴乐观地说: “Google不可能将中国数据资源拿走,只能像现在这样以拿走书目的方式达到共赢”。他说,数字化增加了图书馆的功能,也为图书馆带来了新的发展机会,国家必须增加投资,扩大数字图书馆的服务范围。他举例道,中山图书馆联合广东省一些图书馆开展网上资源服务,每个月大概服务1000多名读者,点对点将图书发送过去,每天有8个人在线服务。
国图也在积极寻求多种解决方案,打破传统图书馆“围墙”的概念,做好虚拟化图书馆,多方位为读者服务。国图目前有600多台计算机终端,在局域网内提供读者查询浏览信息,只是象征性地收取一些费用。国图也根据读者的需求改善阅读环境,满足读者不同需要,希望将国图办成一个功能丰富、满足多层次读者需求的公共场所。
看来,在数字化、网络化的冲击下,国家图书馆已经找到了应对的措施,从容面对。
中国国家图书馆研究馆员富平:
“中文数字资源量非常庞大,国家图书馆有义务采集、整理、加工、服务和长期保存这些有价值的中文数字资源,这是国家图书馆必需履行的职责。”
采访手记:守护信息资源
数字图书馆或者图书馆数字化并不是新鲜事,早在20世纪90年代数字化开始时,国内图书馆就在探索数字化。现在图书馆面临的是数字化加上网络化带来的冲击。
冲击并不可怕,可怕的是忽视冲击背后的含义,图书馆的数字资源是典型的信息资源,而信息资源已经被国家放在战略的高度,同能源、材料资源一样重要。图书馆信息资源的独特处在于传承文化,这是别的资源不能相比的。
在采访中听到这么一句话: “必须占领中文信息资源制高点”。该位人士不反对商业公司公开数字资源,也很欢迎和他们合作,但所有权必须掌握在自己手中。这是对数字化技术融合之后的清晰判断,先在形式上保存再谈如何发挥作用。
目前我国社会处于变革时期,西方文化对传统文化的冲击很厉害,吃汉堡包喝可乐长大的年轻人,大多通过“出口转内销”的资源了解传统文化的。相反,国外对中国传统文化的态度很热情,积极挖掘中国传统文化,再按照他们的思维方式消化、产出新的文化。这些文化大多是中国文化外壳,西方文化内核,大量中国传统故事被改编得面目全非。难道这就是公开数字资源的后果?再者说,文化数字资源被国外拿走,服务于本国读者,就等于我国丧失了独特性,谈什么保护文化遗产?
信息资源公开与共享是必然的趋势,否则就成了“一潭死水”,没有发挥出应有的价值,但是在公开与共享的机制方面,还要从长计议、逐步摸索。庆幸的是,以国图为代表的公众图书馆正在思考这些问题。