作者:朱冰冰
摘 要:阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。
关键词:数据挖掘;个性化服务;数字图书馆
中图分类号:TP274;G250.76 文献标识码:A
1 数字图书馆的定义
自20世纪80年代以来,数字图书馆的研究与应用一直是国内外IT界和图书馆界关注的热门话题。从广义上说,来自网络的有一定组织的一组满足需求的信息就可称为数字图书馆。而数字图书馆联盟(Digital Library Foundation)较为严格的定义是:“数字图书馆是一个数字信息对象收藏,包括支持用户进行定位、检索和获取这些信息对象的服务,组织和表现这些对象的方法以及将这些对象提供给用户的相关的信息技术。” [1]该定义突出了数字图书馆的3个要素:收藏、服务和技术。
收藏指的是不同于传统馆藏(即图书馆的物理馆藏,包括所收藏的各类实体文献的总和)的数字信息收藏,主要由本馆的数字化信息资源和馆外数字信息资源两部分组成,是数字图书馆的内容。
关于技术,美国数字图书馆提出了建设数字图书馆的八项原则,普遍得到学术界的认可 [2]。
服务是数字图书馆工作的核心。现在,数字图书馆信息服务模式经过了分散分布式的“资源/产品中心”“馆员中心”服务模式实践,正在向集中式的“用户中心”服务模式深化发展。未来的数字图书馆信息服务应该是一种以用户为中心的集成式服务,应当在服务集成、空间聚合、使用智能上下功夫 [3]。由此,个性化的服务应运而生,并成为图书馆信息服务研究的新课题。
2 现阶段国内外图书馆个性化服务系统研究现状
2.1 MyLibrary系统
目前,国内外研究较多、并已大规模投入使用的就是MyLibrary系统,这是一种适合互动式的图书馆服务模式的个性化服务系统。它根据个人的兴趣爱好和学习需要,通过Web页面以个人用户的方式收集、整理和链接个人所关注的数字资源领域,当用户再次访问MyLibrary时,便可获取与此相关的最新内容。这种服务的工作原理是,首先由专业馆员将图书馆和网上的数字资源按学科主题或资源类型为用户创建一个资源列表,其次系统给用户提供一个登录账号,用户通过账号登录后,就可以从图书馆网站所提供的资源列表中选取自己所需的资源及其他Web资源加入MyLibrary;此外,MyLibrary还提供最新信息通报、个人文件夹及书签功能等服务,用户还可以定制自己需要的服务项目。而系统则根据用户的注册信息和定制内容为每个用户建立一个策略文件,包括用户的个人信息和代表用户选择数字资源清单的参数。这个文件以Cookie的形式保存在用户电脑的硬盘或服务器的数据库中,当用户访问MyLibrary页面时被提取出来,并根据返回定制页面的最新内容 [4]。
比较国内外已经投入使用的MyLibrary,发现国外在这方面起步较早,系统基本实现了资源定制、页面定制、最新资源通报、与图书馆OPAC的接口、个人图书馆管理、个人链接收藏、图书馆目录及借阅记录查询等功能;国内个性化服务系统相对落后许多,一些中小型系统大多基于LASⅡ开发,只能提供书目查询、期刊目次查询、网上预约、网上续借、新书通报、馆际互借等简单服务,而且仅限于校内读者,外部用户无法进入。
2.2 个性化服务系统存在的问题
从集中式的“用户中心”服务模式的发展趋势看,现有的个性化定制系统仍然存在诸多问题,主要表现在:
(1)信息组织问题。以MyLibrary为例,它主要依赖现有的数据库技术和动态网页技术,而没有从本质上改变图书馆原有信息组织方式。
(2)没有完全从用户需求出发,用户只能被动地选取自己所需的资源,图书馆提供的服务基本从现有资源出发,而不是从用户的需求出发。
(3)缺乏对用户行为的精确描述。现有系统通常只能通过用户提交的个人资料来提供固定的服务,而没有智能化地主动获取和动态跟踪用户需求,更没有对这些数据进行加工整理,进而用数据挖掘工具提取其中具有规律性的东西,为图书馆的整体建设提供决策性依据。
3 数据挖掘技术的应用
从以上个性化服务系统存在的问题可以看出,其中一个重要原因在于:我们还没有真正掌握用户的需求并把它准确地表示出来。用户的信息需求及其表达是一个复杂的问题,英国学者泰勒提出的信息需求理论堪称经典。他认为,用户的需求有些是潜在的,有些则是显性的。从概括的程度可以分为3个层次:各种用户共同的需求、一部分用户的相同需求、用户的个别需求。在这里我们主要讨论如何运用数据挖掘技术提取出具有一定共性的需求,从而把它作为开展团体推送服务、选择购买电子数据库、调整服务策略等工作的参考标准。数据挖掘是指在大量的数据中发现潜在的、有价值的模式以及数据间关系(知识)的非平凡过程,它利用机器学习、神经网络、统计学等方法来抽取易于被人们理解的规则,以指导商业行为或辅助科学研究。下面我们根据数据挖掘的种类分别对于他们在数字图书馆中的应用加以分析对比。
3.1 分类模型
分类模型主要用于提取描述重要数据的模型,并根据这个模型将数据库中的数据划分到不同的类中 [5]185-217。我们可以将它用于用户分类研究,包括用户的分类、用户属性和特征分类、用户满意度分析等。例如,根据用户的个人资料及他们定制的个性服务,我们可以用决策树、规则归纳、神经网络等分类方法找出具备什么样特征的用户会定制某一种服务,这种用户所占的比例是多少。其结论不仅可以作为主动推送服务的依据,不断扩大潜在用户群,还可以根据这部分人的学历、职业背景决定相应的服务策略,例如,如果这部分用户群具有一定经济收入、并且对于在线数据库具有持久的需要或兴趣,我们可以考虑把他们作为固定的服务对象,在购买在线数据库时对他们采取政策上的倾斜,定期给他们发送数据库更新信息,还可以对他们进行问卷调查,作为改进服务的依据。
3.2 关联模型
关联模型是描述数据库中数据项之间所存在的关系的规则,即一个事物中某些项的出现可导出另一些项在同一事物中的出现,即隐藏在事物中的关联 [5]149-179。例如,我们通过关联规则发现,如果用户定制了某一种服务,那么他很可能会定制另一种服务;或者,链接到某一网络资源的上的人大部分都会链接到另一网络资源上去,那么我们就可以把这两种服务或资源放在一起推荐给用户,还可以从中找出原因,从而制定相应的服务策略。
3.3 序列模型
序列模型与关联模型很相似,不同的是序列模型的对象是按时域分布的,发现的规则与时间的先后顺序有关 [5]283-284。例如在用B/S模式实现的个性化服务系统中,我们可以用Cookies记录下用户访问过的资源,从中可能发现如果用户访问了A链接,那么30 min内访问B链接的可能是48%,这就是序列模型发现的规则。如果得到的结论是这样的:用户如果访问了A链接,那么访问B链接的可能是48%,这就是关联规则。
3.4 聚类模型
聚类是将一个群分成多个类,使同类个体尽可能相似而不同类间个体差异尽可能大。也就是识别出一组聚类规则,将数据分成若干类,实现“物以类聚” [5]223-259。与分类不同的是,聚类从未知开始,既不知道具体的分类标准,也不知道会有些什么类,按照给定的聚类参数(如相似度等)进行分解、合并。得到的结果由专家甄别,如果不满足目标,需要改动聚类参数,重新聚类。一旦得到目标,分类规则也就通过聚类参数得到。在这里,我们可以对某一用户群进行聚类,找出其中相似度尽可能大的群体,对他们采取不同的服务方式和服务策略,并根据用户反馈,验证聚类结果及服务满意度。
3.5 回归模型
回归用属性的历史数据预测未来趋势。最简单的情况下,可以用标准统计方法,如线性回归等 [5]212-214。但实际上非线性问题居多,如网页访问量的变化、数据库流量的升高降低等,由于受许多因素的影响,问题会变得复杂。回归模型的任务就是找出对这些变化的准确描述。有些技术既可用于分类又可用于回归,如CART(Classifiedon And Regression)。
3.6 时间序列模型
时间序列模型用已有的数据序列预测未来。从这一点上看,与回归模型很相似,但回归模型不强调数据间的先后顺序,而时间序列模型要考虑时间特性,尤其要考虑时间周期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等 [5]280-283。例如,对于在线数据库的访问量会有一定的周期变化,我们可以从中找出规律(甚至可以找出原因,比如学期变化或假期来临等),从而适时地调整工作重点。这里要注意,时间序列模型和对时间序列数据的挖掘是两个不同的概念。对时间序列数据的挖掘可以用到很多种模型和方法。
4 结语
数字图书馆在未来较长的一段时间必然会得到长足的发展。至于现有的技术:门户网站、从分布式人工智能和分布式系统发展来的多代理系统、网格技术,究竟哪一个更能促进图书馆的发展,就要看哪一个能给用户提供一个真正个性化的服务环境,真正实现“用户需要什么,我就提供什么”的运作方式。而数据挖掘技术因其在海量信息资源中的智能表现、无需专家先验知识的客观结论、大量可供选择的挖掘工具和算法,成为数字图书馆个性化服务建设中不可或缺的技术支撑。
参考文献
[1] 聂华.数字图书馆——理想与现实[J].大学图书馆学报,2004(1):14.
[2] 刘薇.数字图书馆的结构模式[J].图书馆理论与实践,2004(1):11.
[3] 郭海明,邓灵斌.数字图书馆信息服务模式研究[J].中国图书馆学报,2005(2):47.
[4] 张玲,孙坦,杨晓湘.数字图书馆个性化信息服务的演变与发展[J].图书情报工作,2005(1):41.
[5] 韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
───────────────
第一作者简介:朱冰冰,女,1977年3月生,2000年毕业于山东师范大学信息管理学院,现为上海大学计算机工程与科学学院2004级硕士研究生,助理馆员,上海市延长路149号上海大学社区c2-204室,200072