数字化:档案馆的下一步
来源:天极网 更新时间:2012-04-15

 

    8月14日,美国国家航空和航天局宣布,人类首次登月的原始录像带遗失。这批原始录像包括登月时宇航员的身体状况和飞船情况的数据,还有阿姆斯特朗登月成功后说出“这是个人迈出的一小步,但却是人类迈出的一大步”时的画面。因为已经保存了录像带的副本和所有数据,美国国家航空和航天局对遗失录像带并不担心。尽管如此,副本的画面质量很差,与原版录像带无法相比。所以科学家们仍然迫切希望找回录像带。

    该局工作人员声称,那些录像带或许只是放在数以万计的磁带之中找不到了而已。这时他们才发现,拥有海量资料而没有好的管理方法并不是一件好事——磁带找时方恨多。而计算机的优越性是检索速度极快,如果该局能够未雨绸缪,早一点将这些珍贵的重要数据数字化,也许就不会发生“首次登月录像丢失”事件了。

    20世纪90年代,国际档案界开始对电子文件、纸质档案信息的数字转化和数字档案馆等诸方面进行有益研究,并取得一些成果。在中国,数字档案馆的研究也已广泛开展。8月17日,在中国科学院国家科学图书馆举行的“档案管理前沿与发展趋势学术报告会”上,中国科学院档案馆馆长屠跃明介绍了他们在数字档案馆方面的研究进展。

    档案馆:向数字化驶去

    屠跃明指出:“随着国家信息化的推进和电子政务的应用,数字档案馆是信息时代档案管理的必然趋势。”电子政务系统的应用与数字档案有什么联系呢?屠跃明解释了中国科学院电子政务管理(ARP)与数字档案馆的关系。

    “今天的文件就是明天的档案。”屠跃明说,“随着电子政务在国家和中国科学院的快速发展,无纸办公可能就在不远的将来实现。随之产生的大量电子文件将成为馆藏档案信息的主要来源。如果缺乏相对完善的数字档案管理方案、技术及基础设施,不仅档案工作与中国科学院的发展脱节,而且国家各领域的信息化进程必然会受到影响和制约。”

    屠跃明在接受《科学时报》采访时形象地描绘了档案资料数字化的优点:“现在,新疆等边远地区的科研机构如果想使用中国科学院档案馆的资料有两种方法:一是乘飞机到北京查阅,这不仅浪费人力财力,更浪费时间;另一种方法是向北京方面提出请求,等候档案馆传真回复,这种方法虽然省时省事,但是资料使用者却失去了选择资料的自主权。如果数字档案馆能够建设成功,远在新疆等边远地区的使用者就能通过网络足不出户、自由地选择用户需要的信息进行浏览和获取。”

    数字档案馆不仅是电子政务发展的需求,也是信息技术发展的必然产物。屠跃明说:“信息技术已经从根本上改变了档案工作的各个方面:档案工作的内容从单纯地管理档案本身,逐步向实现档案信息资源的综合管理发展;档案工作的管理方式正从手工管理向自动化、网络化迈进;档案工作的模式也由传统的利用档案实体向逐步以利用数字档案信息为社会提供服务的模式转变;更重要的是,档案的服务利用方式从分散、孤立、局部的被动信息服务向系统、整体、全局的主动服务方式转变。”

    OAIS标准:必要却不充分

    屠跃明重点介绍了数字档案馆的建设框架。“ISO(国际标准化组织)推荐的OAIS(开放档案信息系统)描述了一个档案系统存在的环境、档案系统的功能组织以及支持档案信息管理的基础结构。OAIS参考模型已经成为许多数字档案系统建设普遍遵从的一个标准规范。”屠跃明说,“中国科学院数字档案馆的建设也将遵循OAIS参考模型。”

    屠跃明还告诉《科学时报》:“使用OAIS模型并非因为它是ISO的推荐方案,我们选择OAIS是经过仔细研究论证的,该模型确实适合数字档案馆建设的理念和要求。”

    然而,虽然有标准化的参考模型,我们也不能在OAIS参考模型上坐享其成,这一标准并不是实现档案数字化的充分条件。屠跃明强调说:“我们只是在参考和应用OAIS参考模型,但它并不是我们实际的管理系统。OAIS参考模型只是对与数字档案系统相关的环境、功能模块以及信息对象的概念化。我们并不能根据这个参考模型建立起实际的应用系统。在参考模型中缺少系统的体系结构、存储或处理过程、数据库设计、处理平台以及任何与建立一个档案系统机能相关的技术细节。”

    建设未动,标准先行

    OAIS模型只是数字档案馆的起点,数字档案馆的建设所遵循的一系列标准都必须先行制定。

    以纸质档案数字化为例,屠跃明说:“纸质档案只有通过数字转化,才能成为在网络上流通的数字信息,否则,数字档案馆就成了空的。我们对中国科学院的档案作了一个分析,2000年以前的档案95%以上都是纸质文件。”由于档案的特殊性,纸质档案的数字化过程并不是简单的文本输入。屠跃明指出:“档案的数字化不同于图书,图书只是提供认读的信息流,而档案上有领导的签字、印章,因此以图片格式保存的档案文件才能真实反映档案的原貌,所以我们把图片作为纸质档案数字化的首选方式。在图像格式问题上,我们的研究认为,黑白图像的保存使用TIFF格式、彩色图像使用JPEG格式都是比较适合档案管理要求的,这与国家档案局2005年发布的标准不谋而合。”

    通过纸质档案数字化得到的图片还不能构成完整的档案电子信息。屠跃明说:“我们传统上认为的信息——比如说一项认定或对一项工作的总结,都只是一个内容的信息。实际上这是一个缺少元数据的不完整的档案电子文件。”

    什么是元数据呢?屠跃明解释说:“元数据简单说就是数据的数据,它是一组描述数字档案信息的内容、背景和结构信息及整个管理流程,又能被计算机及网络系统自动辨析、分解、提取和分析归纳的数据。在长期保存过程中,元数据会发挥很重要的作用,它可以帮助我们检索、辨认信息,确认文件是否可读。”

    “作为说明的元数据也有它的具体内容、格式和标准。对电子文件来说,所对应的承办人、签批人、主送单位、抄送单位等诸多应在纸质文件中反映出来的信息都应在元数据中有所表现。纸质档案进行数字转化同样需要保存相应的元数据,其重点是保存纸质档案转换为数字档案的扫描工作中生成的相关背景信息,包括文件的原始情况、扫描文件类型、扫描分辨率、黑白阈值、压缩标准、读取软件名称和版本以及扫描人、扫描时间等信息。这些信息都可以在扫描工作进行的同时由软件自动生成并保存。数字档案信息管理部门在收集电子文件数据时,务必将数字档案信息的元数据内容一并接收,确保数据的真实、可用、维护和延续。”

    档案数字化:只欠观念转变

    然而,掌握了技术、建立了标准并不等于这项工作能立即得到推广,一个项目建设总是需要一个从技术上、认知上的转变过程。屠跃明指出:“在影响档案数字化发展的诸多因素中,各方面认识的转变是关键。”

    关于档案数字化带来的数据长久安全性的问题,屠跃明提出了他们的解决方案:“对数据采用多重备份为主的长期保存方式,进行档案数据的异地备份存储。一旦一处数据发生损失,可以迅速从其他缓存点恢复数据,尽量减少不可避免的因素造成的数据损失,确保档案数据的长期安全保存和利用。同时还要使用适时迁移和开放描述等技术手段进行辅助保护。”

    谈起档案数字化面临的困难,屠跃明说:“现在经费不足、人力资源缺乏成了制约档案馆数字化的瓶颈。无论是数字档案馆的配套建设,还是把数十年来的纸质档案数字化,都需要投入大量的人力、物力资源。而我们在这两方面的缺口都很大。”

    “技术上的问题都很容易解决,有关领导的关注和重视才是推进数字档案馆建设的关键。我们所做的研究工作不仅是为了论证数字档案馆建设的可行性,也是为了能够力争引起领导和各方面的重视。如果领导重视我们的工作,可以得到经费上的支持,设备、专业人员等问题也会迎刃而解,一系列良好的连动反应也会随之而来。”