中国可持续发展数据仓库建设
来源:万方数据 更新时间:2012-11-22


本文首先通过数据提取、数据转化、数据清洗以及创建元数据和数据字典等步骤,对多源异构的中国可持续发展数据进行了体系化扩展和标准化改造,为数据进入仓库奠定了墓础。之后通过一套新颖的数据多维组织模式,即基于可持续发展信息分类与编码的数据组织、基于元数据和数据字典的数据组织、基于空间和时间的数据组织及面向数据集市的部门级数据组织这四种方式的综合应用,实现了海量可持续发展数据的组织和管理,建立了一个集中式的可持续发展数据仓库。最后介绍了数据仓库管理平台,并对基于该数据仓库的可持续发展数据共享和网络服务进行了展示。
1 引 言

    可持续发展是指导我国社会、经济中长期发展的重大战略。在以信息获取、加工、应用和服务为核心的知识经济迅猛发展的今天,可持续发展数据是国家重要的数据资源,可持续发展信息共享已成为我国社会发展的迫切需要。中国可持续发展信息共享工程是我国一个国家级的信息共享的示范,旨在向政府部门与社会公众提供可持续发展各专题的数据服务与信息服务,它的实施将对国家的可持续发展能力建设,国家的可持续发展战略与决策具有重要的现实意义。通过“九五”和“十五”两个阶段的建设,已建成了基础地理信息历史数据分中心,林业资源数据分中心,农业资源与环境数据分中心,植物、动物与微生物资源数据分中心,水文水资源数据分中心,气象气候数据分中心,国土资源数据分中心,环境保护和生态环境专题数据分中心,环境无害化技术数据分中心,水土资源配置与宏观经济发展数据分中心等10大分中心和各自的可持续发展分布式共享数据库群。各分中心通过数据汇交,集中了17个部门约30GB的空间数据与非空间数据,内容涉及基础地理、资源、环境、灾害、经济与社会等多个领域,具有跨学科、多时相、多空间分辨率、多种格式的特征。这些数据通过可持续发展信息共享网对外发布和提供服务。如何对集中共享的数据进行组织、管理和存储,即可持续发展数据仓库的建设是可持续发展信息共享工程的重要组成部分,也是有效地为政府、公众提供可持续发展数据服务和决策分析的基础和关键。

2 可持续发展数据仓库建设的总体框架

    数据仓库建设的首要任务是对数据源进行分析,由于可持续发展数据的数据源的复杂性、数据类型和生产方式的多样性,需要对千差万别的数据进行改造,消除数据的异质性,以保证数据质量,这是数据仓库建设成功的基础。可持续发展数据仓库建设以标准化理论与方法为指导,制定了信息分类和编码标准、元数据标准、数据字典标准、数据格式转换标准等,用来指导数据体系化重组和标准化改造,包括对数据进行提取、转化、清洗、建立元数据和数据字典。

    数据仓库建设的另一个关键问题是仓库中数据的组织和管理。本文提出了一套多维组织模式,即基于分类编码的组织、基于元数据和数据字典的组织、基于空间和时间的组织、面向数据集市的组织,这四种组织方式从数据使用者和数据管理者两个角度进行设计,既提高了用户的检索效率,又方便了数据管理者对数据的管理。

    由于大部分可持续发展数据都是空间数据或与空间位置有关的数据,如矢量图、遥感影像、统计数据等,为了便于管理,本文选用了性能卓越的ArcSDE和Oracle9i进行存储,并开发了一个数据仓库管理平台。

    可持续发展数据仓库总体框架如图1所示,共分为三层,即数据获取层、数据仓库建设层和管理工具层,第二层是整个仓库建设的关键和核心部分。

图1 中国可持续发展数据仓库建设总体框架

图1 中国可持续发展数据仓库建设总体框架


3 可持续发展数据的体系化重组与标准化改造

    3.1 数据提取

    十五可持续发展信息共享汇交的数据具有跨部门、跨行业的特点,数据内容涉及的领域和范围十分广泛,为将海量数据更加系统化,以便能够方便地组织和快捷检索,统一的分类和编码体系是非常重要的。为此,制定了中国可持续发展信息分类和编码标准,其中前三级包括基础地理信息、自然资源、自然环境、灾害、社会和经济等5个门类,37个大类和229个小类。在对集中共享的可持续发展数据进行提取时,根据数据内容,对照5大门类的内容范畴对数据进行了体系化重组,建立了5大专题数据库。并对所有未编码的数据,在属性数据表中增加“编码”字段,赋予小类码值,从而使数据组织和数据间的从属关系更加清晰。

    3.2 数据转化

    可持续发展信息共享的数据来源和类别多种多样,采用的坐标系统、比例尺、投影方式和数据格式等都不尽相同。数据转化即指对数据的坐标系统、投影、比例尺和数据格式的转换。统一空间定位框架是地理信息数据标准化改造的重要方面,为各种数据的信息输入、输出和匹配处理提供了共同的空间基础。通过空间配准使各种来源的地理信息和数据能够具有相同的地理基础,并在这个基础上反映出它们的地理位置和空间关系特征,便于基于地理位置的空间分析、处理与应用。本文采用克拉索夫斯基椭球体、北京1954作为参考坐标系,使用国家基础地理信息中心提供的统一的空间定位框架,根据其提供的1∶100万和1∶400万比例尺的省、市、县基础地理底图进行配准和投影转换,并将各数据层与底图叠加,把各种地理要素转入到统一的空间定位平台。数据格式的转换是数据处理、分析与应用的需要,为此项目建立了统一的数据转换标准,包括矢量数据、栅格数据、统计数据等的标准格式,以及其他相关的地理信息技术标准和规范。项目制定统一的数据标准格式,矢量数据和影像数据采用ESRI的GeoDatabase格式,属性数据采用Microsoft的mdb格式。

    3.3 数据清洗

    数据清洗包括对空间数据和属性数据的清洗。空间部分主要指采用统一的测量单位、精度标准,对数据的完整性、逻辑一致性进行检查等。属性数据主要指对属性表的表结构进行修改,对部分字段进行必要的增、删、改。此外,由于在Oracle数据库中,数据表的名称不能含有一些特殊字符,而在可持续发展数据库中,存在大量的数据表是以特殊字符作为表名的,因此为了能够保证数据库的兼容,还包括数据文件名的修改。我们将各表以系统自定义的表名进行存储,并将原有表名以适当的方式存储,以满足数据库的命名规范,并在两者之间建立一个映射关系,以便于查找。

    3.4 元数据、数据字典的改造与建立

    可持续发展信息共享系统工程中集中了海量的空间数据,如果没有对数据的描述性信息,人们将会淹没在数据的海洋中却无法快速获知其含义和用途。元数据和数据字典可以便于用户高效及时地发现、访问、获取和使用数据。此外,该类数据的建立保证了数据资源的完备性和准确性。因此,所有汇交的各专题数据应该进行元数据、数据字典的标准化改造。由于各部门和专题的数据存在很大差异,项目建立了可持续发展元数据和数据字典标准,并设计了一套遵循该标准的元数据和数据字典编辑丁具软件。

    此外,为了方便用户对元数据和数据字典浏览,对其显示风格进行设置,保证各部门各领域的元数据和数据字典保持一致的显示效果,项目设计了统一的样式表。

4 可持续发展数据仓库的多维数据组织

    可持续发展数据的组织直接关系到数据仓库的效率,影响到网络共享和数据服务,为满足用户对数据的高效检索和多维视图的快速反馈,以及数据管理者方便地进行部门数据管理,因此数据组织是数据仓库建设成败的关键环节。可持续发展数据仓库通过四种方式,即基于分类编码的数据组织、基于元数据和数据字典的组织、基于时间和空间的数据组织、面向数据集市的部门级数据组织,这四种方式通过综合信息表进行关联,形成了可待续发展数据仓库多维数据组织模式。

    4.1 基于可持续发展信息分类编码的数据组织

    以分类编码标准为依据,为可持续发展数据建立了1个门类信息表,5个大类信息表,37个小类信息表和229个数据综合信息表。门类信息表一大类信息表一小类信息表一综合信息表之间通过“编码”和“表名”字段进行关联和检索,其关联关系如图2所示。图2中,NameMapping表是数据库系统中一个较为特殊的表,它将数据库中所有属性表的原有表名与数据库系统对其自定义的表名进行关联和映射,以便于系统对属性数据的查找浏览与访问。通过按照可持续发展分类编码标准的组织,各部门汇交的数据从主题内容上进行了类别划分,并形成了门类大类小类的线性层次关系,使数据的检索更加方便和高效。

图2 四层表之间的关联关系
图2 四层表之间的关联关系


    4.2 基于元数据和数据字典的数据组织

    元数据和数据字典为数据使用者分别从宏观和微观角度了解可持续发展数据提供了非常宝贵的信息。考虑到用户从提出数据需求到对数据的检索的一般思维模式,即首先通过关键词的查找,了解共享数据库中有哪些数据,然后通过可持续发展信息共享网等数据服务门户提供给用户一个数据列表。之后,用户需要进一步了解搜索到的数据的基本情况,就需要用到元数据、数据字典和数据说明等信息,通过筛选确定符合需求的数据,再进行浏览、甚至下载数据。依据这套数据检索和获取模式,对数据组织时就需要充分利用元数据和数据字典等描述信息,同时要在它们与数据之间建立关联关系,以保证用户在使用数据时能够非常便捷地查找和浏览所需的数据,这是可持续发展信息共享网中对空间数据检索需要解决的关键问题。元数据、数据字典和可持续发展数据之间的关联,是通过综合信息表实现的。在该表中增加“数据文件名”、“元数据文件名”、“数据字典文件名”、“元数据文件”、“数据字典文件”等几个字段用于建立与数据的关联。元数据、数据字典以BLOB类型存储。例如,当用户查找到元数据文件名后,就可以找到对应的元数据文件和数据字典文件,直接关联数据文件名,再映射到专题数据库中的指定数据文件。

    4.3 基于空间和时间的数据组织

    可持续发展数据具有多空间分辨率和多时间分辨率的特征。从空间特征来看,各专题数据的空间基础具有不同的粒度特征,有的以省为行政单元,有的以市、县为统计单元。时间特征上,有的以年为单位,有的以月为单位,有的以日为单位。因此这些数据在空间和时间上形成了各自的序列,空间上呈现出“省-地市-县”三级粒度级别,时间上形成了“年-月-日”的粒度级别。由于用户在检索数据时可能按照时间和空间特征进行检索,因此除了把数据进行分类,按照主题内容进行组织以外,按照空间和时间特征的组织也是非常必要的。基于空间和时间的组织是通过在综合信息表中增加空间特征字段、时间特征字段来记录相关信息。时间、空间和主题从三个不同的维度构成了可持续发展数据组织的立方体结构。

    4.4 面向数据集市的部门级数据组织

    基于主题-空间-时间的组织方式可以使用户能够从数据内容、空间和时间各个维度对数据进行检索和抽取。基于元数据和数据字典的组织方式便于用户首先通过对元数据和数据字典的了解,再进一步缩小检索范围和准确定位所需的数据。以上三种方式是从数据使用者角度对数据进行组织的。对于数据提供者而言,这两种方式不便于各部门对本部门数据的检索,给数据的再次汇交和更新带来了困难。为此,本文提出了一种面向数据集市的部门级数据组织模式,能够做到以部门为单元的数据划分,形成各个部门自己的数据集市,从而可以对部门内部的数据进行检索和管理。通过在数据库中增加一个“管理部门”表,并在综合信息表中增加一个“管理部门”字段,这样就可以把数据和其管理部门关联起来,保证了数据提供者对本部门数据的查询、检索、访问和管理更加高效、便利。

5 可持续发展数据仓库管理平台和数据服务

    可持续发展数据经过体系化重组和标准化改造,按照5大门类提取建立了基础地理、自然资源、自然环境、灾害、社会与经济等5大专题数据库,并按照上述四种组织方式在数据库中进行组织。由于可持续发展数据以空间数据和可空间化数据为主,因此选用了性能卓越的空间数据引擎ArcSDE和Oracle9i数据库管理系统进行存储。随着可持续发展信息共享的不断深人,不断增大的数据量,复杂的数据组织,频繁的数据访问和服务需要一个有效的数据资源管理系统。为此,开发了一个基于客户机/服务器模式的数据仓库管理系统,对矢量数据、影像数据、属性数据信息进行集中式管理,该平台具有对覆盖全闰的多源、多时相、多尺度、多领域、多学科地理时空信息进行高效存储、管理、表达、查询检索与统计分析等功能。对于数据的检索,该平台提供了一种多维视图的力一式,数据管理员可以从多个视图对数据进行查找和浏览,包括分类视图、部门视图和主题视图。分类视图是按照中国可持续发展信息分类与编码标准体系将数据以四级日录树的形式展现,包括一级的5个门类、二级的37个大类、三级的229个小类和四级的数据层。通过部门视图,17个数据提交单位可以对本部门负责的数据进行查看。主题视图是按照我国可持续发展最为关心的人口经济与社会、地震主题、环境保护、水资源主题、能源主题和可持续发展背景状况主题等六大主题数据进行抽取,为可持续发展的热点领域提供数据服务。

    通过数据仓库建设和管理平台使可持续发展集中共享的数据得到了很好的管理,共享的数据最终通过中国可持续发展信息共享网对外发布和提供数据服务。用户首先可以按照主题(大类、小类)、数据的时间特征和空间范围特征,检索元数据和数据字典,之后对满足条件的查询结果进一步筛选,阅读元数据、数据字典文件,再浏览地图数据及其属性数据,最终确定需要的数据文件。

6 结束语

    中国可持续发展信息共享工程是中国可持续发展建设的重要举措,为部门间的数据共享和沟通提供了平台。数据仓库建设和合理的数据组织是实现数据有效共享与和服务的基础和关键。本文通过对可持续发展数据进行体系化重组和标准化改造,使多源异构的数据具有统一的基础和规范,通过多维组织模式实现了对海量可持续发展数据的组织与管理,建立了可持续发展数据仓库。该组织模式即符合用户对数据检索的习惯,又便于数据提交单位和数据管理人员对数据的管理和维护。中国可持续发展数据仓库的建设为可持续发展数据的共享和服务提供了良好的数据基础。