上海社保卡数据仓库案例
来源:中国电子政务网 更新时间:2012-04-15

市场背景

随着社会主义市场经济体制的建立和不断完善,中国社会保障体系建设的步伐明显加快,目前已初步建立起包括养老、医疗、失业、工伤和生育保险在内的社会保障体系,为加快国有企业改革与发

展提供了有利条件。社会保障事业的发展,保证了劳动者基本生活需求,随着业务范围和业务量的迅速增长,手工处理模式已远远不能满足社会发展需求,要尽快建立独立于企业之外的社会保障事业的信息化管理势在必行。

项目背景

基于以上的社会需求,2002年,上海市社会保障卡中心正式开通。该中心主要承担上海市社会保障卡系统市级数据交换平台和共享数据库的建设和维护,实施政府业务部门之间的信息共享。经过社会保障卡一期和二期工程的建设,中心目前已建立面向市民提供保障卡持卡人资料采集、申请、发放及管理的全套计算机网络与处理系统,制定了保障卡中心与公安、劳动和社保、医保、民政及公积金等有关政府行政部门信息交换与共享的标准和规范,规定了信息交换的内容、格式等方面,并形成了上海市保障卡服务中心个人档案数据库资料,为数据深度利用奠定了物质基础。

不过,上海社保卡现有的多个系统主要是业务系统,虽然在业务管理工作中发挥着不可缺少的重要作用,但数据具有一定的分散性和独立性,如何保证业务功能的完备和统一,处理流程的规范与合理,信息交换的通畅和一致,以及信息处理和信息服务的层次化和个性化成为下一步发展的关键。因此在业务系统完善和成熟以后,作为最重要的一个发展方向就是以数据仓库为基础的决策支持系统建设,它包括信息资源的有效采集和管理、合理衍生和使用、充分挖掘和利用,实现联机事务处理(功能支持)和联机分析处理 (信息支持) 的合理隔离和有机统一,从而实现对各种业务及其管理的强有力支持。此外,随着上海市社会保障卡系统的发展成熟,共享数据库中的数据还会不断积累,通过建立数据仓库系统,对这些数据进行再利用和深加工不仅有利于市民服务信息中心业务的发展,而且可以使共享数据库更好地服务于政府的相关部门,初步实现共享的市民基本信息在政府部门决策中的运用。

建设目标

目前,社保卡操作的核心数据库的容量为500GB,包括社会保障卡的持卡人个人基本情况以及照片指纹、制卡生产和交易等信息。其中,持卡人的照片和指纹信息占270GB。但在社保卡数据仓库的近期建设过程中,持卡人的照片和指纹信息暂不列入数据仓库的分析范围内,所以数据仓库所要分析的源数据量为230GB,据此产生的综合数据容量在100GB以内。同时,由于共享数据库的不断完善以及分系统数据的获取分析的需求,其数据仓库的数据容量还将不断的扩充。并且其他数据如: 市民的各类社会保障基金的数据和社会救助优抚数据不断地增加进来,因此5-8年之内总数据量完全有可能达到1TB左右产品需求。

依据自身的需要并结合上海市社会保障卡中心目前的现状,上海市社会保障卡中心在数据仓库的建设方面确定了明确的目标。上海市社会保障卡中心表示,通过数据仓库系统的建设,希望可以加强目前业务系统及数据处理中心的功能,并解决部分目前信息系统所不能解决的问题。因此数据仓库建设必须要做到以下几点: 

1. 发挥信息对决策的指导作用,提高决策分析人员的工作效率。

2. 实现联机事务处理和联机分析处理的合理隔离和有机统一。

3. 实现业务数据到数据仓库的自动装载,系统管理各种业务系统产生的数据。

4. 以全新的方式实现分析型应用的功能。

5. 实现基于浏览器方式的应用界面,实现应用系统前端的零维护。6.       建立社保卡数据分析的平台。从而提高社保卡信息系统建设的先进性,逐步完善业务管理职能。

同时通过数据仓库各个阶段的实施,具体从功能上要求达到:

1. 为行政管理人员(包括政府有关劳动与保障管理部门、政策制定部门,以及保障卡中心管理部门)提供各种信息指标和统计图表查询。要求简单友好易用,信息呈现的方式可以是电子表格、直方图、饼图或折线趋势图等形式。

2. 为分析人员提供联机多角度、深入浅出的数据分析界面,使其能够回答业务问题。如医疗保险改革后市民医疗费支出对生活水平有多大影响以及对哪些人有影响。

3. 为管理人员提供因突发性和临时性的需求,而需要生成报表的界面。要求查询条件和组合方式灵活。

在经过慎重的反复评测与比较后,上海市社会保障卡中心最终选择了全球领先的企业及移动基础架构供应商Sybase公司。之所以选择Sybase,上海市社会保障卡中心表示,首先,在数据仓库领域Sybase具有的崇高知名度及显而易见的强大的实力,给予了我们极大的信心。其次在具体的沟通过程中,Sybase提供的方案完全满足了我们提出的各种要求。Sybase最终赢得我们这个项目可以说是水到渠成的表现。

方案规划

在赢得上海市社会保障卡中心的项目后,Sybase开始了更进一步的解决方案规划。Sybase认为在开展社保卡数据仓库工作时,应遵循“统一规划,分步实施”的原则,即采用数据仓库分步实施的设计思想。因此,Sybase采用了螺旋形的开发模式对社保卡数据仓库工程进行建设,他们把系统大致分为三个阶段来实施,并明确了各个阶段的目标。

第一阶段目标

第一阶段数据仓库系统主要包含业务系统中的重要方面,不要求覆盖业务系统的所有方面; 针对目前数据较为齐全,且迫切需要进行分析的主题??社保卡数据分析和残疾人数据分析,以持卡人基本信息、社保卡生产的数据和残疾人的基本信息为基本源数据,建立一个面向该主题的数据仓库原型系统,从而解决该业务领域内日常的统计分析工作。因此第一阶段的工作重点是建立全面的主题化模型,完成现有部分数据清洗和迁移,构筑社保卡中心数据仓库基础平台,并在此基础上开发关键的业务报表和查询。

第二阶段目标

第二阶段以社保卡全局性数据仓库系统建设作为主要目标,将包含社保卡范围内所有的信息系统数据,以及对社保卡宏观决策支持相关的外部数据,本阶段开发的重点是构建OLAP在线分析系统平台,前端的应用从简单的报表查询向分析型应用扩展,增加动态报表,即席查询功能,为逐步引进和采用人工智能、数据挖掘、知识发现等智能信息处理先进技术手段做好数据准备。

第三阶段目标

第三阶段在对社保卡前两个阶段的数据仓库系统进行完善的基础之上,引进和采用人工智能、数据挖掘、知识发现等智能信息处理先进技术手段,实现各个层面的智能决策支持,构筑起社会保障管理现代化信息支撑平台,实现全面的网络化信息应用和服务。

根据这一设计思路的指导,Sybase设计的上海市社会保障卡中心数据仓库系统的拓扑图如下: 

这个图说明了第一期数据仓库系统的数据来源及其功能,其中多维分析主要是第二期的重点,数据挖掘为第三期的重点。

方案实施

上海市社会保障卡中心数据仓库的实施主要包括五个部分的内容: 数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现以及数据仓库的维护和管理。因此,社保卡中心数据仓库系统将包括以下工具: 数据模型设计工具、数据转换与集成、数据仓库存储和管理、ODS数据存储和管理、元数据管理、数据可视化分析、数据挖掘工具 。

1. 数据仓库建模: 数据仓库的设计人员,模拟整个数据仓库系统内的各种数据资源设计数据仓库模型,为数据仓库的实施提供蓝图,并从一个单一的控制点出发实现对数据仓库的配置。数据仓库设计工具必须能够使用最通用的关系数据库和多维数据库的设计方法建立数据仓库模型,并且为设计人员建立一个非常友好而单一的环境,能让数据建模人员和系统设计人员很方便地处理数据仓库设计中特殊的应用需求。

2. ETL过程: 通过ETL工具将数据从数据集中区(ODS)经过处理以后加栽到数据仓库存储环境中,完成数据的抽取、转换、清洗及加栽。并且通过一套紧密集成的工具使数据集市建立的步骤自动化,易于使用,具有强大的功能和性能。通过有效的ETL工具,数据仓库开发者可以使用虚拟设计直接对数据的移动和处理进行建模。开发者不再需要进行编码,也只需要建立一个处理模型,对每个数据移动或处理步骤进行图解,这个工程看起来就象一个流程图,它的建模性能提供了最大的设计灵活性。这样,不仅易于学习和使用,还为数据仓库开发者提供了一个图形化的、高度面向客户的方式来管理更加复杂的方案。

3. 数据仓库存储: 实现数据仓库中的数据存储和管理。数据仓库中数据存储和管理引擎必须能够支持数据仓库应用中大量交互式的和无定型的查询处理的需要,用户在查询时有极大的灵活性。用户可以提任何问题,可以针对任何数据提问题,可以在任何时间提问题。无论提的是什么问题,都能快速得到回答。

4. 数据展现: 使用目前流行和易用的前端分析和展现产品,实现数据的展现和分析。并且提供基于WWW服务器/浏览器的配置方式及基于客户/服务器形式的配置方式。展现工具必须为用户提供一个完整的智能化电子商务软件解决方案的工具包,其中包括了查询、生成报表、在线分析处理、成套分析、时间序列分析和数据钻取功能,还提供了管理工具,使信息技术人员能在企业内建立和配置产品。使用户可以在Internet上进行特殊查询、生成报表和数据分析,并且具有分布式的结构,核心的功能在服务器上,基于Java的程序在桌面上运行,使每个用户的个人终端无需安装和维护应用程序软件和数据库中间件,这样机构的成本可以更有效的用来配置商业智能软件功能,并且通过外联网将此益处传递给供应商、合作者和客户。

5. 元数据管理: 元数据是指“关于数据的数据”,是数据仓库环境中的关键部分。它决定了数据仓库信息的设计方式和构造方式,还确定了外部源数据与数据仓库模型之间的对应以及当初抽取/聚合源数据时所用的算法。在数据仓库的建设中,将数据加载到数据仓库只是完成了整个工作的很小的一部分。在数据仓库建成并投入运行后,管理方面仍然面临巨大的挑战。因此,通过对元数据的运用和管理,在信息系统与数据仓库的用户间架起了一座桥梁。

实施效果

在经过紧张的设计与实施工作后,上海市社会保障卡中心数据仓库系统终于为上海市社会保障卡中心带来了可喜的变化,其实施效果主要表现在以下几个方面:

1. 上海市社会保障卡中心数据仓库系统构建了社保卡主题化模型;

2. 上海市社会保障卡中心数据仓库系统将业务系统和数据仓库系统进行了有效的集成,满足最终用户的各种需求,即能看到历史统计系统,也可以及时了解最新的当前状况;

3. 上海市社会保障卡中心数据仓库系统完成了内部数据的整合,将各个不同业务系统的分布式存放的数据进行一致性转化,使数据仓库今后成为社保卡真正意义上的数据中心,满足各种不同应用系统的数据需求;

4. 上海市社会保障卡中心数据仓库系统进行了历史数据的清洗、修复,解决因多次业务变化造成的数据缺损、不完整问题,实现历史数据的完整性;

5. 上海市社会保障卡中心数据仓库系统完成社保卡数据分析和残疾人数据分析相关的查询、报表统计、分析应用;

6. 上海市社会保障卡中心数据仓库系统为不同用户提供了个性化的使用模式,不同类型用户可以采取诸如查询、报表、分析、定制化操作等多种使用模式;

7. 上海市社会保障卡中心数据仓库系统实现了基于B/S结构的应用模式,前端支持基于浏览器的各种查询、报表、分析等操作,使今后的维护工作降到最低;

8. 上海市社会保障卡中心数据仓库系统实现了各个层面的智能决策支持,构筑起社会保障管理现代化信息支撑平台,及全面的网络化信息应用和服务。

客户评价

经过一段时间的应用,上海市社会保障卡中心对该系统的效果非常满意。上海市社会保障卡中心表示:“上海市社会保障卡是国内第一张发行规模如此庞大、应用领域如此广泛的社保卡,无论是从发行的面还是从发行的量、功能、管理系统,上海是走在最前面的。凭着这张卡,用户可以享受医疗保险待遇,进行医疗费用的结算; 办理社会保障事务,包括申领社会救助金、申办公积金贷款、申请职业技能鉴定、办理求职登记、参加职业培训,等等。以后,上海市民的生老病死都将与这张薄薄的社保卡息息相关,个人成为信息社会的数据。Sybase公司为我们建设的数据仓库系统表现非常令人极为满意,我们的工作应为这套系统得到了极大的提高与保障。”