数据质量与校园信息化应用建设思考
来源:中国教育和科研计算机网 更新时间:2012-04-15

 复旦大学信息办信息中心副主任陈翼现场演讲实录。

  陈翼:各位老师大家上午好,我今天报告的题目是“数据质量与校园信息化应用的建设与思考”这是我今天报告的一个提纲,今天我们会议的主题是数据存储数据管理和虚拟化的发展为议题。在高校里面信息建设的热点现在不仅包括海纳存储虚拟化高可用性等等。这些应该在很多高校里面已经有很深入的应用和一些比较好的一些成功的经验。但是从我们高校实际工作的一个角度来讲的话,我们可能有一些深入思考,也就是说,我们会扩充一个数据中心的建设,不仅仅是一个基础设施的概念。包括刚才杨女士讲的存储这一块,从基础设施的角度来讲,也是非常先进或者非常前沿。但是我们从学校应用的角度来讲,数据中心能发挥多少作用?可能还不仅仅是一个基础设施能解决的问题。所以我们来从数据角度的来做一些思考,我们认为数据中心建设的着眼点,应该在数据这两个字,因为我们存储的是数据,查出的是数据,系统里面输入的是数据,输出的也是数据。最后能体现我们信息成效最有价值的数据。但是我们想问问自己,也想再问问同行,我们的系统数据能满足现在的使用要求吗?

  可能我们碰到类似一些问题,比如说像信息系统用的数据不清,概念混淆,程序设计的控制和教学不严,系统使用数据的偏差等等导致系统数据质量的问题比较多,可能长期存在,随着数据的量越来越大,这些问题不但没有减少反而增加了,另外业务的数据标准化,不仅导致这个数据的质量问题也给数据集成带来很大的麻烦,前面方老师也提到这个数据集成的经验。可能类似的情况在很多高校,包括在我们学校都有这个情况,我后面还会讲到。数据集成并不是一个简单的技术问题。

  建立和推广高效的业务数据标准,处再一个充分的阶段。大家知道教育部牵头做了一个教育管理信息的标准,这个标准只是具有一个指导的意义,真正能给大家的实际建设带来多大的成效,现在还没有完全体现出来。在颁发利用环境当中,不同的单体系统之间还存在大量的数据依赖,这个对数据层面有效的基层要求比较高。

  另外我们也认为数据保存城市的系统当中,其质量的问题很难暴露出来的,只有这些数据被使用你才能逐渐的显现出来。目前很多高效的数据分析和利用停留在一个相对初级的水平,数据很难被发觉利用,也反应我们现在系统建设过程当中数据不准确,不精确不一致的诸多质量的问题。所以我们面临这样一个挑战,一方面我们高校对信息化现在要求越来越高,对我们的期望也越来越大。但是我们现在花费大量的能力经历和财力做的这个信息系统,我们信息系统的数据是不是能够满足学校今后发展的要求。我们认为这个系统当中最有价值有待发展的宝藏就是积累的数据,从这个数据里面发现有价值的信息,我们信息系统前期投入真正价值的体现。而且我们认为这方面拓展可能是不可限量的。现在很多数据分析利用的功能仅仅是一个开始。但是如何充分利用信息系统当中的数据,当然也是以后我们现在信息系统实施最重要的工作,也是一个长期的工作。

  下面我花一点时间讲理论方面的东西,我快速带过去,后面再看一下我们复旦大学在以往的做法和目前面临的一些新问题新挑战,以及我们的一些新想法。这里有一些常见的,有些是我们系统当中直接找出来的数据质量的问题实例。我们认为数据质量的问题,可能原来在实际工作中有一些误区,造成这个数据底下的主要原因可能就是在于数据录入的原因,要提高数据质量,只要把数据输入的源头这个关把好,保证录入数据符合要求,解决这个数据上的问题。

  另外一个观点通过这个手段,我们在这个数据收入的环境进行这个格式标准要求方面的控制,就能解决这个数据的问题。但是实际我们在实践工作当中来看的话,高校的信息化不是一个单体的系统,也不是一个简单的应用。是一个庞大的应用环境,数据因为是多部门的维护,有一些重复采集,各部门对这个数据的定义不清楚,或者不一致。参照不完成。这些并不是每一个部门里面,数据录入的人员一些基层的工作人员就能解决的,解决数据质量问题往往要耗费比较多的资源,增加这个管理的成本,不单单是一个技术的问题,需要来自管理和技术两方面的可能形同的努力。对于数据系统我们有这样一个理解,首先质量这个词大家见得比较多。尤其是在我们社会生活当中非常广泛使用的词语,我这里面采取国家标准当中对质量的一个定义,质量是一种固有特性,要求的程度,这些要求包括民事的,通常必须履行的需求和期望。

 数据质量我认为它是一个信息系统表达的数据试图,与客观事情统一数据的距离。我需要补充一点,这个数据质量的判断,使用这个数据的个体,不同环境下不同人员销售数据的使用适合性理解是不一样的,因此数据质量是相对的,不能独立使用数据的消费者来评价。包括从质量也好,或者数据质量也好,是一个相对主观的概念。这个好坏的评价,可能更多取决于我们使用者使用的效果。对于数据质量有一个比较简单的目标模型,可以分为可获得度可理解度,可信度和可用度四个方面我简单过一下。
  这是一张图,是这个目标模型的图,只要分四个方面:可获得度、可理解度、可用度、可信度。下面有12个,我简单过一下,让大家稍微有一点印象。

  可获得度指得用户取得数据的可能性与病例程度。在大学里面还是存在这样的,有些数据我们是拿不到的,拿不到的数据,如果这些数据不能进系统的话,对于以后的分析,这是不可获得的数据。

  可信度指得对数据真实性的一个测量,包括准确性、一致性、完整性、唯一性和可靠性这些字面上的意思比较容易理解,我就快速的过去。可理解度是对数据便于用户理解的,并使用的一个程度,包括语法和语意两个方面。可用度标志数据对用户项目的大小,这个包括相关时效性可比性和有效性几个方面。如果各位老师感兴趣的话,会后我们可以详细的看一下报告的资料。这里我不在详细介绍这个概念,我想简单的讲一下,我们复旦大学以前的做法和取得的成效。我这里先稍微带一下,复旦大学从2002年开始第一轮的信息化校园的整理规划和实施以来,一直采取的是一个整理规划、分布实施的做法。我们应用系统是由我们学校的信息化办公室主导来进行的。现在我们到2009年学校大部分的业务部门业务系统都是由学校的信息办统一的建设和管理。在这样一个情况下,我们从整理架构和数据的共享方面应该说我们有一定的竞争优势。在我们建设应用系统,在03年开始应用系统逐步进入实施以来,我们特别强调一件事情就是首先梳理基础数据权威维护部门和共享部门,通过我们的应用系统把这个机制建立起来。首先在我们建立的系统当中把这个数据的源头捋清楚。而且本着一个非常重要的原则谁产出谁维护。把每一个部门,这里面有两张图。比如说一个信息具体到每一个资料,哪个部门再维护?都分得很清楚,后面这个是学生系提的一个维护共享的问题。

  在这个基础上,我们从提高数据的该度我们对一些系统关键的数据进行一个分析,这些数据有哪些是现在目前不完整的,或者达不到使用要求的,在04年左右的时候我们开始做这个事情,把这个分析的结果反馈到相关的部门。包括学工系统建立一些有效的机制。通过系统的使用者主要是一些利用主管部门他们去把数据质量的工作作为考核的工作部署下去。这样促使学生完整的维护他们的信息,并且把这个工作的结果和学生的辅导绩效挂钩,在这样一种模式下面04年05年逐渐取得应该说比较好的成效。也形成了一个比较好的反馈机制,应该说现在到目前为止,我们无论是教师的信息是学生的信息,各种各样的信息数据源头和维护的责任大家领悟还是比较清楚的。在这一点上现在扯皮的现象应该说很少很少了。

  另外就是关于共享数据库,我们这个数据共享这一块概念和跟刚才方老师介绍的基本上是一致的。我们大概是从03年开始做这个共享数据库主要是为了打通相关业务系统之间的数据,现在绝大多数的业务系统都是在我们信息办统一主导下开发。但是大家也知道,高效的业务是比较复杂的,不可能建立一个系统解决所有的问题,所以长期来看还是一个分布制的应用,这个分布制应用,我们同行在这方面有比较深入的研究,我这里就不在说。现在目前的情况按照职能划分的业务系统之间,必然存在一个数据共享。我们的数据共享从2003年开始做,基本上在早期的时候是一些相对少的,主要的一些系统之间的故障。到现在的话,我们所有的应用系统都在数据共享给其他的系统。再做数据共享的过程当中,我们做了一个统一数据元素的一个定义,统一信息分类的标准和业务代码的标准。建立全球数据试点和数据转换试点,在这样的基础上,数据共享已经基本上建设了难点,只不过现在面临的是一个工作量的问题。

  从这个角度来看,我们刚才讲了,我们数据的权威进行处理,这些部门还是各司其职,我们作为共享的人能为这些障碍消除,最早期的时候,包括业务系统包括数据不在我们的手里,或许这些数据有相当大的难度的。但是目前来看,在这样一个整理的模式下面,数据共享是人为的状态也不存在,应该说,更多大家是考虑我们需要把哪些数据共享给其他的人,我们也需要共享其他人的数据而不是重复采集,另外效率共享数据的标准规范逐步的建立,数据质量的问题得到有效的反馈,这个反馈其实包括管理和技术方面。一方面应用的问题反馈到业务部门。如果是技术的问题,一些系统设计不合理的地步也反馈到我们信息办,我们来进一步的改善和完善。

  另外现在我们基本上的数据从06年07年开始我们数据分析和学校提供的一些知识,这些还是一些义务。还不能完全成为一个非常深入的问题。做了这么多之后,特别是我们URB系统,从运行到现在超过6年的时间,我们用来思考一些新的问题,这些问题可能归纳起来有这些方面。首先我们早期从03年开始建URP系统,我们称之为信息化校园业务系统,所以应用系统主要的是面向学校的业务部门,主要是机关这些职能部门,这些部门从他们的业务和他们的工作方式来看,确实存在这样一个问题,一个做管理的服务,并不是现在大家的服务还是挂在嘴边,但是本质上来讲,他们管理的职能并没有减弱。所以很多时候只要这个管理职能在,他们更多的时候还是考虑怎么管这个事儿,当然这个服务覆盖的不会少,但是可能从下面也会讲到学生和教师感受的更多是管理而不是服务。

  另外业务部门这一块,我们复旦大学的模式几乎所有的应用系统都是我们信息办指导的,我们跟所有的业务部门都有接触,我们感受到学校的职能部门条款分割还是比较严重的。他们比较清楚,碰到一件事情之后,他们更多想这件事情归不归我管,而不是说这件事情从学校的层面怎么来协调,这个给我们带来的困惑是比较大的。包括我们学校里面,最具有全军考虑的一套系统,财务处、人事处这些部门,他们可能在全局考虑方面现在还不如我们现在的信息化部门。我们教师从这个全局的角度来讲,我们教师面临的职能部门,到现在人事处、组织部、统战部,然后像科研处还有财务处之间的部门,这些部门总之来讲在学校都是能够进行全局统筹的一部,实际上他们工作都是搁置其词,所以作整个方面可能在我们学校是没有一个部门来牵头。

  学生也是类似的,无论是从研究生院还是学工部,类似一些部门他们都是予以自己公众本质的一些工作,很难拓展出来。而且行政部门相比,行政部门更多的他们的职责就是把自己本职工作做好,所以他们有的时候比较饱受。所有的这些部门对我们信息部门提出这样的要求,希望我们提出一个全局的解决方案。能够真正把这些业务能打通。另外一点我们认为教师和学生在第一轮的信息化建设过程当中,数据相对较少,数据较多的是我们这些管理部门,他们把他们的工作从原来的工作变成一些电子化的工作,他们原来很多繁重的书面工作变成在系统里面点点鼠标就可以完成。但是老师和学生相对来说较少,一方面所有的信息都没有少做。该填的东西该填的表或者该做的事情都没有少做。可能现在随着学校改革发展的趋势还会越来越多,另外学校和老师感觉这个里面是管理的问题。相对普通的老师和学生而言,相对我们这些人来说,他们并不了解学校里面有30多个部署,甚至我们机关里面一些普通的工作人员说不清楚学校里面有哪些机关部署?所以碰到一件事情并知道找谁?而且我们的机关部署有时候还是有一些推委的现象存在。所以老师和学生带来的影响要差一些。

另外也有的数据换个角度可能用不起来,这就是刚才讲的这个概念,这个数据从一个使用者的角度是可以的,是好的。但是换一个角度就不行了,我们现在从我们的应用系统提取我们教师的上课信息,我们就会发现,实际上我们教务系统排队的时候还是排得很清楚的。现在也没有产生一些什么问题。到最后学生选课成绩都没有问题,但是实际上我们面临的问题,随着课题的一些变化,我们一门课都不是一个简单的老师上。

  甚至很多课一学期一门课多了有十几个老师上,多了有十几个老师上,少的四五个老师在上。但是我们的教务系统里面,不是说教师和研究生系统里面,不是教师的信息都进去的,可能是一个主讲教师,我们提取这些授课信息的时候,那些不是主讲教师的教师,他就查不出来他上过什么课,这样他的教学工作量,或者其他的信息拿不到这个数据。早期在教务处研究生他们考虑这个问题的时候,一方面我们排课的主讲教师,另外以后学生成绩单里面主要出现主讲教师的名字,我并不需要把所有的教师都列进去。而且计算教学工作量并不是教务研究生院的事情,更多是其他部门的事情,所以他们这些主动性就差一些,因为从我们的信息化部门来讲的话,原来推动一件事情是比较难的。我们也提供这样一些想法,这个数据用起来并不好用,但是他们没有这个普通性,但是反过来如果从教师的角度来推进这件事情可能会好一些。所以我们现在目前在做的就是09年上半年开始做的,我们校园信息化的规划当中,我们更多考虑面向教师和学生再进行调研,我们第一论信息化02年做的时候考核的业务部门,而且这几年建设确实也是向这些部门建,但是从这几年的经验来看,我们第二年的信息化规划我们不会调研业务部门,因为一方面做了这么多应用系统之后,业务部门的情况我们基本上都了解。他们面临的问题和他们以后想做的事情我们基本上也知道,我们原来忽略的一个群体就是我们普通的教师和学生。他们需要什么?可能我们现在知道的不是很清楚。所以所有的调查问卷都是面向教师和学生再做,我们想知道第一届教授讲什么?

  他们也反应这个系统还是比较多,因为现在系统基本上实现统一身份认证和单点登陆,从使用的角度来讲,并不具有很大的困难。但是最大的困难是他们搞学校的分工。所以这个带来的问题就是还是刚才讲的多功能的管理问题。所以我们有一些新的想法,从今年下半年开始,也陆陆续续开始进入。所以这是今天想跟各位老师探讨的一部分,我们未来想做的事情,不一定很成熟这一块,有些仅仅做一些尝试。但是我的想法是这样一个想法,以后学校里面的数据不仅仅从事一个业务系统,也不仅仅属于这些管理部门,我们要打破管理部门之间的分割。管理部门仅仅对他负责的数据进行真实性和有效性的管理。我们让老师和学生不在面对那么多的系统,我们希望以后能让老师和学生更好的使用和受益于这些数据。

  在这个过程当中,其实我们也学习了浙江大学刚刚方老师讲的一些做法。我觉得我们也有一些很好的启示,我们准备从全局的角度来讲,我们准备建立教师和学生的数据中心库。下面我详细的讲,可能我们这个做法跟我们现有的应用系统结合起来,另外我们想基于这个之上,把原来各个业务系统里面教师和学生使用那一部分提取出来,把应用剥离出来,剥离出来受真正意义上的教师和学生的综合服务,这个综合服务让这个学生面向一个综合服务系统。不像以前那么多的人士也好,科研也好,或者学工研究生教育诸多的问题,现在是一个综合的服务门户。我们把面向师生的管理业务分开,这个分开有几方面:

  一方面使用群体的分开。我们认为原来在第一轮做的事情,我们把这个面向管理的几百个人管理群体,一般在学校里面的机关部门,院系的行政人员,应该这个群体在几百人,跟一个普通教职学员的群体合在一起,保证我们的技术存在很大的难点,从这个安全系数有一定的风险,我们打算把面向社会的综合服务分离出来,我们可以用不同的技术来重新整合这个师生的服务。把原来的管理系统继续延用。原来的管理部门,包括学校的职能部署,包括院系的人员继续用原来的管理系统。把师生综合服务的数据能够跟管理系统有一个更好的打通。

  师生更多是直接在校园门户里面使用各种各样的应用服务,然后师生的综合服务作为一个所有应用系统的整体前端,这个前端分后端各个应用系统从技术来讲,但是这个师生对老师的学生是透明的做法。所以我们也存在一个技术选择和考试的问题,我们现在做一个尝试给大家看一个图,这个图是我们今天刚做的,我们复旦大教职工年终考评表填写。这个教职工考核是每个学校到年底非常重要的事情,作为年终的考核结果和个人的利益是挂钩的。所以我们采用这样一种方式,我们把这个考评表拿出来,把这个填表的结果,关键的一点是我们把这个填表的结果反回到应用系统。所有的业务部门向这个岗位考核这一块,院系我们知道,通过原来的人事进审批和后面一个管理工作。只不过教师以后不需进人事系统只是进入综合服务的页面。进行一个岗位考评,也可以看到同单位公事的一些情况,也可查询到网络一些历史数据,从这样一种方式来讲,我们希望能够通过一种全新的模式,能够让教师和学生感受到一站式的服务和相对集中的工作。

  当然在这个突出用户服务的同时我们希望进一步教师和学生的服务中心,以及更多的信息和资源进行整体的应用。可能一方面强调整体规划可能少不了的,现在提得越来越多就是业务部门的一个团购。现在学校讲调控比较严重的情况下,怎么样能够做到流程规范能够让一些事情简单起来。

  第三就是很多学校在不断的建立一个制度的思路,包括我们现在做教职工的综合服务,学生的综合服务,我们希望能够借鉴这个设计的模式,我们从学校整体的角度来做这样一个方案,真正让所有的应用都能囊括进去了。这些就是我们近期校园信息化建设的一些思考,谢谢大家,有什么建议也可以一起沟通。