2016年6月26日,以"新一代信息技术与新型智慧城市建设"为主题的"第十届中国电子政务高峰论坛"在北京大学英杰交流中心隆重举行。大数据厂商联盟秘书长、普兰软件总裁李永在活动中发表了题为《基于大数据平台打造新型智慧城市》的主题演讲。
各位领导、各位专家,大家下午好,我想从这几个方面来给大家做一个简单的分享。这里我用手机给大家分享一下,如果是我们在某一个城市、某一个区或者是某一个单位,如果是对一个特定的人、特定的社群这样一个特定的范围,如果我输入他的手机号或者通过全网的存点数据能够查到他的特征或者他更多的数据,我不知道大家会不会对这样的智慧的数据的分析有兴趣。
这是我们北京的一个社群的“C字分布图”。从这里可以看到,从机场到望京到中关村,这是代表什么?我们可以看一下北京人口的分布。这基本是北京白领、中产阶级的分布图。通过这个“C字分布图”,我们能否分析出哪个小区、哪个社群可能会购买房屋,或者是社会治安,哪个小区会发生哪个类型的治安或者群体性事件。过去我们的智慧城市做了大量的人流的或者是上访的或者很多的突发事件的分析。这是广州的三元里老社区,在改革开放之前这个老社区基本上代表着广州的土着社区。这个社区有一个特征,就是邻里相互之间非常熟悉。那么到改革开放以后,大量的民工、打工的就租住到三元里。那么从2000年以后大量的人来聚集到这个区域。通过人群的分析,我们的政府,我们的社会治安,那我们分析的重点肯定不一样。所以通过人的异质性出发构建智慧城市,我相信比以物为维度来构建智慧城市,可能会更有意义。
智慧城市从发展阶段来讲,过去我们更加注重架构。从大的架构之下就演绎到功能的实现,包括张总介绍的智慧城市的很多功能。我们设想一下,是不是要有更多的从物的维度到人的维度的演化。实际上智慧,最重要的是连接智慧人。那我们来做智慧人呢?
这里我们谈一下从政府、从企业、从各个社团,我们怎么样对特定的法人做画像。通常做特定市民标签画像时会有这么几个步骤:一是抽取全网数据。抽取数据以后对他打标签,来建立市民标识系统。然后再做木一个市民的行为画像、身份画像、交易画像、社群画像。通过这四个画像再做匹配推荐,通过这样的观念分析来为新型智慧城市提供多种分析。
在新型的智慧城市建设过程之中,对于特定市民的画像,这些应用场景很多。刚才我们谈到广州的三元里,北京C字社群架构,我们可以来做特定市民上访情绪周期分析、特定市民犯罪动机分析、特定市民事件引爆点分析。还包括就业分析、消费分析、社群关系分析。我们通过做特定画像就可以做布点。我们跟广东联通做充电桩布点,比如说做加油站的选址。这样的分析是一个很好的基础。
比如说深圳有1700多万人口,首先这有300万人是中心的中心。有1200万常住人口,有1700万现住人口。那么我们每个人的亲戚朋友会有很多,通过这中心的300人可能覆盖上亿的人,通过关联分析和画像,我通过300个人,可能会分析到我们在座的每一位。一旦我们在座的每一位进入深圳数据的时候,那我们就能分析到所关联的所有人的信息。比如说他是这个群组的,同一个楼上班的,或者喜欢打羽毛球,或者喜欢抽烟或者喜欢喝星巴克。我们都可以进行这样的一个分析。这是通过对特定市民的标签画像。那么企业、法人也是不是可以做这样的标签画像呢?像政府的工商。这是对深圳上百万工商所来进行画像。首先去抓取他在业务系统里面的法人单位的所有数据,再从网上抓取动态的所有的企业法人的事实的行为数据,来进行动态的匹配。我就可以做到很多的主体的关联分析,去追诉它的所有行为、状态。
当工商局去做工商监管或者执法的时候,像深圳工商局之前每一个工商所会有10-20个稽查人员。那么通过这个系统,我设定一个值,当他的五个维度发生变化时,我的工商监管人员就会去勘查。这样既可以节省成本,又可以进行透明的执法。
比如说马化腾的企业。你看他这三个企业,我们可不可以通过这最基本的企业来追踪到更多的企业组织关系呢。就像我们之前所讲的,我可以把所有的一个法人或者一个企业相关的成员数据做成标签,再去进行画像。马化腾这么庞大的一个集团,里面所关联的企业会有多少。
这是对于法人或企业的一个画像。当我们构建这样一个系统时更多的会想到需要部署基于大数据平台的数据集成与服务。我们去做这件事的时候及首先把所有业务系统的数据,抽取到Hadoop,再把实时的、动态数据通过Openflow抽取到大数据平台上,那么我就可以做整体规划,分布实施各种应用。比如我去做综合治安的分析。在这样的基于大数据平台的新型的智慧城市系统里面怎么发挥大数据平台的作用?我们可以看一下,首先我可以把政府、企业、所有现有的业务数据,首先把它抽取到我的HDIS,做大量建模,当一个高频的偶发事件发生时,同时还有实时交付的模型,这样可以进行大规模的分析处理。
我们做这样事情的时候很容易。比如说坪山搭建34台的Hadoop集群。把数据抽取到Hadoop平台上,再做应用分析。所以说做新型智慧城市时,我的政府大数据的架构,是非常之广阔,可以根据不同应用、目标来进行部署。
同时我们刚刚讲到,真正的新一代智慧城市可能由对物的分析转向对人的分析。作为政府公务员或者企业,可不可以利用同样的手段来去做这样的分析呢?这是我们的一个企业,他有这样的需求。当然基于企业的战略规划,它的年度或者月度的KPI或者战略目标,我们来分解这些预算费用,包括绩效和计划。这是一家两万多人的综合性企业,两万多个员工,他的需求上,从每一个员工进入到这个企业所有的行为数据,所有的绩效数据,包括他所有的考勤、出差、邮件、会议数据都要纳入进来分析。用这样的数据来分析他工作的饱和度、来分析他的工作过程,特别是分析他的工作状态。他的工作状态就是在于过程之中。原来我们都是做结果考核,那么过程怎么考核?首先从OA上抓取上来,再把他每天8小时在PC机上面的上网、和工作内容,把在电脑上面的鼠标或键盘的停留时间等抽取过来,PC开关机、屏保时间。还有工牌可以植入某种感应器,通过wifi和工作场景来抓取三个实时动态的过程数据,那我就可以把这样的实时动态的数据给传导到Hadoop+Spark集群。这样对于每一个员工的素质能力、行为和效率、绩效结果进行建模,对这四个维度进行建模再来进行分析。对于这四个维度的数据,产生工作结果以后做这样的评价。我相信我们在座也会面临到这样的问题,一到过年时谁应该评先,谁应该奖励多少,谁应该升职,那么我们把每一个员工数据化,你每天在PC机上面的所有数据给它量化。我们可以进行这样的评价分析等工作。
刚才提到工牌的数据、PC机的数据、PC机鼠标和键盘的数据怎么样获取。我应该获取哪样的数据,我把这些数据都赋予到每一个人的身上。我们再给他打标签进行画像,然后再进行实时的分析。
我对一个公司,假设我把他分成这六种人。那我们怎么量化呢?比如说张三他是30天之前看了黄色网站,是在上下班的前后或者一个小时之内。李四是三天之前或者是今天,并且是在工作业务时间看的,那么我就可以量化了。我设置一个值,那么达到0.5、0.8的,肯定是有影响的如果她没有做过这样的事情,那对于我们公司来讲肯定是个干才。当然了一个指标不能决定一个人的生死。我们通过N多种这样的权限、标签来去获取每一个人的数据变化,实现实时动态的预警、监控,包括实时的评估、查询。比如说我可以查询今天哪些人上了淘宝网站购物的。一个标签一输入,所有的名单就都出来了。同样的,如果是说要去查询某一个特定的人群,某一个特定的人今天有些什么样的行为,可能会产生什么结果,都可以来做这样的评估分析或处理。
通过对于每一个特定的人的标签或画像,我们可以做很多事情。比如说工商局、税务局、环保局,可以做这样的标签画像,应用到管理之中。
普兰大数据主要是给政府企业来去搭建这样的云化的Hadoop+Spark集群大数据平台,注入数据驱动的智慧城市的数据分析。再一个就是行为和绩效分析,包括数据的收集、视图、标签画像、推荐匹配和可视化。谢谢大家!