在此前的大数据征信系列报道中,我们详细介绍了征信行业新面孔华道征信、利用电商数据的芝麻信用、利用线下交易数据的考拉征信。
今天,我们将介绍的是采用金融数据的前海征信,这个领域的数据采集及使用,与其他家又有什么不同?
文/温泉
“我们的合作机构达到100家的时候,内部开了个会,表扬大家干得好!结果会开完没几天,合作机构就快200家了,这还是两周前的数字。”
9月16日下午,在座落于上海陆家嘴东方明珠之畔的中国平安金融大厦里,前海征信首席数据官施奕明告诉网易科技,前海征信的业务正在疾速增长。
今年1月,中国人民银行印发《关于做好个人征信业务准备工作的通知》,要求八家机构做好个人征信业务的准备工作,准备时间为六个月,这是中国征信市场化向前推进的一大步。目前,各家机构正在焦急地等待央行牌照的下发。
在八家机构之列的前海征信是平安集团的全资子公司,平安集团是中国四家全牌照金融集团之一(另外三家为中信集团、光大集团、明天系)。在接到央行通知的八家机构当中,前海征信是唯一一家金融机构背景的进入者。
金融数据与个人信用是密切相关的,在个人信用的判断当中,金融数据的分量比个人在互联网上的各种行为数据要重得多。从目前各家披露的准备工作进展来看,背靠平安集团的前海征信是较快的一家。
数据合作加速
前海征信的母公司平安集团的数据有两部分:一部分是金融数据,一部分是互联网数据。
中国金融业牌照一共有七个类别,分别为:银行、证券、期货、保险、基金、信托、租赁,这些牌照平安集团全部拥有。保险、银行、投资是中国平安的三大支柱业务,其旗下控股公司包括:保险系列的平安人寿、平安产险、平安养老险、平安健康险、平安普惠;银行系列的平安银行、平安小额消费信贷;投资系列的平安资产管理、平安信托、平安证券、平安大华基金、平安期货、平安罗素等。
这些数据当中,平安银行、平安普惠的数据是报送给央行金融信用信息基础信息数据库的,其他数据都是平安集团自有。根据平安集团公开披露的数字,这些数据覆盖了八九千万客户。
与其他金融机构不同的是,平安集团还拥有互联网数据。这些数据来源于2008年以来平安逐步建立的多个互联网平台,其中包括:通用积分平台——平安万里通、二手车买卖平台——平安好车、房地产电子商务网站——平安好房、互联网金融平台——陆金所、移动医疗平台——平安好医生等。平安集团还曾在2010年5月至2015年7月间握有中国排名前十的电商品牌1号店的股权。根据平安集团公开披露的数字,平安在涉及互联网金融业务的短短6年里积累了1.6亿用户量。
与前海征信进行外部合作的数据,以金融机构的数据为主。施奕明介绍,主要是小贷公司、P2P公司、部分中小银行和一些银行的信用卡中心的数据,合作机构加起来目前大约有近200家。“还有很多机构在排队。”
“这方面增速很快。”施奕明回忆,前海征信的产品是5月底开始向外推出的,刚开始速度比较慢,合作机构从0增长到10家,用了将近1个月。但是,后面就加快了,从10家到100家也用了大约1个月。他说:“刚开始向外推广的时候,给人家介绍半天,别人听完了之后,一般来说因为有所顾虑都要再看看,当时不会签合作协议。后面,先期接入的觉得效果还可以,在业内就慢慢有口碑了,后面再推广就容易得多,好多机构找上门来。”
大多数合作机构是与前海征信分享黑名单,这样可以对信用不好的客户进行跨行业联防联控。但是,愿意分享“白名单”的机构就不多了,因为分享白名单的机构害怕同行来抢自己的优质客户。
在白名单的分享方面,前海征信也在尝试。施奕明告诉网易科技,少数愿意“吃螃蟹”的用户正在尝试分享白名单。“分享白名单,可以帮助客户进行贷中监控。比如,P2P平台可以知道自己的客户被查了多少次,这个非常有价值。这样P2P平台就可以知道,自己的客户在另外的几家平台也申请了贷款。很多信用不好的客户,都是在多家平台申请贷款,掌握这方面的信息有助于平台进行风险控制。”施奕明解释。
金融数据之外,政府公共部门的数据,前海征信已经接入的有公安、工商、学历、学籍、最高法等,在这方面各家机构披露的数据源都差不多。但是,施奕明告诉网易科技,虽然数据源差不多,政府已经公开的数据是会对所有机构开放的,但是其中有快慢的差别。“比如,平安集团与各政府部门很早就开始打交道了,但是一些刚刚成立的征信机构,还需要走相关的流程,与政府部门的合作还需要相互建立信任,有一个过程。在这方面,成立较早的机构有一定的先发优势。”
“能力越强,数据越多”
由此可见,除了母公司的自有数据和政府公共部门的数据之外,征信机构是否能够与尽可能多的机构合作,获取尽可能多维度、大量并且关键的数据,关系到征信机构最终的实力强弱。
施奕明告诉网易科技,合作伙伴是否愿意分享数据,与征信机构能够提供的产品密切相关。
他进一步解释,合作伙伴在考虑是否合作时,主要考虑三个问题:其一,我的数据是否安全,会不会因为将数据分享给你而丢失客户;其二,我能得到什么;其三,你怎么用我的数据。
对于数据安全,前海征信是请合作机构逐步报送,双方通过小范围数据合作,逐步建立信任。同时,前海征信也建立了相应的安全机制将合作伙伴的数据和平安集团的数据进行隔离。这些机制包括:其一,物理隔离,数据存储在两个机房;其二,逻辑隔离,数据处理采用不同的服务器和网域;其三,制度隔离,接触数据需要经相关领导授权、保留操作记录、去除能标识个人身份的敏感信息。
对于合作伙伴的收益,前海征信给予不同合作伙伴不同的收益。首先,合作伙伴的数据分享是分等级的,比如对一些刚成立的P2P,开放的数据比较少,会有一个考察期,对一些比较成熟的机构,双方分享的数据比较全面。其次,分享黑名单,对于合作机构来说有催收的效果,欠款的客户知道自己欠钱不还的记录会被很多其他机构知道,这个后果非常严重,会更有积极性去还款。
对于数据的利用,前海征信是和合作机构一起规划产品。施奕明举例解释,比如合作伙伴将地理位置的信息分享给前海征信,如果一个人正常上班时间地理位置信息观察到稳定的变化,很可能表明这个人换了工作,这种职业的变化,有可能会带来信用风险,结合同一个人在平安集团的数据,前海征信有可能可以向相应机构提示信用风险。
“所以能力越强,所能获得的数据越多。”施奕明总结说。
与很多机构主推信用评分不同,前海征信推出的是一个“征信服务包”,这个服务包在贷前、贷中、贷后都有相应的产品,这些产品试图解决金融机构在贷前、贷中、贷后的业务痛点。这些产品包括“好信黑名单”“好信度”“好信盔甲”防欺诈平台等数据产品,“催收云”“信审云”和“反欺诈云”等云系统,以及“好信认证”“好信易申请”等功能插件三大类。
施奕明向网易科技详细解释了前海征信产品的业务逻辑:
贷前的征信产品包括两部分:反欺诈和信用审核(即,如果有人来贷款,先要保证这个人不是故意诈骗,在这个前提下,再判断贷款人的信用)。
在反欺诈方面,传统银行的痛点在于,数据比较单一,只有贷款人的身份和信贷记录。在引入大数据之后,就可以从更多的数据来识别欺诈。比如,问一个冒用身份的贷款者身份证号,冒用者很可能会提前准备,但是如果问高中班主任的姓名,如果不是证件持有者本人,一般都不会掌握这种“冷问题”。
在信用审核方面,前海征信与传统银行相比特点在于,数据维度更多。央行金融信用信息基础数据库中只有银行体系的数据,而前海征信已经接入了近200家小贷公司、P2P等机构,从而可以更全面地判断个人信用。
贷中的征信产品主要是对贷款者进行贷中监控,观察其毕业、工作、结婚、消费等各方面的数据,如果发生异常,可以对放贷方进行风险预警。这样,放贷方就可以主动对贷款进行干预,比如可以延长贷款期限、减少每期还款额度,这样可以促使贷款人按时还款,减少信贷风险。而传统银行,由于缺乏多维度的数据,无法进行贷中监控。
贷后的征信产品一般是针对逾期贷款的,如果贷款没有逾期,贷后就没有需要进一步跟进的征信工作了。前海征信在贷后的产品,主要是“催收评分卡”,即可以对所有需要进行催收的客户做评分,看对哪些客户进行催收效果会更好,对催收的先后进行排序。
数据分析是木桶效应
那么,一个征信机构的能力强弱是由什么决定的呢?
“数据源质量、数据分析技术、对业务的理解,这三个方面都有影响,这有点像木桶原理,这三个方面哪一个有短板,都会影响征信产品的强壮度、适应度和准确度。”施奕明认为。
他分析,数据来源目前各个征信机构都不同,但是从长期来看,随着数据渐渐共享,数据来源会趋同,只不过有的机构会有一些先发优势。技术方面,比如有50个有效可验证的风险因子,如果征信机构本身的技术能力只能验证30个,但是合作伙伴的数据不在这30个之内,就没法进行验证。同时,技术的强弱也影响着验证水平的高低。有了数据、有了技术手段,还需要对业务有充分的理解,知道如何恰当地运用这些数据进行信用判断。因此,数据分析是“科学与艺术的结合”。
施奕明告诉网易科技,前海征信的团队目前共有150多人,其中大约一半是数据分析员与数据产品经理。这个团队的实力不可小觑。
前海征信总经理邱寒本人,曾先后在GE、麦肯锡、渣打银行(中国)等公司担任重要管理职务,拥有多年数据分析、风险管理经验。
首席数据官施奕明是“SAS中文论坛”创始人,这个论坛创立于2003年,是国内人气最高的专业SAS论坛。SAS全称是STATISTICAL ANALYSIS SYSTEM,是做统计分析的大型应用软件系统。施奕明长期活跃于这个论坛,经常分享关于数据分析的经验和知识,有一票粉丝。他的微信公众号“SAS中文论坛”有1万多订阅者。
施奕明毕业于上海大学,在近20年的工作经历中,他先后任职全球最大的做统计分析的软件公司之一SAS,通用电气旗下的金融子公司GE Capital和国际贸易电子商务平台eBay。大数据应用两个最主要的领域风险管理分析和营销分析,施奕明都曾经从事过。
施奕明告诉网易科技其实大数据应用早就有,只不过以前用的不是“大数据”这个概念,而是“数据仓库”。数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要是将组织透过资讯系统的联机事务处理经年累月所累积的大量资料,作有系统的分析整理、数据挖掘等,帮助决策者能快速有效地从大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能。
施奕明告诉网易科技,他是GE capital从事数据分析的“黄埔一期”,是中国最早从事数据仓库工作的那一批人之一。
施奕明于今年年初加入前海征信,他相信大数据征信将会经历一个飞速发展的过程。他告诉网易科技,大数据的处理在上世纪90年代就出现了,之所以没有经历像现在一样的快速发展,是因为那时硬件的处理能力还没有那么强,同时存在太多的信息壁垒。现在,移动互联网的出现,使得出现了围绕衣食住行的各方面的大量应用,并且这些应用的数据搜集可以是全天候、所有位置,不受时空限制的。硬件的处理能力已经大大加强。同时人们的观念也在改变,人们渐渐就会认识到,数据分享是“1+1>2”的。
“以征信业比较发达的美国为例,也曾经经历过我们这个阶段。他们建立起整个体系的时间是——10年。”施奕明说。