从LinkedIn看大数据挖掘应重视的四个变量
来源:新浪 更新时间:2013-05-05

编者按:LinkedIn作为一家职业社交网站,通过人才招聘、广告投放、付费订阅等服务实现了盈利,这三项创造盈利的服务背后实际上都有着大数据挖掘技术的重要贡献。LinkedIn商业分析高级经理李玥(Michael Li)日前在Teradata天睿公司举办的“2013 Teradata大数据峰会”上接受新浪科技《创事记》专访,介绍了一些LinkedIn进行数据挖掘的方法论。

以下是对话摘要:
  创事记:能否简要介绍一下LinkedIn?
  李玥:LinkedIn是一家面向商业客户的社交服务网站,2003年正式开通启动,距今已经10年的历史。2011年5月份,LinkedIn在美国纳斯达克上市。目前市值接近200亿美元。
  LinkedIn基本上有三个比较主流的商业模式:第一个渠道是人才招聘解决方案,最主要是解决公司招聘和人员求职的供需关系,这部分业务贡献了超过50%的收入;第二是,广告业务,企业可以在LinkedIn网站上瞄准不同人进行广告的精准投放;第三是,高级付费订阅服务,LinkedIn会提供更高级的产品,用户在付费订阅之后,可以利用高级数据提高工作效率。
  创事记:LinkedIn中国现状是怎样的?
  李玥:关于中国的策略,我能说的非常非常有限,因为LinkedIn还没有正式进入中国市场。现在我们在中国有超过300万注册用户。LinkedIn非常了解,中国是一个非常非常有潜力的市场。我们在探索到底应该是以怎样的方式进入中国,但是现在没有定论。我们最终的目的是让中国的职业人员能够在职场上更成功,这一点准则不会有任何变化。
  创事记:LinkedIn的数据分析团队的工作是什么?
  李玥:这个团队在LinkedIn上市前一年(2010年)开始创建,两年之内团队已经达到50人。这是在LinkedIn里面成长最最快速度的团队,现在我们还在不断的成长当中。我们的责任范围最大的一部分就是支持所有与LinkedIn运营盈利相关的服务。现在LinkedIn有近4000名员工,70%的人是通过我们来提供服务的。
  我们的团队组成是:一个数据采集的专门团队,一个专门做数据挖掘的团队,在这之上我们还有分析的团队和每个商业渠道挂钩起来,这样会更接近他们的业务。
  我们跟LinkedIn所有相关的职能部门一起合作,包括销售部门、市场营销部门、产品部门、工程部门,还有运营部门。我们所有的数据挖掘全部是通过一个技术平台做出来的,但是在这之上,会对不同的商业应用、商业需求单独去做处理。
  创事记:每次商业分析需要处理多大的数据?
  李玥:一般的数据处理起来,至少要到TB(1TB=1024GB)的水平。比如说,我们做一个预测的模型,基本上要准备的数据达到几个TB,然后再做数据挖掘,最后做出最后的预测。最后的预测可能看起来很简单,比如说是Yes或者是No,但是后台数据采集、数据处理,创建模型是要花费很多很多时间。
  创事记:LinkedIn如何获取这么多的数据,这些数据都是免费的吗?
  李玥:很多的数据实际上是LinkedIn本身的数据。我们有自己的用户,他们每天会在上面发布不同的信息,会更改自己的数据。我们也会花钱获取其他数据。根据商业需求不同,我们会跟业界比较知名的数据服务商来合作,比如Gartner。
  创事记:LinkedIn大数据解决方案采用哪种基础架构?
  李玥:LinkedIn整个数据分析解决方案里主要有三个非常重要的组成部分,一个是Teradata数据仓库解决方案,它支持很多报表系统,可靠性高;第二个是Teradata Aster,Aster有很多已经设置好的函数,可以让分析更简单、更快速,而且让我们做大量分析时,变得更有效率;第三部分就是Hadoop,应用于真正特别巨大的数据处理和存储。我们将这三种产品和平台作为一个整体,在此基础上做出集中的数据结构架构。Teradata为客户提供是企业级解决方案,有专门为大公司设计定制功能,而且在这个系统里起着非常重要的作用。
  创事记:能否举一个简单的大数据挖掘案例?
  李玥:在做分析和预测的时候,怎么样的一个过程才能做出对将来最好的预测?我举一个例子。比如说,市场营销过程中你想去给特定的人群发一些消息,说我给可以给你们你一些优惠,让你们去购买某些产品。但你怎么知道有哪些人会更倾向于去接受你的信息,或者说接受你的介绍?那我们就会看,以前发生的事情。
  了解以前发生的事情,了解为什么这些事情会发生,以及它背后的原因,然后再用这些去解释将来会发生的事情。总体上就是这样一个大的方法。
  创事记:LinkedIn在做大数据挖掘时会重点参考的变量是什么?
  李玥:一般性我们看三大块。一块是,所有用户相关的属性。比如说你是男性还是女性,年龄是多少,或者说工作方式是什么,在哪家公司,在哪个行业,在哪个地点。这些数据就是相关信息。这些信息基本上属于一种比较静态的东西,也是所有行业到现在为止,可能最成型的一种数据变量。这一块我们看得最多。
  然后是用户的行为数据。很多公司逐渐看到这部分数据,但以前并没有太重视。比如说,我决定去买一个投影仪,我可能之前会做很多很多的事情,最后才会决定买它。如果只是看我买它的一条记录,那么它只是一条数据记录,但是之前为什么决定买这个东西,可能会有几千条、几万条不同的信息记录下来。
  这里边就有很多不同的东西,包括你是不是某一种一系列的行为,才导致最后的购买决定。这一块数据量上要大很多,从分析量上来讲,难度也高很多。但根据我们的经验,这个对你的预测的准确性贡献,其实也增加了很多很多,所以这一块是非常非常重要的。
  第三块是,与社交网络相关的信息。它对你的预测也会造成非常非常大的影响。举个例子,你在LinkedIn上或者Facebook、微博上,跟你相似的人往往会做出与你接近的决定。一个最原始的理论,物以类聚,人以群分。跟你相连接的这些人,往往他们喜欢的东西,或者他们做过的事情,是你以后可能会去做的。
  根据以往的经验,你连接的人当中,已经做过这些事情,如果我告诉你他们做过这些事情的话,你会更加的可能也会做这些事情。
  创事记:还有其他变量么?
  李玥:这三大变量基本组成了我们看的最多的数据。当然每一个分类里面,又会有很多很多的数据。其实我们会花很多的精力去采集这些数据,然后不断地扩充我们的变量仓库。因为随着数据的增加,预测的准确度也会越来越高。
  此外,时间序列也是非常重要的。很多时候你做的这件事情离现在有多久,会对你的预测产生很大影响。比如说,我在网站上看了一个投影仪相关的描述。如果你第二天就跟我说,我会给你50%的折扣,那我买下的可能性是很大的,因为我有很大的兴趣。如果一个月之后,您再来问我,我可能就没有很大的兴趣了。这只是一个方面,但在整个时间序列里面,多久之前发生这件事情很重要。
  另外,在整个时间序列当中,行为的变化也很重要。比如说,我看这个投影仪的介绍,如果我以前是一个月看一次,但我最近变成一个礼拜看一次,或者说变成一天看一次,整个时间序列就能告诉你,我的关注点是不断增加的。所以时间序列里的这种模式也非常重要。