郑方 发挥产学研通道优势 推动中文信息产业发展
来源:搜狐 更新时间:2012-04-14

 

  清华大学信息技术研究院副院长、CCC理事长 郑方

  尊敬的各位领导、专家、企业同仁:

  ——非常高兴大家能够利用周末的时间来参加这次会议,这是一个很好的机会,可以与在座的“产、学、研”界的朋友分享一些信息,交流和探讨如何开展促进信息产业发展的活动。

我今天的报告大概分为四个部分:中国的信息产业面临的机遇与挑战、中文信息处理产业面临的商机、国际中文语言资源联盟一年来的工作情况以及联盟的根本任务—以促进标准和发展产业为己任。

  ——中文信息处理产业面临的机遇与挑战。中国的发展对科学技术提出严峻挑战,中国过早地遇到一些新的问题,中国的问题也成为了一个世界性的难题。比如制造产业,它的出口遭受了一些不公正的对待,高技术产品受制于人,采购尖端产品受到限制,这都对我们的产业造成很大的影响。技术的竞争进入了前沿的领域,有的时候我们发现一些科技的交流非常敏感,甚至受到一些关注。这些对我们产业的发展都是不利的因素。

  ——但在这样的情况下我们实际也面临着一些发展的机遇。这个机遇在于中国的信息产业与其他行业相比有其独特的优势,中国在信息产业方面将会有很大的作为。大家从数据可以看出来,中国是世界第三大PC市场;电话用户的增长趋势非常快,我们在2005年达到7亿的用户;手机用户我们基本现在达到世界上第一位,第二位美国、第三位日本、第四位是德国。这些都是非常喜人的数据。从网民和宽带的用户来看,规模也是非常的惊人,2005年手机用户数量达到大概3亿多,接近4亿;网民的数量也接近1亿。中国信息协会卢时彻会长刚刚也提到,中文语言可能会成为网上第一大语言,这从数字上也基本能够看得出。

  ——中国大陆可以说是世界IT产业增长速度最快的地区之一,从刚才的数字、图表基本可以看到这一点,这都是来自权威机构的统计数据。预计在2006年我们的网民数量将超过美国,成为世界的第一位,总数将达到大概1.46亿这样的一个规模。而在2005年7月,电话用户总数大概7亿的一个规模,其中固定用户3.3亿、移动用户3.6亿。另外从报道上可以看到,中国短信的量也非常的惊人,2005年短信量大概2,178亿条,比去年增长58.8%。增长速度很快,尤其在春节这两天,是非常惊人,这也是中国在短信行业一种特殊的文化现象—短信文化。以上都是我们面临的一些很好的机遇。那么从刚才从用户和市场规模两方面看到的数据,无论是固定还是移动的用户数及业务量,我们均可以说是居于世界第一位,而这里面中文是第一大交互语言。我们这里所说的网其实不光是互联网,也包括手机短信等等各种各样的领域,这就孕育着一个非常大的市场。

  ——我们现在反过头来深刻的理解一下国家中长期规划所提出的一些战略方针。国家的中长期规划就是要建设创新型国家,这其实是一个战略选择。我国领导人和我国的大学、科研机构、产业界经过多少年的实践、总结,最后认为必须要有这样一个战略,必须要建设一套国家创新体系。国家中长期规划提出的科技发展的指导方针叫做“自主创新、重点跨越、支撑发展和引领未来”。这十六字方针我觉得很好地概括了我们多年来的实践经验,也概括了我们未来要发展的总体方向。在这里,我们可以这样说,中文信息处理产业正是符合这十六字方针的产业之一。

  ——下面我们看一下中文信息处理产业面临的一些商机。其实在开始的时候,人们是有些疑问的,但这个疑问正在逐步得到消除。我记得在计算机刚刚面世,准确地讲是80年代左右,曾经有人认为中文将成为中国普及计算机乃至发展信息产业的一大障碍,甚至有人对中文语言作为一种语言的生命力提出质疑,出现了一种消沉情绪。但是我们后来发现,随着输入法的出现,以及其他信息处理技术的发展,这种现状得到了改变。我们不但是改变了这样的现状,而且还培育了巨大的市场,巨大的市场潜力又推动了这个产业的发展,使得人们认识到中文在计算机乃至信息处理这样一个领域里面,有很多的优势,也有很广阔的前景。这里面我们举一个很简单的例子,大家可以看到,在联合国的各种语言的文本中,中文是最薄的一本,说明中文蕴含很大的信息量,内丰富,文化底蕴深。从刚才唐主席送给我们的字“知行”,我们也可以看得出,如果不告诉你的话,对于没有练过狂草的人或对狂草有研究的人,可能很难认识它。但是它包含的信息量很多,中文其实是有很大的优势在里边的。

  ——但我们在中文信息处理领域也遇到一些问题。我们分析一下,实际上我们认识到在人类的未来,计算机和网络将成为人们生活中非常重要的一些环节。以后人和人的交流往往是人先同机器交流,然后通过机器或终端组成的网络进行传输,再由机器和人去交流。大家现在可以看到一些行为——尤其年轻人中很多我们不太理解的行为—实际上都是这样一些模式的变化带来的。比如说QQ一族,他见着你可能没有话说,甚至不想说话,但是他在QQ上能够说得非常好,充分表达自己的意愿,充分表达自己的想法。还有短信,短信量这么巨大,也说明这样一个问题。所以,“人-机”的交互往往成为“人-人”交往中不可忽视的一个非常重要的环节。

  ——在这里面我们要解决的问题很多。总的来讲分为两大类:一类就是如何获取内容;第二个就是如何保证内容的安全。内容的获取方面有这样几个问题,比如说,人和机器进行交流,应该找到一种更自然的方式。我们原先之所以用一些很普通的方法,是因为我们技术还没有发展到那一步,所以非常不简便。人类交流最自然最方便的方式是什么呢?就是语音。语音张口就来,想表达什么马上就可以表达出来,这是一个最好的交流手段。另外的一个问题就是,现在的信息量很大,每天的信息都是上G、上T字节的,如何在海量数据里面快速找到我们所需要的信息,快速找到正确的信息,这就需要用到语言理解这样的技术才能做到。大家都有这样的体验,要找一个东西怎么办?人么会告诉你Google一下。Google的确是提供了一个很好的手段,但是Google是水平搜索,通过输入关键词可能会找出数百、千、万,甚至几十万条、几百万条信息,但中间大部分都是无关信息。但如果我们通过分行业做一个垂直搜索,进一步利用这个中文语言理解的技术,就可以做到精细查找。第三个就是世界范围内信息交流的普遍性、规模性这样的特点,使得各种语言都存在。如何才能够实现不同语言之间的交流,就需要使用机器翻译这样的技术。以上这些都是涉及到语言内容的获取的一些方面的问题,当然不只这些,还有其他,这是我只列出三条。

  ——另外就是内容的安全,内容在传播过程中,我们怎么保证有用的信息不被没有授权的人获取,这是一个非常大的问题。第二,一些有害的信息,甚至一些危险的信息,我们怎么能够过滤掉,比如说不让它出去,或者不让它进来。现在,在网上传播的一些信息有的是让大家很烦,包括垃圾邮件。而我们用简单的方法去滤出这些信息往往达不到一个有效的效果,有的时候把有用的一些Email、有用的网页都挡在门外,实际上这样的结果是我们非常不希望的。为什么会这样呢?是因为我们没有真正理解这个Email,也没有真正理解这个网页它所要表达的内容,到底是反对某个事情,还是支持某个事情。如果我们通过语义的理解,知道这点,那就可以做到有的放矢,有用的、有利的、安全的我就让它过,相反我就把它阻止在外面。所以,这里面就涉及到了安全。

  ——以上讲到的是怎么去防止,哪些人可以对这个信息进行存取,哪些人不能,这涉及到生物认证技术。声纹技术就可以做到进行“真实自我和真实意思”的判断。大家知道,生物特征是不能被借走的,你的虹膜、你的脸孔,别人借不走,这就是“真实自我”。还要表达一个“真实意思”,比如有的时候你说“行”,可能是用颤抖的声音说的“行”,那么你很可能是被人胁迫的,这个时候所表达的可能就不是你的真实意思。这就是利用语言中所包含的韵律等信息,对“真实意思”做出判断。这些就是我们要解决的一些问题,这些问题来自产业界的一些需求,也来自国家战略的一些需要。

  ——比尔盖茨曾经说过,人类计算的未来是让计算机能够看、听、学,能用自然语言与人类进行交流。他在99年出版的《未来时速》一书中曾经预测,未来十年语音技术将成为主流。这是99年的预测,我们现在看到,他的话已经逐步在成为现实。另外,美国ABI认为,在未来网络化的世界中,语音技术将扮演越来越重要的角色。语音识别、语言理解技术将成为电子通讯行业和IT行业发展过程中的一些关键技术,将有大量的市场前景。

  ——下面我就用两个行业作例子来看一下以上技术的增长趋势。这是由国际生物集团提供的一个未来生物识别市场的一个预测,2005年达到21亿美元;预测到2007年要达到40亿美元这样的一个容量,增长速度是非常快速的。在这里面,各种不同的生物特征,分别占据不同的比例。我们关注一下和语音相关的声纹识别,2003年声纹识别占了4.1%的比例,这个比例不是很大,但是2004年这就上升到6%。IBG集团曾经预测,到2007年,可以占到10%,这个数据增长速度还是比较快的。我们再从商业模式的方面来看一下,这是生物特征在商业模式上的变化。我们可以看到,在80年到95年之间,主要是门禁系统和PC的登陆方面应用比较多;从95年到2005年,在信息系统的身份认证方面比例会比较大,增长速度也比较快;但从2005年之后,网络用户身份的验证,就会占据主要的、显著的地位了。网络用户代表什么概念呢,你在网络上你可以跟他谈话,但是你甚至不知道他是谁,你甚至不知道他宣称的身份是不是就是真正的他。去验证他的身份,你能得的到的,可能最方便的就是声音。因此这样的一个特点,给我们“用声音去判别身份”带来很大的空间,这种商业模式的变化,使得声音在未来信息发展领域中要占据的一些位置。

  ——第二个方面,语言理解。这是使用搜索引擎的企业的数量和市场规模的一些变化,红色的是企业的数量,大家看到,增长速度很快;绿色的是市场规模,到2006年可达到24亿元的这样一个规模,增长速度很快。而在使用搜索引擎中,更多的还是使用网站和网页,这个占的比例非常高,大概93.5%。但是其他的一些行业,也有很多的比例,如果你把它加起来的话,这个比例也是满高的。为什么这个比例是超过100%的呢,是因为它有重叠的,有的人可能是几种搜索都会使用。面向行业的垂直搜索目前正在逐步引起业界的重视,相比而言,垂直搜索也更容易与中文语言处理技术互相促进,共同发展。因为在垂直搜索里面,可以把中文语言理解这样一个技术限定到一个领域里边,有针对性地去理解用户的需求,所以这是一个趋势。关于自然语言理解的市场规模,这是iResearch的报告,大家都能理解,我不讲了。

  ——以上业务上呈现百花齐放的局面,集团用户成为运营商发展的重点之一,根据赛迪网的估算,在2007年整体市场规模将达到1500亿元。当然这个不光是核心技术,还有一些相关的产业,以上就是整个产业链含有的市场规模。

  ——前景是好的,但是我们也看到问题。在一些科研活动和市场活动中我们发现,中文信息处理面临着自主创新成果和产业开发之间的严重的脱节。首先,一些科研成果缺少产业化的考虑,好多教授、专家在大学、研究所做的一些成果追求的是高、精、深,追求的是学术水平,但是往往脱离产业需求;另一个方面,企业缺乏创新能力,这个创新能力的缺乏,可能有多方面的因素。比如说,它认为现在做这个创新没有必要;比如说他的目前的能力,如经济能力,还不能够从事创新活动;或者是没有这方面的技术积累等;……各方面原因导致他没有创新的能力。但是我觉得更重要的是,科研机构与企业之间缺乏沟通的渠道与机制,大家是脱节的,你干你的,我干我的,然后在结合的时候互相又不买账,互相都看不上对方。因此,国家在中长期规划里面讲的“以企业为主体的自主创新”,这不应该仅仅停留在口号上,我们必须有一种机制有一种渠道来做保证。很显然,产、学、研的通道就是最好的一个实现途径。

  ——在这里我想插着说一句清华大学。清华大学作为大学,学科是分立的,学科之间没有一定的综合性。但是市场的需求可不是这样的,市场需求的一个产品或一个服务,它往往是跨学科的,不可能由单一学科去解决所有问题,也就是说市场需要学科综合。针对这样一个现象,清华大学就成立了信息技术研究院这么一个机构,这个机构就把整个信息学院相关的各个学科整合到一起,可以在应对企业或者国家需求的时候,把各个不同的学科的力量合到一起。同时我们在信息技术研究院也有一种很好的机制,就是办联合研究所,这是由企业和清华共同成立联合实验室或者联合研发机构,企业和大学大家坐在一起,共同去解决一个问题:你解决关键的技术问题,我解决市场上用户关心的问题。这就是产、学、研通道建设的一个很好的例子。

  ——话说回来,我们从另一个角度来说这个事情。那就是要通过联盟来为科研机构和企业之间提供一个无缝的交流和合作的平台。我着重介绍一下国际中文语言资源联盟。先简单的回顾一下这个联盟的发起单位,上次年会的时候给大家做过介绍,该联盟是由国际上8家单位来发起的。首先,北京有4家—有一个企业,三个研究单位,新加坡有汉语语言信息处理学会,日本有ATR—这是日本非常著名也是国际上非常著名的口语语言翻译研究实验室,美国霍普金斯大学的语言与语音处理中心,以及香港中文大学。我们这样的8家单位共同发起成立了这个联盟。这个联盟是以中文语音和语言数据资源建设及其应用的全球科技机构和公司自愿组成的、不以营利为目的、公益性学术和产业联盟,提供汉语语音识别、语音合成、自然语言处理、感知分析、语音分析、语言分析以及其他相关研发的数据资源平台。联盟目前是挂靠在北京中关村高新技术企业协会国际中文语言资源分会。这个联盟从成立到运行,一直得到海淀区政府的大力支持,我们多次向周良洛区长、于军区长等作过汇报。在这个过程中,他们对我们联盟的运行也给予了非常大的财力上的支持;清华大学龚克校长、张凤昌校长也非常关心,把联盟的建设作为清华信息科学技术国家实验室软平台建设中非常重要的组成部分,在此表示非常的感谢。领导的支持极大地促进了联盟的发展、促进了中文信息处理产业。CCC的宗旨分为四个方面,一是搜集和整合现有语音和语言数据库,以及创建新的语音和语言数据库,因为数据库是我们进行研发的一个非常重要的资源,没有它的话,所有后面的工作都是空话。另外一个是,整合现有的涉及中文语音和语言数据库资源的创建、标注、分析工具,提高工具实用性,以及开发新的工具。三是关注和中文语音和语言相关的一些标准。再有就是促进中文语音和语言数据资源的交流与共享,促进产业的发展。CCC理事会的成员基本上来自8个发起单位。现在CCC开展了一年的工作以后,我们发展了很多的会员,现在使用CCC资源的一些单位,基本可以说遍布世界各个地方—当然有些地方还没有,比如非洲、南美、澳洲还没有,我们希望以后在那些地方能发展会员,因为现在对中文语音和语言关注的国家是越来越多。我们数据库的规模在2005年翻了一番。从数字上看可能不是很多,但大家知道,语音和语言的数据库的创建是非常花时间,也非常花财力、物力的,因此创建一个数据库不是那么容易的。我们能够实现数据库数量翻一番是得到很多联盟成员支持的结果,也得到海淀区的支持的结果。另外,我们目前还有3个仍在开发的巨型说话人识别数据库,这些数据库都是达到万人规模的。在做万人规模说话人数据库的同时,我们在技术上也作了积累。刚才国家信息中心李凯主任讲了,我们要利用声纹技术在电子政务和电子商务的领域中发挥更大的作用,用声纹技术提供及创造一个互联网应用方面的基础设施,我们未来在这方面要有大发展。这样规模的数据库,我们在2006年初就可以发布。万人规模是非常大的,因为要采集一万人的语音,找这些人都不是一件容易的事情,但是我们把它做成了。我们另外通过数据资源的共享来推动交流,比如说我们有海淀园区资助的数据库,我们就免费发放给联盟的成员,让他们使用;我们有些资源可以在发起单位和会员之间进行共享;对于非会员这些资源也以非常低的价格,基本是成本价销售。2005年我们销售了20多个COPY,这个可能不是很多,但是随着影响的不断扩大,相信会有更多的人使用。因为这是有潜力的,就像美国的LDC数据库,每年销售量就非常大。当然,我们不是为了销售而销售,而是为了通过使用数据库而达到推动更多交流的目的。另外,未来促进产、学、研的渠道建设,促进学术交流和产业发展,我们提供一些测试平台。今年年底将在新加坡召开的国际中文口语语言国际会议上,我们就要提供一个测试平台,由参加者进行使用,我们对参评者还免费赠送一些大型的数据库。我要强调的是,以上所说都是免费的,都是无偿的,是为产业发展服务的。

  ——未来我们要以促进标准和产业的发展作为己任,共两方面的工作。第一就是中文语音交互标准工作组。在2003年,信产部科技司司长韩俊宣布成立中文语音交互标准工作组;2004年工作组成立大会和第一次全体会议在北京召开。在此期间,我们通过了工作组章程以及标准制定的规划,CCC联盟积极参与了此项工作。工作组负责起草相关标准,由信产部决定最终标准的实施。工作组的架构情况,这里就不细讲了。联盟成员负责或参与起草的有三个标准:语音识别(参与起草)、数据库及标注(负责起草)、声纹识别(负责起草)。我们对标准的起草工作非常重视。

  ——另一方面,就是要促进产业的发展。我们通过几种方式来做到这一点,其一,举办技术与应用培训、与国内及国际性的专业协会进行产业联盟等多方面的接触与交流。免费培训包括声纹识别的培训、自然语言理解的培训,每次都有很多企业参加。另外,参加的一些国际性的组织,包括东方语言的语音输入输出及评测标准协调委员会,和一些国际会议。其二,发布联盟网站,这个网站提供了联盟成员之间交流与合作、资源共享、形象宣传、成果推广等的一个重要的平台。

  ——此外,我们还要促进联盟内成员的合作。现在已经完成的合作包括:联盟成员共同承担公安与边防领域的课题,应用于司法鉴定、技术侦查、2008年新版护照等重要领域;联盟成员合作推出了多款声纹认证加密锁;联盟成员通力合作推出了国际首创的中文互动短信服务、无线智能歌曲搜索业务、航班信息查询,为手机用户和互联网用户提供功能强大的智能信息服务,开创了智能互联网的新领域,这些产品都是已经在中国移动正式使用的。

  ——联盟在2006年及未来的工作重点包括:继续创建新的数据库资源;吸收新的会员并不断扩大影响;促进中文信息处理产业的合作与交流;关注并力争为2008年奥运会做出贡献。奥运会上,我们可做的事情很多,届时将有来自全球各个国家的运动员、教练员、体育官员,北京将是他们非常关注的一个地点,比如说旅游、购物、餐饮等等。可以通过中文语言理解技术,提供短信、网络上的一些服务,使人们尽快获取这些信息。在奥运会期间,可以通过身份认证技术保证不同人进入不同场馆。当然还有公共安全,比如如何防止恐怖分子破坏,如何对重点嫌疑分子进行电话监听等。第三个方面,要继续推进人机交互模式的革新,包括语音识别、语音合成、声纹识别、智能搜索引擎、信息安全与过滤等等。我们在今天的年会上邀请了联盟内的一些企业做报告,他们将会给大家介绍相关领域的成果和展望。

  ——联盟的成立以及成长得到了各界的支持,在此再次表示感谢。我们希望以后继续得到领导、专家、同仁、媒体的支持和帮助。

  ——在2006年即将到来之际,预祝各位新年快乐、万事如意、多多发财,谢谢!