迈向人工智能时代的统计学
来源:中国社会科学报 更新时间:2024-01-18


统计学是一门通过系统地收集、整理与分析数据来推断事物的本质或者进行预测的综合性学科。统计学的理论与方法大量依赖数学知识,而统计学的应用范围几乎覆盖了自然科学与社会科学的各个领域。从一定程度上来讲,统计学对于现代工业的发展与科学研究的突破起着非常重要的推动作用。
21世纪是数字化时代,大数据成为时代最鲜明的特征和标志之一,而随之兴起的人工智能也成为人们关注的焦点。数据是统计学与人工智能共同的基础。因此,统计学不仅成为人工智能发展的重要支柱,同时人工智能也进一步丰富了统计学的研究范畴,革新了统计学的方法与技术。
人工智能技术更新传统统计方法
在传统统计学的研究中,统计模型的建立依赖于数据的测量方法与结构特征。统计分析人员往往需要预设分析策略,随后设定待测量的变量以及数据的收集方式。在统计思想中,收集到的数据被看作是来自于某个感兴趣总体的样本,使用样本推断总体是统计学的基本任务。然而在实际问题中,样本数据的收集往往无法完全遵循事先的预设,并且样本作为总体的一个部分,其对总体是否有良好的代表性也会影响很多统计分析方法的精确度。随着大数据时代的来临,在数据收集过程中可以获得的数据规模(即样本量)大幅提升,样本量的增加使得统计推断与预测的结果更为精确。以统计学的一个重要分支生存分析为例,生存分析中收集的数据常常因为收集手段的限制存在各种信息损失,然而随着样本量的提升,大样本可以在一定程度上降低信息损失带来的干扰,改进模型的性能与效果。同时,得益于人工智能技术的发展与算力的提升,大量依赖线性结构的传统统计模型也呈现出多元化的趋势,各种非线性模型开始主导人工智能时代的统计分析。

鉴于统计学在人工智能时代的发展趋势,笔者在生存分析领域的研究中,重点关注了深度学习,尤其是神经网络技术的应用,以期拓展传统生存分析模型的应用范畴与实践效果。在一项近期的研究中,笔者试图将神经网络这一工具引入传统的生存分析回归模型之中,在不增加样本量的基础上,通过增加模型的灵活性来提升预测效果。历史上最经典的生存分析回归模型被称为“Cox模型”,其一个重要的特征是假设自变量对因变量危险率函数的影响结构是线性结构。在传统的统计建模中,线性结构假设是最常见的假设之一,并有着丰富的理论结果。然而,现实世界中变量之间的关系常常是较为复杂的非线性关系。因此,如果能够在模型中引入非线性特征,则可以更加接近客观世界的真实情况,由此提高模型的性能,而神经网络就具有强大的非线性函数逼近能力。借助神经网络技术,笔者对Cox模型进行了两个方面的改进:一是把自变量的线性部分延拓成一个任意形式的函数,使用深层神经网络结构来进行估计,突破了原先变量之间线性关系的限制;二是引入一个随机效应,以便刻画那些没有被数据收集到、但对因变量存在潜在影响的因素。基于此模型,笔者设计了相应的算法来获得参数估计,进而在若干个数据集上比较该模型与其他现有算法的预测效果,发现该模型在预测能力上有明显的改善。此外,笔者还给出了模型估计的理论性质。这种将人工智能中先进的算法和技术与传统统计模型相结合的实践,是人工智能时代统计学研究的一个重要趋势。
人工智能与统计学相辅相成
随着人工智能时代的到来,一方面统计学作为人工智能重要的支撑性学科,其研究热点与人工智能的发展密切相关;另一方面人工智能的技术方法不仅有助于实现传统统计方法的优化,也为提高统计分析的效率和精度提供了可能。
当今的人工智能主要是依托大量的数据信息,让计算机使用模型与算法进行训练,从而使得计算机能够具备某些类型的智能。近年来,基于深度学习技术发展起来的人工智能,已经在语音识别、自然语言处理、图像识别等领域展现出了强大的生命力。人工智能所涉及的算法与技术,无论是深度学习、预训练技术,抑或是如今最流行的大模型,都离不开统计学的支撑,统计学无疑是人工智能的基础学科之一。诺贝尔经济学奖获得者萨金特甚至认为,人工智能不过是统计学的延伸。因此,人工智能的未来发展和演变,也一定离不开统计学的拓展和完善。
反过来,人工智能技术也给统计学带来了巨大的革新。除了前文中提及的笔者所做的一个神经网络在生存分析中应用的研究,这里还可以再举一个例子。在传统统计建模中,统计分析人员常常需要根据所研究的目标从数据资源中构建各种变量,即将数据资源进行结构化处理,随后再引入统计模型。这个步骤一般被称为特征提取。在很多应用中,特征提取的质量往往与统计模型最后的性能有着密切的关系。然而,作为人工智能技术中最重要的深度学习,其依靠深层次的神经网络结构,可以在大量非结构化数据中自动实现特征提取,即所谓的特征表征学习。这个学习过程可以完全独立于后续的统计任务,同时可以借助算法的能力自动实现对特定任务而言最优的特征提取。由此,在一定程度上,人工智能时代的统计分析不再需要分析人员根据自身对研究问题的理解来设定变量或提取特征,而是可以借助算法来自动且有效地捕捉数据的内在特征。这一特性在大型复杂数据的统计分析建模中尤为重要,如图像分析、基因组学等,也给传统的统计建模流程带来了显著的变革。
近年来,人工智能技术的发展速度已经超出了人们的预期。从统计学角度给予人工智能技术理论层面的解释,是一个有着重要价值的话题。诚然,相比于技术的发展速度,人工智能在理论层面的进展还有些跟不上节奏。此外,如何更好地预见人工智能技术发展的边界,以及统计学思想还能为人工智能带来何样的进步,都是大有想象空间的议题。毫无疑问,人工智能时代的统计学研究,将开启一个崭新的发展时代。
(作者单位:复旦大学管理学院统计与数据科学系)