来源:学习时报 更新时间:2024-10-09
大模型,作为人工智能领域的革新先锋,正引领着一场深刻的技术变革,其影响力已超越技术范畴,预示着人工智能、科学探索乃至人类社会的全面重塑。在全球科技竞赛中,大模型成为各国争夺焦点,战略地位堪比20世纪的太空竞赛,开启大国科技新角逐。因此,深入了解大模型的各个方面变得尤为重要。
大模型的诞生、发展与应用
大模型,是一类基于深度学习架构、在海量数据上训练、能够处理多种任务的基础模型。与传统AI模型相比,其显著特征在于参数量大、数据量大、计算量大,是多重技术交叉融合的产物。其前身是历经数十年研究的语言模型,广泛应用于机器翻译、语音识别等领域。随着神经网络的再次兴起,2000年神经语言模型诞生,随后2017年神经网络架构Transformer横空出世,融合了神经语言模型、机器翻译、序列建模及分布式技术。这一系列创新及对AI通用和泛化能力的追求推动了GPT系列的快速发展,从2018年至2020年,GPT一至三代相继问世。2022年,ChatGPT凭借其卓越性能,将大模型推向公众视野,成为AI发展的新里程碑。
大模型作为新兴而迅速发展的技术,已跨越至多模态领域,涵盖语言、语音、视觉等,并细化为通用、行业及任务特定模型,其在信息交互上的创新尤为显著,引入了长上下文窗口(大模型能够编码的最长序列)、检索增强及智能体等机制,极大增强了信息处理能力。这一技术不仅丰富了数字世界的应用场景,如聊天机器人、AIGC等,还延伸至无人驾驶、人形机器人等物理世界领域,展现出强大的赋能潜力。在科学研究中,大模型不仅辅助工程设计、技术创新等应用科学,更推动基础科学探索,加速了自动化、智能驱动的科学研究新范式的形成。可以说,大模型既支撑了高端科学研究,也助力了传统产业的转型升级与降本增效。《2023企业数字化年度指南》调研数据显示,超过63%的企业视大模型与AIGC技术为战略资源,首要目的在于降本增效,广泛应用于研发创新、办公效率提升、客户服务、市场营销等多个领域。同时,大模型在工业设计、芯片设计、人形机器人等多个行业的应用案例也充分证明了其广阔的应用前景与市场潜力,正逐步成为推动社会进步与产业升级的重要力量。
大模型背后的关键技术
是什么造就了大模型如此强大的能力?从大模型的发展实践看,其背后有三项关键技术。
一是大模型底层的神经网络架构Transformer。Transformer 最初提出主要是为了解决序列建模中的循序计算问题,即只有前面的词元(自然语言处理中的最小语义单位)计算后才能计算后面的词元。循序计算极大束缚了模型的并行计算能力,使得语言模型、机器翻译等序列模型难以大规模扩展。Transformer架构巧妙地利用了自注意力机制,不仅大幅度提升了模型的并行计算能力,而且显著提升了模型的长距离依存关系建模能力(语言模型的关键挑战)。并行计算能力使Transformer可以在大规模数据上进行快速训练,而长距离依存建模能力极大强化了Transformer对语言等序列数据内部复杂依存关系的学习和表征能力。两项能力的叠加,使Transformer 开启了“后临词元预测”范式模拟人类智能的大门。
二是基于自监督学习的预训练技术及扩展法则。Transformer虽然具有强大的并行计算和表征能力,但要使其学习和模拟人类智能还需要解决两个重要问题:如何将人类多样化的智能统一表征,如何训练模型使其高效学习人类智能。针对第一个问题,GPT将各类任务统一表示为生成式问题,无论是写作、翻译、问答等典型生成式问题,还是推理、规划、问题求解等非典型生成式任务,都归聚到生成式AI的统一框架中,在这个统一框架中,基于后临词元预测的语言模型成为天然的技术路线。统一表征不仅使AI不需要为不同任务设计不同的模型(传统弱人工智能模式),而且还极大提升了AI模型在不同任务间的迁移能力、泛化能力。对于第二个问题,语言模型的后临词元预测模式使自监督学习成为模型训练的首选,在可大规模获取的人类语言数据上,后临词元本身就存在,因此模型可以充当自己的“教师”,采用“教师强制”方式进行自监督训练。区别于传统人工智能有限的有监督数据,自监督数据规模庞大且易于获取。这不仅使模型可以学习丰富的人类知识,同时也要求模型的容量(参数量)足够大。在给定算力规模前提下,如何选择模型的参数规模及训练数据规模,使模型能训练到最优性能?业界经过反复实践,总结出了扩展法则,用以指导模型与数据规模的协同扩展。
三是后训练阶段的精调和对齐技术。经过预训练的大模型,如同学习了大量知识和百般武艺的“学生”,但不知该如何运用。为了解锁预训练模型的知识和能力,通常需要进行后训练,即采用少量的有监督数据对预训练模型进行精调,使其能够理解人类的意图,遵循人类的指令,对齐人类的价值观。业内目前广泛采用的后训练,通常包括两个主要部分:有监督精调(模仿学习人类给出的示范样例)及人类反馈强化学习(基于人类反馈的偏好数据进行强化学习)。后训练的成本通常远小于预训练成本,同时,后训练也是解锁模型能力、保障模型智能向善的关键阶段,因此,业界对后训练寄予厚望。
大模型的突破点与创新方向
模型架构、预训练与后训练,既是大模型的关键所在,也是未来重点突破的方向。Transformer架构虽潜力强大,但其是否为最优的智能学习架构尚待验证,能否承载全部的智能学习任务亦存争议。预训练领域,高昂成本促使我们寻求更高效的数据学习方法,同时,模型规模与性能间的最优平衡,以及模型、数据与计算三者间的理论关系,亦需深入探索。后训练领域,是否存在新的方法,偏好数据是否真能代表人类意图和价值倾向,预训练+后训练是训练现有架构的最优模式吗?这些都是值得思考和亟待突破的地方。
除此之外,还有四个重要研究方向有待深入探索(与以上三个方向存在一定的交叉),其突破可能关系到大模型能否跃迁到人工智能的新阶段。一是类人推理能力。大模型的推理能力有待进一步加强,复杂问题的类人推理能力是大模型现阶段最期待的突破方向之一。二是AI合成数据能力与模型的自我迭代能力。随着模型规模的不断扩大,人类数据可能很快被大模型用尽,AI合成的数据,成本既低廉,又可源源不断生成。但如何生成高质量数据,使大模型能够自我学习、自我迭代,甚至实现弱模型合成数据监督(训练)强模型,将是大模型未来突破数据限制的重要方向。三是自我发现和创新能力。人类不仅能够学习已有知识,也可以创造新的知识,未来要实现完全自动化科学研究,大模型需要具备创造新知识的能力。四是可扩展的监督。在复杂任务上、人类难以提供监督数据的任务上(如未解的科学难题),大模型仍需要与人类目标和价值对齐,这就要求监督是可扩展的。该能力是前沿人工智能实现智能向善、安全治理的关键技术。
我国大模型技术的进展情况与发展路径
尽管我国在大模型技术方面初期存在一定滞后,但近一年来发展迅速,不仅在研究领域取得了显著成果,还在产业应用上展现出了强劲实力。国内相继开源了通义千问等大模型系列,这些成果在国际大模型开源领域中仅次于美国,形成了广泛的影响力。在产业应用层面,我国多个大模型的中文能力已经超越GPT-3.5,它们在数字人、人形机器人等前沿领域,以及能源、交通、医疗、政务、农业、金融等多个传统及新兴行业中,都实现了丰富的落地应用,推动了各行各业的智能化发展。
为巩固并提升我国在这一领域的国际竞争力,可以从以下布局和规划着手。第一,进一步提升以大模型为代表的前沿人工智能在国家科技和产业发展中的战略地位,成立人工智能工作小组,领导AI产研咨询委员会,统筹资源,制定AI政策和计划,推进人工智能技术创新和产业发展。第二,重点规划和建设前沿人工智能相关的国家基础设施,包括超级智算网络、通用及行业数据基础设施、大规模人工智能软件基础平台、人工智能安全与测评基础设施、大模型开源平台等。第三,开展大模型关键理论和技术攻关,啃硬骨头,探新疆域,研发经得起实践考验的硬核技术。第四,培育和建立大模型创新发展生态,形成大模型技术创新氛围,鼓励耐心资本敢投广投大模型硬核技术创业企业。第五,重视人工智能人才培养和成长,培养一批具有长远眼光和实战经验的AI战略型人才、技术型人才、交叉复合型人才等。第六,重视人工智能安全治理,既要设计顶层治理策略,更要推动底层安全技术的创新突破。第七,积极开展国际合作,建立新型人工智能国际组织和机构,吸收新理念,合研新技术,与发展中国家共享AI红利。第八,推动前沿人工智能行业、国家、国际标准建设,形成标准体系,以标准建设护航人工智能产业发展。