“东算”风起
来源:瞭望东方周刊 更新时间:2023-06-07

随着‘东数西算’工程推进,未来我国将逐步形成更加均衡分布的算力体系。


上海超级计算中心

UCloud(优刻得科技股份有限公司)是中国知名的中立云计算服务商,其两大云基地分别位于“东数西算”工程规划的国家算力枢纽节点,内蒙古(乌兰察布)和长三角(上海青浦)。
“其实我们布局乌兰察布数据中心时,‘东数西算’8个枢纽节点还未发布。当时考虑乌兰察布离北京近,海拔更高,有电价低廉、自然低温等优势,能耗控制较好;上海数据中心则位于长三角一体化等多个国家战略交汇点,适合布局核心计算业务、高时效业务。”UCloud副总裁刘杰告诉《瞭望东方周刊》。
“两个基地各有优势。比如,人工智能企业可以构建混合云,将模型训练等非实时计算部署在乌兰察布,将需要实时计算的推理工作部署在上海,降低成本的同时提高创新效率。”刘杰说。
“纵观当下中国整体算力分布,东部算力规模仍远高于中西部地区,但依然无法满足日益增长的算力需求。”上海社科院信息研究所副所长丁波涛告诉《瞭望东方周刊》,“东部地区不仅有科学计算和大数据处理的需求,还有增长更快的人工智能训练和推理计算等需求,这些都需要体量更大的多种类型智能计算。随着‘东数西算’工程推进,未来我国将逐步形成东、中、西部更加均衡分布的算力体系。”
“东算”热数据
在过去一年里,各地纷纷通过出台政策、活动招商、建设重点项目等,响应国家“东数西算”战略,加快推进算力基础设施建设和升级。
作为全国信息化发展的“排头兵”,上海具有领先的产业发展优势和积极的地方政策。2022年6月,上海市通信管理局印发的《新型数据中心“算力浦江”行动计划(2022-2024年)》明确,力争到2024年初步建成全国一体化算力网络上海枢纽节点,形成与本市数字经济发展方式相适应,长三角地区协同发展的算力服务发展格局,建成具有亚太乃至全球影响力的高能级算力枢纽中心。
2022年1月,江苏省工业和信息化厅印发《江苏省新型数据中心统筹发展实施意见》,提出到2023年底,江苏省数据中心机架规模年均增速保持在20%左右,平均利用率提升到65%,全省新型数据中心比例不低于30%,高性能算力占比达10%,新建大型及以上数据中心电能利用效率(PUE)降低到1.3以下;到2025年底,江苏省数据中心机架规模达70万标准机架,新型数据中心占比进一步提升,算力算效水平显著提高。
数字经济大省浙江也于2021年发布《浙江省推动数据中心能效提升行动方案(2021-2025年)》,提出到“十四五”期末,浙江省数据中心平均PUE下降至1.5以下,其中大型以上数据中心 PUE 降至1.3以下,长三角枢纽区集群内数据中心PUE达到1.25以下,全省数据中心可再生能源使用率达到30%以上。

2022年6月23日,之江实验室计算与数据中心,工程师们通过“之江云”系统监测服务器集群的运行状态(黄宗治/摄)

在算力基础设施方面,据浙江省经济和信息化厅统计数据,截至2023年2月底,全省已建成数据中心150多个,主要布局在杭州、嘉兴、湖州、金华、温州等地。算力规模达8.86EFlops,已用算力规模5.07EFlops,另有在建算力规模7.48EFlops。
2022年7月,首届中国算力大会在山东济南举办。在这场我国算力领域首个全国性会议上,现场签约启动项目总投资额约461亿元,涉及中国移动、中国联通、中国电信、中国铁塔、中国广电、华为、阿里、浪潮等算力龙头企业。业内人士梳理这些项目发现,“东数西算”已成为这些项目决策和落地的重要依据。一年多时间来,多家行业龙头在8大枢纽和10大集群积极布局,申请土地空间和能耗指标,推动自身算力基础设施建设。
自2022年2月之后一年间,全国新开工建设的数据中心项目中,以长三角枢纽及其内长三角生态绿色一体化发展示范区集群、芜湖集群承建项目数量最多,西部枢纽中则以成渝枢纽及其内的天府集群、重庆集群为首。
“当前,大部分算力需求集中在数字经济发展较发达的东部沿海地区。”丁波涛分析,即使在“东数西算”政策引导之下,许多企业签约落地项目的地区仍首选东部地区,算力业务向西迁移的增量还是集中在成渝等准一线城市,部分互联网巨头和三大运营商已经在贵州、宁夏等西部地区率先有了进一步的探索。
“目前,西部地区项目主要承载的是对网络依赖不强的冷数据处理需求和备份需求等业务,真正意义的‘西算’市场还需要加大培育力度。”中国科学院计算技术研究所研究员、中国计算机学会高性能计算专委会秘书长张云泉告诉《瞭望东方周刊》。
一卡难求
2022年底,美国OpenAI推出的ChatGPT引爆了国内市场对于大模型的热情,大模型本身对GPU算力有极强的需求。“目前,国内能提供对应算力支持的超算中心还不多,国家超级计算济南中心(以下简称“济南超算中心”)的神器——山河超算平台部署的智能计算集群能够提供人工智能计算能力。”张云泉介绍。

济南超算中心的山河超算平台

“在大模型热潮袭来后,不少国内企业找过来,希望能够使用山河的人工智能算力训练大模型。”国家超级计算济南中心研究员郭猛告诉《瞭望东方周刊》,“目前不少科研机构、高校、互联网公司排队已经很长时间,简直‘一卡难求’。”
“这个‘卡’主要是说目前人工智能大模型训练最常用的专业级显卡。”郭猛说。
济南超算中心是我国完全采用自主处理器研制的千万亿次超级计算机神威·蓝光的诞生地,也是我国超算领域的“领头羊”之一。
2019年,借助新建全球首个以“超算”为主题的科技园——国家超级计算济南中心科技园的契机,济南超算中心谋定建设山河超算平台。这个平台不仅可以提供传统高性能计算算力,还能提供云计算和智能计算服务,后两者将满足更多民生、产业领域的算力需求。
“全球的超算都在冲速度,尤其是高性能计算在不断追求更快、更强,如何让超算的算力得到更好的利用?让超算机构更好地运转?”济南超算中心副主任郭莹说,“超算研制瞄准的是解决大问题,比如‘超算诺贝尔奖’戈登贝尔奖获奖的那些案例,但这些大问题可能占比不到20%,真正消耗大量算力的还是大批量的中小规模应用,所以我们的超算要同时满足这两类需求。”
在服务更多产业和企业的背景下,山河超算平台应运而生。2021年建成的山河平台高性能计算能力达80PFlops (每秒千万亿次计算),人工智能计算能力达到1000PFlops,整体性能居世界先进水平,在德国汉堡举行的ISC2022高性能计算大会上,一举登顶世界最新IO500榜单,且大幅刷新了该榜单历史最好成绩。
“山河平台建成后,我们服务的用户面越来越广,对接的需求也越来越多元,围绕山河平台正在形成一个越来越丰富的超算应用生态。”郭猛说。
“由于选对了技术路线,济南超算中心发展势头迅猛。”张云泉评价。
为了进一步挖掘算力底座的潜力。围绕济南超算中心,济南市历城区规划打造了14.2平方公里的超算数字经济生态创新圈。2022年底,济南超算中心和济南超算数字经济创新圈服务中心等机构以联合招商小组的名义向全球发布招商。
“这不是一次单纯的招商,更重要的是我们想让大家都知道济南有一个超算中心,我们的算力能赋能你的产业。”济南超算中心副主任、济南超算技术研究院院长潘景山说。
“算力对企业的重要性和吸引力不断增长,越来越多的企业来科技园考察,越来越多的企业家在琢磨怎么能用上这种算力。”潘景山说,“一些企业因为超算中心而选择落地济南超算数字经济生态创新圈。”按照规划,到2025年,这一创新圈将集聚50家龙头企业,引进和培育企业500家,新增就业岗位5000个,形成千亿级数字经济集群。
AI公共算力平台
新药研发中的分子筛选、智能网联汽车的车路协同、无人值守的“黑灯工厂”……这些对算力有大量刚需的产业场景,过去不得不面对排队申请算力的无奈。
2023年2月20日,依托上海超算中心建设及运用的上海市人工智能公共算力服务平台正式揭牌启用。以该平台为核心,上海“1+N”算网体系初步形成。
“上海超算中心属于政府公共算力服务平台,通过对公共算力和各种商业算力的集聚调度,努力实现算力如水电等基础设施一样便利使用,为科研机构和广大中小企业提供具有公信力的普惠算力,帮助企业降低使用算力的成本,实现异构异地资源共享。”上海超算中心综合管理部部长林薇告诉《瞭望东方周刊》。
据介绍,新建平台是采用国产自研达芬奇架构的人工智能算力平台,计算峰值能力(FP16)达到100PFlops。主要器件CPU和AI处理器采用冷板式液冷,辅助设备通过风液换热器进行间接冷却,能耗PUE低于1.3。目前,三大运营商以及商汤、华为、腾讯等智算中心的算力都在踊跃加盟这一算力调度平台。
“当然,要实现算力抱团也面临不小的挑战。现在各种算力的技术标准、接入方式等都不尽相同,如何通过平台将这些算力资源汇聚起来,进行统一调度,需要研究相应的策略和方法。”林薇说。
根据中国信通院发布的《中国综合算力指数(2022年)》,截至2021年底,上海市算力指数排名位列全国第一,综合算力指数排名位列全国第二。报告显示,上海市算力、存力、运力发展水平均处于全国前列。从算力规模来看,截至2021年底,上海市在用算力规模超过13EFlops,在建算力规模超过7EFlops。
在上海,集成电路、生物医药、人工智能三大先导产业,数字经济、绿色低碳、元宇宙、智能终端四大新赛道,以及前瞻布局的未来健康、未来智能、未来能源、未来空间、未来材料等五大未来产业,无不是算力需求大户。
“比如,一名神经系统疾病患者的检查和治疗数据高达500G,急重症患者每天产生的用药、化验数据等,都迫切需要充沛算力辅助。”华山医院神经外科副主任医师、教授孙一睿说,“现在,由上海超算中心提供公共服务算力支撑,华为提供自主可控的昇腾芯片及MindSpore昇思人工智能技术框架,上海联通提供算网一体技术、联通云和算力集成运营服务,多方共同打造上海公共服务算力孵化人工智能辅助医学的创新应用,有力推动医疗系统数智化升级。”
“不过,即便上海有这样的算力基础,由于全社会对于数字资源的存储、计算和应用需求与日俱增,导致算力仍供不应求。”丁波涛说。
未来必选项
随着“双碳”目标提出和全社会数字化转型的加速,数据中心作为海量数据的主要存储与运算处理实体,其规模不断扩大,由此带来的能源消耗问题受到广泛关注。
据中国信通院云计算与大数据研究所测算,到2030年,我国数据中心耗电量将超过3800亿千瓦时,如果不采用可再生能源,碳排放量将超过2亿吨,算力基础设施的绿色低碳亟待实现。
为此,国家及各地政府相继出台多项政策性文件,对电能利用效率(PUE值)指标控制呈现严格趋势,在数据中心建设项目审批、运营管理、差别电价等方面不断将PUE值作为刚性指标。
根据工信部《新型数据中心发展三年行动计划(2021-2023年)》发布的数据,到2023年底,全国数据中心机架规模年均增速保持在20%左右,平均利用率力争提升到60%以上。
同时,在国内多地出台清退落后产能的相关政策文件中,一些东部地区的数据中心也赫然在列。广东省提出,珠三角地区60%中高时延数据业务迁至粤东粤西粤北地区;浙江省提出,对于省内数据中心整体上架率(建成投用1年以上)低于50%的运营单位,不支持新建大型和超大型数据中心项目,对已建数据中心“整合一批、改造一批、淘汰一批”;北京市出台《低效数据中心综合治理工作方案》,对低效数据中心,分批开展整治工作,有序迁移关闭。

国家超级计算深圳中心(深圳云计算中心)

“淘汰一部分东部数据中心、把一部分算力转移到西部,本质上都是基于实现‘双碳’目标的考虑,‘东数西算’不仅能够节约‘西电东送’的成本,还能提高对西部光伏、风电等绿色能源的使用。”丁波涛说。
“UCloud帮助客户将原本部署在东部的服务器中对时延敏感性低的业务西迁至乌兰察布数据中心,迁移后可以帮助客户将IT运营成本降低50%。” 刘杰说。
“我们公司的主营业务是云计算。云计算本身就是一种绿色的计算资源,通过集群化管理、高效运营,相对于传统架构,降低能源消耗和资源消耗;乌兰察布数据中心选址可以助力新能源消纳,同时降低数据中心的PUE和耗电量;上海青浦云计算中心建设光伏发电,抵消自身碳排放。” UCloud基础设施工程管理经理杨淑宝告诉《瞭望东方周刊》。
“同时,我们的数据中心还利用很多创新性技术手段,诸如自然冷却、间接蒸发、热回收、高压直流、智能化运营等,降低数据中心PUE,降低能耗和碳排放。比如在上海数据中心采用的白露间接蒸发冷却技术,通过重构间接蒸发冷却流程,极大地提高了制冷效率。”杨淑宝补充道,这项技术获得了2022年“云计算中心科技奖卓越奖”。
“‘东数西算’工程刚启动一年多,相关规划和基础设施目前还在推进过程中。对于企业来说,‘东数’要不要‘西算’,目前看来是可选项,未来可能是必选项。”丁波涛说。(记者万宏蕾)