西安一码通崩溃给我们有什么启发
来源:电子政务网 更新时间:2022-01-07

西安一码通启示:建数字基础设施不仅要快,更要稳!

西安疫情,牵动无数人的心。从爆发到现在,迅速增长1000多确诊,如今大规模反弹风险基本控制,西安人民付出良多。
这其中,西安一码通半月两次系统崩溃,冲上热搜,影响甚大。有网友写对联调侃,上联是非必要不亮码;下联是必要时码不亮;横批是人困码乏。
我们疑惑,西安一码通崩溃的原因到底是什么?其实已有多个城市出现健康码打不开问题,如何防止这种情况在其他城市重复上演?城市在打造数字平台之时,不只要快,还要稳,防止突发情况,具体该怎么做?
事件回顾:访问暴增、预估不足是主因
2021年12月20日,这个1300万人口的特大城市,为了抗疫要求市民需要扫码、持绿码上班。突然增加的并发需求,导致西安健康码崩溃,许多市民反映一码通打不开。
对此,西安市大数据资源管理局回应表示,由于各公共场所加大了扫码查验,对网络与平台造成较大压力,每秒访问量达到以往峰值的10倍以上,造成网络拥塞,致使包括“一码通”在内的部分应用无法正常使用。

十几天后的2022年1月4日,西安开展大规模的核酸检测等工作,然后西安一码通再次短时间无法正常使用。之后,西安大数据资源管理局局长被停职。

如今网上很多人都在探讨西安一码通系统半月两次崩溃的原因,有说技术原因,有说层层外包,有说管理不当。
首先,陡然增加的大量需求,超出系统的承载能力,是主要原因。
众所周知,西安一码通是在近2年前的2020年3月招标开发,那时候疫情刚开始,西安一码通就是起到个人扫码查询展示作用,功能相对简单,使用频率也低。之后该平台陆续被动增添很多功能(如核酸检测情况查询),使用频率提升,但也保持了近2年的平稳运行。
直到2021年底这一轮疫情爆发,才出现问题,毕竟一个处理简单需求的应用系统,变得越来越重,还要突然并行处理几十万、几百万访问需求,可谓是小马拉大车,力有不逮。

这就好比刚开始承建方按照乡村路的标准需求建设,建成了城镇级别的高质量道路,已经很厉害了,即使后续出现行驶车辆增加,也可以应对。但2021年底,这条城镇道路却要承受突然出现的高速公路的压力,自然会发生问题。
很多人说,那西安大数据资源管理局为何不多投入一些,构建更强劲的一码通系统。这就是你家本来只有三口人,建个两层楼就够住了,你非要建设一个十几层楼高的楼,平时大量空置,成本谁来承担?也有人说,那为何不提前将系统搭建到公有云平台。据笔者了解,该系统也在使用西安政务云的能力。
ICT圈很多人对原因进行了分析,提出可能是架构设计、压力测试、性能过载、多系统并行、计算力不足等多方面技术原因。很多网友说,既然压力大,那为何其他城市的健康码没有崩溃?
其实,杭州等地都出现过健康码崩溃,行程码也出过问题。而且大家要知道,西安这次疫情,严重程度远远超过上述城市。国家卫健委高级别专家组成员、中国疾病预防控制中心流行病学前首席科学家曾光表示,西安疫情是武汉封城后最严重一回。
其次,很多网友提出这个项目是层层转包,“用户指定”,不断向该项目“存在贪腐”上引导。现阶段看,这是乱猜。西安大数据资源管理局构建一码通系统,需要软硬件多方面的能力,自己非专业公司,也不可能把每个能力实现一个个招标,当然希望将项目交给一家资质最强的、能协调各方、有专业能力的企业,进行总集成(总包)。
纵观西安ICT圈,不可否认的是,西安电信在带宽资源、IT资源以及产业协调能力方面,是最具实力的央企之一。西安电信通过招标流程中标。之后,西安电信聚集各方能力一起快速搭建了这个平台。这种模式,也是行业惯例。任何一家企业成为总集成商,也要将一些能力外包给更强的企业完成。当然,吃一堑,长一智。我们认为质量不仅包括初期需求,也包括突发情况,所以也需要业界在一码通系统构建中,为突发情况做好应急备案。
对于转包疑惑,笔者看到通信领域专家项立刚在接受媒体采访时介绍的很有道理,一码通项目涉及客户端开发、数据库、管理平台、业务分析、安全机制,除了软件开发之外,还需要有存储、维护、运营,也还需要采购相当数据的硬件,需要有云的支撑能力。所有任何一家企业都无法独立完成,需要多家企业合作完成。
最后,对于西安一码通崩溃的真正技术原因,笔者咨询了多位专业人士。其中一个原因可能比较中肯。调查发现西安一码通出问题,并不是宽带网络或服务器出现故障,而是出在防火墙部分。
一码通系统需要访问西安政府政务云(非一码通系统承包方构建),但一码通系统与西安政务云之间有个防火墙,保证数据安全。西安一码通由于处理需求陡增,触发了政务云侧的防火墙防护机制,出现大量数据丢包。如此一来,各类需求在防火墙处出现拥堵,最后导致整个西安一码通系统无法使用。
数字政府建设成趋势,但面临挑战
上述问题原因越来越清晰,其他城市也都在关心,如何构建更稳定的健康码、核酸检测系统?如何让正在“大干快上”的城市数字平台,更加稳定?我们先了解下当前政府数字平台建设的情况和问题。
数字政府成为全国发展的趋势。比如广东省人民政府发布《广东省数字政府建设总体规划(2018-2020 年)》,确立了数字政府改革建设的总体框架;浙江省人民政府印发《浙江省深化“最多跑一次”改革推进政府数字化转型工作总体方案》;湖南省工信厅印发《湖南省数字经济发展规划(2020-2025 年)》,将进一步加快数字产业化、产业数字化进程……
在数字城市建设的大背景下,各城市都在打造自己的一码通、核酸检测系统。但笔者注意到,许多省份、许多城市的类似一码通系统出现过状况。
比如,山东、福建、海南等省份,哈尔滨、长沙、成都、天津、杭州、澳门等城市,都出现健康码崩坏故障等问题。因此,西安一码通崩坏并非个例,而是城市数字平台打造中普遍面临的难题。
笔者通过梳理发现,城市在构建数字基础设施平台和应用时,面临应用架构不足、弹性能力缺失、问题定位复杂等多个挑战,具体有以下挑战。
第一,目前城市政府每个职能部门的政务系统应用的开发,都是完全独立。但各委办局的政务系统中,实际存在大量的公共的组件(如数据库、中间件、标准技术组件等),在架构和业务逻辑上十分相似。
在各自为战的状况下,每个部门业务系统都需要从头设计与开发。这不仅导致开发周期冗长,更在面对新技术时,各自都要升级新技术的研发和运维能力,进一步增加了系统研发的周期与成本,也增加了出错的频次。
第二,在系统投入使用后,各部门对资源的使用存在割裂,每个政务系统都会根据业务规模的预估,向承建部门进行基础设施资源的申请,之后独占这些资源。
这不仅导致资源使用率降低,更带来职能部门在缺乏对应用的监控与弹性伸缩能力,使得面对突发情况时,只能被动的做出扩容响应,无法实现资源整体规划与共享,导致无法有效提升资源利用率。
第三,目前行业普遍面临应用系统故障定界困难问题。由于承建部门与职能部门,在政务云的运维流程中,基础设施和应用系统是分层实施与维护,导致问题的定位较为低效。在问题发生时,双方都只能从各自的角度尝试定位。多数情况下就会导致问题定界的困难,从而无法快速的定位问题根因,进而无法快速修复问题。
如何破解难题,打造稳定数字平台?
谁也不能保证数字基础设施平台以及应用不出问题,但如何构建尽可能周全的、稳定的系统,减少问题?出了问题,如何快速解决?
比如健康码系统,如何在应用及底层码平台具备高并发应对能力,保障疫情突发阶段扩展性,支持码上就医、码上出行等;核酸检测系统,如何保证采样及查询系统解耦,解决核心瓶颈点,平稳应对高峰过程。我们看到,行业领头企业都有自己的破解方式。
首先,在数字化建设初期,大家普遍重视服务器、存储、网络等物理硬件的稳定性,忽略了平台、应用等软件基础设施稳定性。但随着数字化推进,大家逐渐意识到要重视整体的稳定性。
为此,业界提出打造稳定数字基础设施时,应注重云原生、分布式能力构建。因为一方面,云原生基础设施具备“业务全局化可视可管、资源精细化运维运营、能力标准化共享互通”等特点,可帮助有效提高数字政府业务的多元化水平,为数字政府各参与方和相关环节注入新的价值。
从技术角度看,云原生方案借助云容器带来秒级弹性扩展;服务网格,带来微服务架构,应用可视化管理,快速定界定位;云数据库,实现读写分离的高可用架构,一键部署,高性能,极致弹性;云缓存,带来高可用架构一键部署,高性能,极致弹性;云备份容灾,实现数据库备份、两地三中心容灾。
另一方面,在分布式能力方面,业界打造的智能边缘平台、智能边缘小站等,汇集新架构、新分布式云操作系统等多项关键技术创新,实现具备“一朵分布式云、一张分布式网络、一致运行环境、一套管理体系”领先能力的分布式云基础设施。
其次,注重生态建设。正如文章前面所分析的那样,打造一码通并非一家企业就能够胜任,需要建立统一的建设、安全、应用标准,这样既保证了数字生态的繁荣,又保证了数字基础设施的健壮性和可靠性。
我们看到,业界领先企业,打造统一组件的标准化开发、交付,可以加快应用上线周期,提升运维效率,从而端到端缩短ISV(独立应用开发商)的项目交付周期、降低交付人力成本。
此外,领先企业的公共组件能力货架化,可为ISV提供通用能力组件的共享机制,降低 ISV对新技术的学习门槛和成本,同时对于某些技术专长的ISV,还可以通过货架化的能力,在政务云上形成新的商业模式,实现二次盈利,从而驱动政务云上的生态建设。
最后,需要应用的集约化建设。从目前行业面临的挑战来看,破解挑战要求政务云建设思路从“云资源集约化”向“政务应用集约化”的方式转变,全面构建以应用为中心的新型政务云。政府需要以政务系统为着眼点,带动云资源建设,统筹实施,实现精细化运营和可视化管控。

“政务应用集约化”的能力,不仅能够实现通用的业务运行底座,跨云、跨地域的统一管理的架构,实现全业务共平台运行,部门、区域间的公共化能力、模块化能力、资源共享能力,更能规范业务应用从开发、集成,到监控、运维的统一标准,进而实现业务全局可视可管、精细化资源运营、问题清晰定界。
笔者观察:构建政务云,不仅要快,还要稳
随着城市数字化转型,数字政府所覆盖业务场景将更加丰富,更加重要,关系到老百姓出行、医疗、上班、消费等方方面面。作为数字政府底座的政务云建设,需要实现“管理更高效、运营更精细、共享更通畅”。
为此,我们认为“云原生×分布式云+应用生态”的模式,将成为更多城市构建稳定数字基础设施的必然选择。政府打造一码通,需要多个企业联合发力,就要提出建设、安全、应用等层面统一标准,保证数字生态的繁荣,又保证数字基础设施的健壮性和可靠性。
而且,政府应用需要集约化建设,实现从建设到运维的标准化,让基础设施云平台为城市应用提供共性、稳定、高质量的技术支撑,避免应用堆叠式,重复低效建设。云原生的城市云平台技术演进方向,从云平台的集约化,向使能应用的集约化建设发展。
一些城市的一码通系统在抗疫表现不错。在广东疫情期间,粤核酸小程序在7天访问量超过1.21亿人次,单日最高访问5332万人次,同期上报检测结果8847万人份,单日最多上报结果2059万人份的高强度运行下,系统运行稳定、有序。
面对全国如何做好数字基础设施的难题,笔者认为,各地政府不只要快,还要稳,不只要平台稳定,还要应用开发稳定。因此,政府应该支持数字生态的快速发展,构建一个完善的长效运营机制。(海峰看科技)