记者 李好宇
一个物种基因组序列图的完成,代表着这一物种科研和产业革命性的新开端。
——中国工程院向仲怀院士
从《功夫熊猫》到福娃晶晶,熊猫已成为最具代表性的中华象征之一。不久前,中国科学家公布了熊猫基因组序列图,从基因学角度回答了诸多难题。但很多人都不知道,在这样一个备受关注的基因项目中,IT技术起到了至关重要的作用。
记者看到方林时,他身着休闲外衣,略显拘束,双手在膝盖上不停地摩挲。难以想象,这个带着老式眼镜、体态略微发福的年轻人,正是这个庞大项目背后运筹帷幄的军师。他负责的系统部,在此前的3个月中,发挥了至关重要的作用。现在,请随方林一起走近大熊猫基因组项目,倾听科研背后的故事。
2002年的夏天,年轻气盛的方林迈出浙江大学的校门。此时的他,并没有想到今后会与基因结缘,更没有料到与生命科学之门如此贴近。一个偶然的机会,方林进入了华大基因研究院系统部,并逐步晋升为系统部负责人。2007年12月,熊猫基因组项目进入论证阶段。“此前从未经手这么大的项目。我知道,系统部的考验来了,华大的考验来了。”回首过去,方林感慨不已。
每天6TB的重压
“首先要做的是取样。基因研究需要健康、成年的熊猫血液样本。今年3月末,我们同四川卧龙大熊猫研究中心取得了联系”。血液样本的母体,正是北京奥运会吉祥物的原型熊猫晶晶。
他们从样本血液白细胞中提取了DNA,为了保持基因的活性,将其保存在-196°C的液氮中。这些DNA被送往华大本部及东南大学等合作单位的实验室,进行第二阶段的工作——测序。
“16台测序仪日夜赶工,为了加快进度、提高测序的精准度,我们还请了专业的测序公司协助,这一阶段大概进行了两个月”。方林回忆道,当时每天产生的原始数据多达6TB(1TB相当于1000GB)。但海量的数据处理并没有让他们手忙脚乱,“加班赶工已经成为家常便饭,虽然很辛苦,不过也很充实!”。方林还开玩笑似地说,想想十年前科学家处理人类基因组项目的情形,一切困难都会迎刃而解。“举个例子,那时侯还处于奔三时代,6TB是什么概念?他们都能克服的困难今天我们逾越不了?”方林坚定的眼神透露着这样的一个信息:正是这种坚韧执着的精神引领着他们到达终点。
“过去耗时几年的测序环节,这个项目不到2个月便顺利完成”,东南大学陆祖宏教授赞誉有加:由于采用新型高通量测序仪和试剂,大大节省了测序时间。据华大一份资料显示,新老测序仪的测序能力比为3000:1,成本对比为1:100。新型测序仪在各方面占有绝对优势,“国内基因学领域正处于混合测序方式向新型测序方式过渡的阶段,这个项目起到了很好的示范作用”。
玩转30亿块碎片的拼图
测序阶段分析出的数据交给数据处理小组,基因学部分告一段落。接下来就是数据转化,测序仪得出的数据并不能被电脑直接识别并加以分析,所以还需要一个数字转化的过程。除了将测序仪上的数据转化为转化计算机可识别的序列外,还要生成一些图片文件。这些零碎的基因信息正是构建整个“大厦”的必备因素,丝毫疏忽不得。
计算机应用阶段最后一道工序就是拼接,也就是将零碎的数据整合成一张完整的图谱。“这就好像小的时候玩拼图一样,只不过更复杂一些”,方林轻描淡写地说。
不过想要玩转一个30亿块碎片的庞大拼图,将30亿个碱基对有序排列,困难程度不言而喻。“拼接过程大约进行了一个月时间,只用了这么短时间连我们自己都没有想到”,方林坦言,华大的超级计算机群为拼接过程提供了必要的硬件支持,“我们目前的峰值计算能力为12Tflops,内存为2TB,是华南地区科研领域最大的超级计算机群”。
计算机生成最终图谱后,科学家们根据基因学的一些原理与特征,确定熊猫的种属,并为熊猫等濒危动物的保护提供了依据。绘制基因组图只是“国际大熊猫基因组计划”的第一步,年内深圳华大基因研究院将完成大熊猫基因组的精细图,与南开大学联合开展的大熊猫蛋白质组图功能与结构的研究计划也将随之展开。
IT技术帮忙干掉拦路虎
“这个项目我们遇到了很多难题,除了基因学方面,更多的是计算机方面的新课题”方林表示,虽然计算能力已经有了大幅飞跃,但目前仍是科研项目的瓶颈。
海量的数据分析和输入输出,导致计算机经常在峰值运算时满载死机,造成数据丢失的现象。经历过血的教训之后,数据组内部定下了一条不成文的规矩:每隔几小时便要对生成的数据及时备份。
“我们一般会采取多IO节点的方法来分散IO的负载,同时我们还会引进一些高效的IO系统,比如并行文件系统、SSD存储系统。”为了提高运算能力,系统部在硬件上花了不少功夫,而且找到了一些捷径,比如多IO节点的方式。通俗解释就是将1个数据包分割成8个子数据集,同时由8台计算机来完成运算。如此一来,相比1台计算机的单独运算,将大大节约时间,也减轻了计算机负荷。
“除了机器上的规划,工作人员的调配也非常关键”。为了应对突然出现的大量数据分析,系统部将工作细化,在不同的工作时段安排不同的运算任务。“就是防止不同部门繁重运算任务的碰车,也是为了计算机性能在24小时内的高效利用”。
任务规划则改为配额制。“做一项工作前,先要做任务评估。估算这个任务需要多少内存、多大运算量,然后由系统部指定资源,限量使用”。这样做,不仅可以将整体运算数值掌握在一个可控范围内,也可以将因为运算能力饱和造成的大规模故障现象降到最低。“通过合理限制和用户对自己程序计算资源使用量的评估,可以提高计算资源使用率20%以上”。
面对面:IT技术正在融入生物研究
受访嘉宾:深圳华大基因研究院系统部负责人 方林
对话人:本报记者 李好宇
电脑报:信息化技术及专业软件的应用对这个项目起到多大的影响?
方林:生物信息学研究的特点是不仅需要生物技术,还需要计算机技术,同时要需要大量其他专业的研究人员协同工作,比如数学、物理、微电子等。总的来说,生物技术和计算机技术对基因图谱绘制的影响大致各占50%。
生物实验平台上产出的数据,如果不进行及时分析,我们就没法评估这些数据是否可信,生物学意义到底如何等。所以生物技术是该领域研究的上游,信息化技术是该领域研究的下游。生物信息研究从来就是同时伴随着这两个领域技术发展而发展的。
电脑报:在病毒、木马日益猖獗的今天,数据保护成为一个新课题。科研领域如何确保信息安全?
方林:我们很少使用较容易感染病毒的Windows系统,所有计算机用的都是Linux,病毒和木马相对较少。同时我们还采取了一些其他措施,比如用SUN的一种廋客户端系统:SunRay,可以大大降低系统复杂性,系统本地没有存储介质,系统从远程服务器启动,我们的研究人员没法将数据拷贝到本地,也在一定程度上保证了数据安全性。
电脑报:信息化技术及专业软件的应用将如何推进未来的科学研究?
方林:计算能力,我指的是硬件和软件方面,对一个国家科学技术发展的推动作用是巨大的。信息化技术和专业软件,不但对提高科学研究水平,对工业制造、国防、医疗卫生、金融、气象等都是一个重要的技术问题。就以气象研究为例,好的硬件和软件技术,对提高气象模拟精度,提高气象预报准确性起了重要作用。以生物信息分析为例,合理的硬件和软件搭配,能够大大提高科学研究的效率。