AI导向的基础设施 | 生命科学背后的“算力底座”
高性能计算在生命科学研究中发挥着越来越重要的作用。
从辅助药物设计、疫苗研发,到生物信息学中的基因数据处理与分析,再到肿瘤治疗、产前筛查和肺病筛查等医疗技术,无不需要大量的计算。
近期,在中国信通院先进计算产业发展联盟牵头下,联想集团编撰了《生命科学算力解决方案白皮书》,汇聚联想在生命科学IT基础设施领域长达30余年的技术创新与实践智慧,全面剖析了高性能计算、科学计算、智算等算力场景在生命科学领域的应用现状及实践成果。
由联想建设交付的巴塞罗那科学计算中心
应用于药物和疫苗开发等领域
《白皮书》指出,生命科学领域的计算需求有其独特性。一方面,生命科学领域的数据量大、增长速度快、数据质量低、数据多模态的特征,对算力提出了更高要求;另一方面,生命科学行业分散,不同细分领域及不同场景有不同算法需求。
以生物信息学中的DNA测序为例,广泛应用于基因组学研究的第二代DNA测序技术要求的算力主要为整数计算,基本无浮点计算,CPU算力可满足。同时,软件测试过程中需要频繁的内存读写,DNA测序需要较大的内存容量和带宽,并要求直连架构CPU。
而在分子动力学研究中,需要的算力则主要以浮点计算为主,由以GPU为主的智能算力来支撑。该应用对网络的依赖要求较高,节点间需要使用低延时、高带宽的Infiniband高速网络。
简言之,生命科学领域的算力与算法需要满足多样化需求,并需要适配“潮汐”算力特征。IT基础设施需要支持AI、大数据等计算,并具备高存储、高I/O特性等。
在生命科学IT基础设施建设方面,联想积累了深厚的技术实力和丰富的落地经验。以联想人工智能解决方案框架为例,该框架从AI基础设施、AI算力调度、AI算力使用、AI行业应用等方面,都为生命科学研究做好了准备。在此基础上,联想还根据生命科学领域的应用特点,结合高性能计算平台和人工智能计算平台,推出了联想生命科学算力平台。
联想生命科学算力平台
该平台架构包含硬件底层的硬件环境、中间的平台环境、算力平台管理系统和编译环境。底层硬件环境包括节点系统、网络系统和存储系统。平台环境则包括集群综合管理服务平台,以及作业调度系统和并行文件系统。编译环境实现了对各种库的调用。联想自研的LiCO人工智能平台,可大幅降低使用门槛,实现算力平台的统一管理,为用户使用AI算法带来便利。
目前,联想交付的高性能计算集群,已经成为研究机构、高等院校以及众多企业在业务创新方面的得力助手。此外,针对医疗机构快速分析、共享海量元数据的需求,联想构建了定制化的高性能IT基础架构,以提高医疗系统的性能、可靠性与灵活性,确保工作人员高效获取所需的科学计算资源,助力生命科学研究与临床实践迈向新高度。
北京大学“未名生科一号”
“未名生科一号”即是联想赋能高校生命科学研究应用的标杆案例。其由150个节点组成,共计4688个CPU核心、28块GPU卡,总体计算能力理论峰值为587.8TFLOPS,存储容量为10.2PB。该系统优先用于北京大学冷冻电镜平台的科研工作,同时也为其他学科领域提供不低于30%的公共机时。
“未名生科一号”投入运行后,系统平均使用率达94.7%,为广大师生营造了更加优质的高性能计算环境,有效缓解了排队情况。使用者表示,其既提升了平台对重大科研的支撑能力,又有效改善了生命科学的研究手段,对生物物理、定量生物学、结构分子生物学和分子医学等前沿交叉学科的发展起到重要的推动作用。
当前,AI正呈现爆发式发展,新技术应用层出不穷,将极大加速生命科学的研究进程,推动行业对生命科学的理解和研究进入一个新阶段。站在新一轮科技革命的起点,联想将持续投入创新,助力生命科学领域的研究和创新。