您的位置:首页> 部门介绍> 计算平台介绍 您的位置:首页> 部门介绍> 计算平台介绍

最小化 最大化
        高性能计算(High-Performance Computing)已经与理论研究、实验科学相并列,成为现代科学的三大支柱之一。根据理论物理研究发展需要和理论物理所的“十二五”规划,为满足科研人员在理论物理研究中把数值计算和数值模拟作为重要研究和探索手段进行工作和学习对高性能数值计算与日俱增的需求,规划并建设了计算模拟和数值实验的高性能计算平台。
 
        在2003 年5 月建设了惠普集群(HP-SC45 Sigma-X),该集群配备16 个惠普AlphaServer ES45 计算节点,每个节点预配置4 个1.25Ghz Alpha CPU,集群共64 颗1.25GHz 的CPU 和160GB内存,浮点运算约0.16 万亿次,另配有3TB 的磁盘存储阵列。目前该集群已停止服务。
 
        在中科院修购专项资金支持下,采用曙光“星云”系列高性能计算机系统,在2012年2月和2012年12月分两期建设了由计算节点、管理节点、登录节点、并行存储、容错系统组成的“计算模拟和数值实验的高性能计算平台”集群系统。目前该系统已完成两期建设,一期选用曙光TC3600四路计算刀片,共47个计算节点(单节点配置4颗AMD Opteron 6132HE 八核2.2GHz处理器,128GB内存),CPU总核心数1504个,内存总数为6.016TB,双精度浮点峰值13.3万亿次每秒,实测LINPACK峰值为10.45Tflops,并行效率为79.0%。二期选用曙光TC3600二路计算刀片,配置90台计算节点(单节点配置2颗AMD Opteron 6276 十六核2.3GHz处理器,64GB内存),CPU核心数达到2880个,内存总数为5.76TB,总双精度浮点峰值26.5万亿次每秒,实测LINPACK峰值为18.6Tflops,并行效率为70.2%。两期计算节点共4384个CPU核心,合计11.776TB内存,双精度浮点理论峰值39.8万亿次。
 
        该集群系统配置了一台曙光A620服务器作为集群系统的登录节点,运行用户认证、作业调度、并对外提供用户登录接口。同时配置了一台曙光A620服务器作为集群系统的管理节点,运行用户管理、作业调度系统服务、系统监控管理软件,时间同步服务等,并对外提供管理员登录接口。计算网络采用高带宽、低延迟的QDR InfiniBand网络,为并行程序提供无阻塞的通信高速通道;另外,配置一套千兆网络,用于集群管理和监控,千兆网络也可作为备用计算网络,提高系统的高可用性。本集群的存储系统采用曙光ParaStor分布式并行存储架构,采用多台存储服务器作为元数据管理节点和数据IO节点实现并发IO,通过InfiniBand高速网挂载到所有计算节点和登录管理节点,实现高性能全局共享存储。底层采用高性价比的光纤接口存储,整个存储系统性能强劲,同时通过内部的数据多备份技术实现极高的容错性。存储系统可以根据需要进行动态扩展,实现存储容量和存储性能的线性增长。目前配置一台存储管理服务器MGR,两台元数据服务器Opara,两台存储数据服务器Ostor,数据服务器皆采用备份冗余,以提高数据的安全性。集群还配备一台Clusnap服务器,作为计算的容错模块,用于提供对作业的断点续算功能,保证集群运行的稳定,并有助于计算资源的合理利用和分配。
 
        该系统选用40个计算节点系统上安装了常用物理类开源软件,提供各种程序编译运行环境,并安装了Mathematica商业软件。