高性能计算整体解决方案

       高性能计算作为一种先进的科研手段,在国内的应用发展很快,得到了普遍的重视,近年来国家投入逐年加大。由于各学科高性能计算应用软件种类繁多,各种软件的应用特点也各不相同,对计算资源的需求存在差别,传晟科技携手国内HPC行业领先的厂家中科曙光可针对各行业应用场景定制端到端、全领域、全生命周期的高性能计算解决方案,具备对高性能计算整体方案规划、设计、交付的能力。

方案特点:

计算资源多样化

       由于高性能计算中心应用种类多,需求复杂,需要满足各种应用需求。对于常规的计算密集型应用,往往适合大规模的多节点并行,使用常规的刀片集群来满足。对于无法进行多节点跨节点并行的多线程应用,对内存、IO需求的较为强烈,或者有特殊外插卡需求的应用,SMP胖节点可以提供单节点更强的性能,更高的内存和IO扩展性需求,和广泛的外插卡扩展性,一般配置SMP 胖节点来满足应用需求。同时,对于适合GPU的应用程序,GPU可以提供更高的性能和更佳的能效比。所以也会配置一定数量的高密度GPGPU节点来满足GPU的特殊需求。

高速计算网络

       虽然并非所有的应用软件在计算过程中对网络有较大的需求,但是依然有数量巨大的应用软件,在实现大规模并行计算时,高带宽和低延时的Infiniband网络会带来应用性能和扩展性的大幅提升,尤其随着CPU多核化的快速发展,单节点的计算性能越来越强,带来节点间通讯的压力越来越大,Infiniband网络几乎成为许多高性能计算应用的标配。同时,高性能集群对共享文件系统的需求也要求数据通过网络来对集中存储进行访问,高带宽的Infiniband网络也会带来数据访问性能的快速增长。

文件系统并行化和分级化

       高性能计算中心应用计算能力强、应用数量多,除了一部分高IO应用会给共享文件系统带来较大压力,同时,海量任务的并发读写也会带给文件系统的较大负载。同时,海量的数据和高性能集群统一文件映像的需求,也要求高性能计算中心有一个海量的单一文件分区。目前比较常用的解决方案为并行文件系统,并行文件系统通过软件的方式能够实现多个存储空间的单一分区和并发读写,突破硬件资源设计的瓶颈,带来灵活的扩展性和性能的大幅提升。

      同时,面对数量巨大的用户,不同用户所享有的权限也需要分出几个层次,用户享有的数据安全性程度也有不同。同时,不同应用的文件访问类型也有明显不同,有的是大文件为主,有的是小文件,但是数量巨大。

管理调度系统精细化

       由于高性能计算中心用户数量多,权限有一定差异,离散度高,带来管理的难度加大。同时,由于计算中心的运维方主要给用户提供服务,所以对用户的使用权限、记帐、管理等方面要求比较高。所以高性能计算中心对管理软件和调度软件的要求较高,一般除了普通的调度功能外,还要可以实现灵活的策略分配和权限分配,作业记帐、用户抢占,限制用户登入、报警、系统快速恢复等等功能。同时,还要制定一定的规章制度,来规范用户对资源的申请、使用和分配。

应用软件云端化

       高性能计算中心逐渐由向用户提供软硬件计算资源向提供服务转型。传统的HPC应用软件有一定的使用难度,尤其Linux操作系统和作业提交脚本,对于大部分习惯windows的用户来说,成为摆在面前的一个技术壁垒。

       同时,常规的用户通过ssh 远程登录的使用模式,使得用户有很多权限可以顺利登陆到高性能集群上进行各种操作,也带来了巨大的安全隐患。

定制化的、针对应用软件的web Portal可以很好的解决这些问题。Web Portal可以大大降低应用软件使用难度,保证系统安全性,更好的为用户提供高性能计算服务。

运维在线化

       在线运维平台可实现客户HPC资产全生命周期管理服务,并提供覆盖资产全生命周期的全程专家支持的自动化运维平台;实现基于“互联网+”模式下的HPC生态圈,为用户提供一站式高性能计算SAAS平台。

       在线运维平台可以在数分钟内完成对HPC数千节点的监控部署,并提供多种可选的自定义告警机制,同时用户可通过Web浏览器和手机端随时查看集群运行状态,在集群出现异常时会根据客户设置的报警策略第一时间推送相关告警信息,客户可通过在线运维平台迅速定位故障并启用自动化处理机制,另外运维平台还提供周期巡检和现场维护等支持服务,这将改变传统运维现状,并极大提高工作效率。