浪潮ClusterEngine集群管理平台是专为浪潮天梭系列HPC产品定制的一款作业管理软件,该软件采用B/S架构,通过浏览器(IE,firefox等)进行操作,可以管理集群系统中的软硬件资源和用户提交的作业,根据集群中的资源使用情况来合理的调度用户提交的作业,从而达到提高资源的利用率和作业的执行效率的作用。
浪潮作为国内领先的高性能计算集群系统开发商,除了应该为高性能计算的用户提供安全可靠高速互联的集群硬件,还应为客户提供一套完整的集群管理软件,作业管理软件是集群管理系统中非常重要的一部分,它负责管理用户提交的作业,合理地给各个作业分配资源,从而确保充分利用集群系统计算能力,并尽可能快地得到运算结果,与集群管理监控软件、部署软件形成一套完整的集群管理系统。
本系统有如下三个特点:
1. 统一的集群使用与管理平台,通过该平台可以完成对集群的使用与管理工作,无需借助其他工具。
2. 模块化设计
1) 每个模块完成相对独立的功能,方便用户操作集群,提高软件易用性。
2) 可定制以及动态添加新模块。
3) 模块分为基本模块和高级模块。
3. 权限控制
1) 可以控制每个用户可使用的模块,方便进行管理。
2) 用户可以定制自己的首页面。
本系统分为作业提交、作业管理、Checkpoint管理、应用、监控、监控面板、报警面板、管理工具、文件管理、用户管理、报表统计、配置中心和大屏幕监控十三个部分。
作业提交:提交新作业、可以提交fluent、VASP、ansys、gaussion、atom、sum、CFD等作业,也可以在后台配置自定义作业内容来进行提交。
作业管理:该模块负责管理作业,查看系统中的作业状态,并可以对作业进行执行和删除等操作。还可以查看作业的执行日志。
Checkpoint管理:可以对设置检查点的作业进行停止、释放、保存断点和恢复断点等操作,还可以查看作业的执行日志。
应用:分为VASP作业、Fluent作业、Atom作业。可以对相应的作业进行提交和管理。
监控:分为动态信息、实况信息、历史信息、节点监控。可以监控整个集群的运行状态及各个参数。
监控面板:分为作业监控、资源监控、报警监控,可以分别对作业、资源、报警进行实时监控并把监控信息显示出来。
报警面板:分为报警设置、报警列表、报警阀值,对报警信息进行设置、查询。
管理工具:分为集群Shell和远程桌面。集群Shell可以对Shell视图进行集群管理。远程桌面可以对远程桌面进行集群管理。
文件管理:管理节点的文件,可以对文件进行上传、新建、打开、复制、粘贴、重命名、打包、删除和下载等操作。
用户管理:管理系统的用户组以及用户,可以对用户组以及用户进行查看,添加,删除和编辑等操作。
报表统计:该模块负责记录系统中用户组或用户资源的使用量,并对用户组或用户进行计费。
配置中心:配置集群,可以自定义显示页面及显示顺序,还可设置自动播放。
大屏幕监控:实时监控模块,对集群运行状态进行实时监控,可以投放到电脑屏幕或墙体大屏幕。