当前位置:首页->气象新闻->工作动态

信息中心快速解决高性能计算集群登陆故障

来源:    发布时间:2020-05-20 11:24    选择字号:T|T

 

高性能计算集群系统作为承载天气预报业务和相关科学研究模式运算的重要平台,为中心台、干旱所等单位提供了高效的计算资源。由于系统运行已近七年,目前处于脱保状态,系统维护难度较大。

518日,高性能计算机登陆节点突然无法远程登陆,业务模式无法提交。信息中心立即启动应急预案,组织技术人员紧急进行故障排查。为了不影响用户作业提交,在修复登陆节点的同时,修改配置将一个计算节点作为临时登陆节点和作业管理节点,使用户在业务模式运行时效内能够在临时登陆节点上提交作业,保障了业务模式正常运行。经技术人员加班加点排查处理,在六小时内修复了高性能计算机登陆节点,用户可以正常登陆并提交作业。

通过此次故障处理,验证了高性能计算机系统应急预案的可行性,锻炼了技术人员的应急处理能力,积累了保障经验,为业务模式的稳定运行打下坚实基础。

                                                                                             (信息中心 张明)

分享:
扫一扫分享至朋友圈