发布时间:2021-01-21
2021年1月18日晚上8点22分,北方广电网络公司运行保障中心IT支撑组负责人杨健离开核心机房后,终于松了一口气。当天,他在不依赖厂家技术人员指导的情况下,独立排除硬件故障并成功修复了损坏系统,为公司节省15000余元的修复费用。说起这次系统故障,时间还要倒退到11个小时之前。
1月18日上午9点,北方广电网络公司运营支撑监控系统突然报警,供应商管理系统出现故障。作为公司官方网站一级页面的重要组成内容,供应商系统停止工作会导致公司网站部分功能缺失,影响公司采购项目信息的公告公示,使供应商无法按时上传审核材料。如果不及时修复故障,会对公司品牌形象造成严重的负面影响。
“从系统的损坏程度判断,已经不具备远程服务的条件。”杨健说,受新冠疫情及换修硬件采购时间等因素影响,厂家提供有偿上门维修服务至少要一天以后才能进行。此时,面对紧迫的抢修任务,他决定先自行开展维修工作。
杨健根据多年的运维工作经验判断,故障初步原因是硬件RAID板卡损坏。如果直接更换RAID板卡,需要联系厂家进行购买,采购周期时间长,服务器内的数据也会有丢失的风险。为了尽快完成维修,确保数据安全,首选方案是修复RAID板卡。杨健先从其它备件中拆卸并更换了RAID板卡中损坏的原件,将修复好的RAID板卡安装在其它测试服务器上运行,成功恢复了5块硬盘的正常阵列信息。通过系统安装光盘引导计算机,访问到硬盘阵列中的原始数据。他深知数据的重要性,不能莽撞行事。为避免给公司造成更大的损失,他用最原始的外部存储方式备份数据。受单线程命令及外部存储接口速率的限制,全部文件的分析及备份工作历时6个多小时。
数据安全了,悬着的心终于落地。但在随后的检查中杨健再次发现新问题:服务器操作系统文件损坏非常严重,已无法正常运行。“操作系统核心数据损坏,最有效的方式就是重新安装系统,但这需要厂商的配合才能完成。”而此时并不具备这样的条件,杨健只能在现场独立修复受损的系统。系统文件相互调用,结构复杂,杨健只能在摸索中一点点进行。
历时11个小时,当日晚上8点,杨健终于排除硬件故障并成功修复了损坏系统,供应商管理系统重新恢复运行。
打破厂商技术限制,自主完成设备优化
杨健2008年入职于北方广电网络公司,先后就职于运营支撑部、运行保障中心,长期从事硬件架构设计、软件开发部署、设备运行维护等工作。他责任心强,不惧困难,乐于专研。不满足只做好本职工作的杨健,通过坚持不懈的努力学习和在技术一线的工作实践,使他对运维工作有了更全面和深入的认识。
杨健工作照
对于运维工作来说,“稳”是工作的核心,而“变”意味着要打破常规,突破规则,“稳”和“变”看似是对立矛盾。但在杨健看来,“稳”和“变”并不矛盾。随着公司5G业务的逐步开展,对运维人员技术能力、管理水平等多方面都提出了更高的要求,如果运维工作按部就班,不以发展趋势而创新,在技术上止步不前,习惯依赖于外部的技术支持,那么我们只能为此付出高额的“学费”。“公司作为创新技术型企业,更需要稳中应变,变中求进,牢牢掌握工作的主动权。”杨健说。
几年前,全省BOSS系统整合后遇到了性能瓶颈。如果按照厂商提供的技术改造方案,公司将付出高额的服务费用。为了打破厂商技术和价格的垄断,经公司领导商议后决定自主进行升级改造。当时国内可供参考的技术资料非常有限,仅有两三篇技术资料和厂商提供的宣传技术概念。杨健根据丰富的知识储备和多年从事运维系统维护的经验,悉心研究架构,最终达到了既定优化目的,成功实施了BOSS系统的优化和割接。每年为公司节省系统服务费50余万元,系统运行至今未购买维保服务,间接节省运维成本200余万元。
北方广电网络公司多功能展厅是公司举办大型活动、对外展示公司前沿业务和产品的重要场所。杨健深知保障多功能展厅各项设备平稳运行,即是工作任务,也是政治责任。
杨健接手展厅设备维护工作时,距展厅建成已有4年的时间,部分设备早以过了维保期,故障率较高。在一次高规格接待任务前夕,展厅OTN网沙盘展示区播放控制端主机发生故障,送修后被告知无法修复。杨健通过逆向分析控制端程序了解其运行机制,将其移植到一台笔记本电脑上,实现了控制功能。
还有一次,他在调试投影设备时发现5台投影设备中有1台投影发生故障,导致投影画面不完整。这种高端投影设备单价高达20万元,沈阳当地没有授权维修机构,只能送修北京。为确保第二天的接待工作顺利进行,杨健连夜加班,查找问题,最终修复了设备,圆满的完成了当次接待任务。
以上只是他平凡工作中的缩影。杨健就是这样一位秉承工匠精神、严谨认真、精益求精、有责任心、有专业技能、肯钻研的运保人。作为一名共产党员,他时刻不忘发挥先锋模范作用、任劳任怨,突破传统思维在其工作中做出了卓越的贡献。
(运行保障中心)