天津固体蓄热设备厂家试论供热精细化管理
郝战 王天鹏 张彬彬
[摘 要]根据近年来本地区存储设备的运维管理经验,总结了一套存储运维精细化管理的经验,提高了信息系统检修质量和健康水平。同时总结管理思路,与时俱进,完善信息基础安全运维体系,加强运维管理,保证系统安全及可靠运行,为电力网信息安全交互提供了有力保障。
[关键词]存储,运行,供电可靠性,故障,异常
中图分类号:TF089;TF341.6 文献标识码:A 文章编号:1009-914X(2017)25-0089-01
0 引言
随着信息化进程的不断发展,信息已成为企业竞争的核心。保证企业业务的连续性,成为企业获取竞争优势的关键因素之一。存储系统是企業数据的核心,EMC存储系统巡检,能够最大限度地减少由于系统维护不当所带来的危害,并对将来日常维护系统提出建议,避免产生新的系统问题。通过运维的精细化管理在现场对系统进行检查,及早发现潜在问题,提交检查报告,提高用户业务的可用性。
1 目标
按照省公司要求,为确保全省业务应用系统的稳定运行以及业务存储数据的安全可靠,强化存储设备日常巡检工作,提升公司信息系统的安全运行管理水平,各单位每日向省信通调度邮箱报送当日存储设备巡检报告。如何提高日常检测的效率和精度,如何规范设备的巡检,了解设备运行状况是我们面临的课题
2 存储运维精细化管理
本公司EMC存储设备投运到目前为止,共发生电源故障、硬盘故障等等十几次不等,随着公司推进运维检修精细化管理工作,加强对信息设备状态的监视,准确掌握信息设备的状态,当系统发生故障时,依靠专业的管理经验,可以在最短的时间内查明故障原因,迅速将系统恢复到正常工作状态,是保证设备及软件安全、稳定、高效运行的关键。同时完善存储设备的运维管理制度,是对存储系统稳定运行的有效保障。
2.1 存储运维管理现状
本供电公司EMC存储设备在2007年投运,巡检工作一直以来都是EMC维保人员定期巡检,但巡检周期长,存储运维效率不高,在出现告警后远程监控人员检查到之后,通知到当地管理员,再由管理员到现场确定并联系厂家,管理改进后由机房巡检人员现场巡视,但机房巡检人员水平参差不齐,巡检效果不佳。年初的信息设备及动力环境安全专项检查活动中,特别检查了报警灯状态,发现EMC存储的电源报警灯亮黄灯的重大设备电源故障报警,立即安排人员进行了有效的处理,避免了重大事故的发生,通过检查提前发现了故障隐患。定制巡检方案,强化存储设备日常巡检工作,做到精细化管理经过不断的总结经验,我们形成了一套EMC存储设备巡检经验。
2.2 存储运维管理提升
除了采用技术手段外,我们还建立了有效的安全管理机制,“三分技术,七分管理”是信息安全领域的管理的精髓,在实际的工作中如何“管理”到位,更需要在实践中总结经验,不断的更新,两者有机的结合起来,通过管理提升我们发现,存储的设备故障主动发现率由38%上升到93%,说明通过运维管理的提升设备故障的主动发现率有了显著的提升,确保了处理故障和更换备件的宝贵时间。
制定巡检内容,按内容绘制表格,按照巡检检查表格及详细图片说明,填写检查结果,目标明确,定位准确,检查结果一目了然,做到了精细化管理,通过管理提升做到了按图定位设备,按图定位状态灯,按表格查看正常状态参数,按表格填写设备状态,关注细节、精益求精,通过我们的务实工作,将设备巡检精细化管理落到实处。
3 完善信息设备运维管理机制
为了积极推进信息系统运行方式的规范化工作,进一步加强运行监测,增强信息系统安全运行风险的可控、能控、在控能力。我们结合主网的调度、运行、检修部门的设备管理思路,以完善整个运维制度体系为目的,提出网络与信息系统的运维体系包括:运行方式、运行规程、作业指导书、应急预案、典型故障及处理五个部分组成,相互制约,互为补充。形成了运维制度的一个有机体系,并且逐步地更新完善。完善安全运维体系,需要制度化、规范化,并且真正纳入安全生产管理体系当中。
下面对信息运维制度体系的五个方面作一简单介绍,运行方式是对机房基础设施、网络与信息系统运行情况进行全面总结分析,包括主要设备统计表、网络与信息系统拓扑结构图等主要基础性资料,要覆盖所属各级单位,重点突出对年度计划检修、运行故障、存在缺陷和隐患的汇总统计,分析产生的原因和存在的主要矛盾,并提出解决措施,明确本年度例行检修计划、应急演练计划和新(改、扩)建计划。
运行规程是对具体设备状态的运行监控,包括设备重要配置参数,巡检内容及要求,故障处理。是运维工作行为指南,具有一定的指导性和约束性意义。
作业指导书使信息运维各项工作标准化、规范化、流程化,简化作业中不必要的环节,提高工作效率和工作准确性,根据信息网络运行规程的规定,并密切结合工作实际编写的标准化作业指导书。
应急预案是在总结近年来处置应对各类突发事件的经验的基础上,全面分析可能引发突发事件的各类危险源,结合实际,制定切实可行的应对措施和科学规范的处置流程。
在完备的文档资料的支撑和完善的运维制度的机体系的运作下,实现信息系统安全运行风险的可控、能控、在控。
4 存储设备硬件的管理和维护
一般情况下,正常运行的存储设备,其电路和接插件等部件是不能随便触动的(除了支持热插拔的板件),维护人员对存储设备硬件的日常管理和维护主要是除尘保养和技术维护。
技术维护就是维护人员对存储设备的硬件部分进行日常观察和定期检测。发现问题及时排除。其主要工作内容包括定期检测设备运行状况、处理器负荷等,根据告警信息的提示,及时对可疑部件进行检测和维修,并根据工作需要调整电路板的位置,更换有故障的部件,对于存储设备硬件部分的技术维护,应严格按照操作规范要求进行。
5 当前存储机房存在的问题
由于工程设计、建设投资、人力资源等多方面的关系,目前部分设备机房存在一些问题。
(1)机房环境不符合或者达不到存储机房要求,这里面可能存在建设初期的选址不合时宜,机房周边环境变化后存储机房没有积极调整等因素,对存储机房安全造成了一些隐患。
(2)对相关配套设施不够重视,配套设施大部分是在存储机房建设初期根据设计完成。对于这部分设施,重视程度不够很容易出现配套设施不能跟上存储建设扩容或超负荷运行的现象。
(3)维护人员技能不足,培训力度不够,实际操作不够熟练。相当一部分设备应急方案执行力不足。
(4)考虑到投资成本,机房面积在建设完成后是很难再改变的,这就要求在设计时让有限的机房空间发挥最大的经济效益。
6 结束语
信息设备的管理体系及运营构架的逐渐成熟,及其运维方式方法及规章制度的逐步完善,适应了智能电网建设以及产业融合和综合业务发展的要求,管理思路与方式的转变,才能做到与时俱进,保证系统可靠运行,为电力网信息安全交互提供有力保障。
随着电网规模的不断扩大,现有的电力数据存储业务量越来越大,存储设备种类复杂,重要性日益凸显。只有一如既往地做好维护管理工作,才能以满足电力生产安全、经济、稳定运行,提高信息安全与信息管理水平的实际需要。
作者简介
郝战(1980.09-),男,汉族,江苏本人,工程硕士,工程师,主要从事信息安全管理工作。
王天鹏(1979.05-),男,汉族,江苏本人,高级技师,从事计算机管理工作。
张彬彬(1973.11-),女,汉族,内蒙古人,本科,工学学士,高级工程师,从事计算机应用工作。