身处一线十年运维专家的思路、方法与实践

身处一线十年运维专家的思路、方法与实践

■ 文 | 邵悦

中国海事部门某单位(以下简称“HS客户”)是为提高海事航海保障服务水平和沿海国海事履约能力,实现海图编、制、印和发行管理等一体化而授权的航海图书编绘制作及发行管理单位,业务范围涵盖了海图制作、印刷和发行三大块。

随着制图工作量和存储数据量的大幅增加,“HS客户”即有的软硬件工作环境已经不能满足当前大规模的生产需要。同时“HS客户”也面临着缺乏相对规范化的信息系统运维服务管理、实施流程,服务对象层次不清等问题,难以适应国家等级保护三级的相关标准要求。

因此,为了更好的建立一套完整的、体系化的安全运维保障体系,从管理、技术、运维三个维度全面提高客户系统信息安全防护能力,“HS客户”于2017年启动了“信息安全及信息设备、系统维护”项目。

一、项目总体目标与建设思路

本次项目以ITIL运维管理体系为核心,以等级保护基本要求为指导,建立符合用户的统一、规范、标准化的安全运维流程,并将人员、运维流程、技术以及管理、监控和考核有机地结合起来,形成以客户日常运行管理的对外统一服务窗口和内部技术支撑管理平台,提升整个信息系统的运维管理水平,提高对信息系统的运维能力。

“HS客户”IT运维服务体系建设的总体目标是:树立面向业务服务的IT运维服务理念,由粗放管理向精细管理转变;实行集中统一的IT运维服务模式,由分散管理向集中管理转变;建立统一高效灵敏的IT运维服务平台,由无序服务向有序服务转变;建立规范标准的IT运维服务流程,由职能管理向流程管理转变;应用先进、实用、高效的IT运维管理工具,由被动管理向主动管理转变。



以ITIL服务实践为指导,以信息安全等级保护制度为基础开展IT运维服务。整体服务通过服务报告和服务衡量指标来监督是否达到预期要求,再通过服务结果的不断反馈,将为各活动角色完善服务内容并持续改进服务提供依据。

二、客户当前现状与项目服务内容

客户现有三套网络,这三套网络包含众多终端设备,且种类多、故障频繁,并且客户主要业务在于海图生产,因此对各类生产系统的运行保障要求极高。然而,客户现有生产系统近十余种,存在开发单位与使用部门均不统一、系统种类繁多等问题,导致现有信息系统安全应急响应机制已无法满足业务的长期发展需求,一旦系统发生应急事件时,应急难、处置难。

在运维服务过程中,我们根据差距分析结果和现存风险隐患分析,有针对性的为客户建立了一整套落地可执行的信息安全运维保障体系,从管理、技术、运维三个维度全面提升客户系统信息安全的防护能力。



针对本项目,我们严格遵循ITIL、ISO20000和ISO27001国际标准,形成本项目IT运维服务总体管理框架的基础和目标。同时结合成熟的运维服务体系,在服务质量控制中始终贯穿服务管理的PDCA模型,为客户信息系统运维提供良好的支持,提高信息系统的运维水平。确定和规范IT运维服务体系运行的管理方式,和与之相配套的人员岗位职责安排、机构设置等,将IT运维服务相关的全部活动进行统一决策与规划,形成集中统一的IT运维服务机制,实现对客户端到端的服务。并在集中统一的IT运维服务模式下,按照服务任务进行科学配置或调整,以保障合理配置IT运维服务资源,达到人、工具、流程的有机融合。

通过建立IT运维服务支撑体系,实现对网络、服务器、数据库、中间件、应用与业务系统、安全设备的全面监控,包含性能监控、运行状态监控、故障报警信息管理的集中式管理和统一展现,及时发现并解决系统运行中存在的各类问题,并对已定级信息系统中的网络设备、主机设备、中间件及应用的日常化风险评估、合规性巡检,实现信息系统等级保护常态化,并实现对人员、安全事件以及系统资产的动态处理,提升信息系统整体安全运行防护能力,有效保障客户已定级信息系统的可控性、可靠性和合规性。

同时,在本项目中,我们建立了一套适合客户的应急响应处理流程,实现客户应急响应工作的规范化、制度化和责任化。并提供7*24小时应急响应服务,采用现场服务、电话支持、邮件支持、远程拨入等技术响应方式,以最快的速度予以解决问题。保障客户各系统的业务连续性与稳定性。

三、一体化IT运维服务工作内容

3.1 物理安全方面

运维人员每天对机房供配电、空调、温湿度控制等设施进行检查记录,并形成每日巡视制度,以及对机房中相关设备的告警显示、空调、UPS等实际状态进行记录,为机房良好的运转做出保障。

3.2 网络维护方面

运维人员根据用户信息安全管理制度对网络、安全设备的运行状态进行实时监控,检查各种设备的日志,记录重点事件,及时发现问题,防患于未然。日常的运维保证了用户三套网络的稳定性和可用性,也良好的保障了业务的稳定性和连续性。

3.3 主机维护方面

用户主机设备包括服务器设备和终端PC设备等,运维人员通过定期对主机设备系统进行软件或硬件的升级,完善了现有主机设备系统,消除了现有系统中存在的漏洞。同时,运维人员定期对服务器、终端等主机设备进行日常巡检、运行状态监控、故障处理、操作系统维护和补丁升级等维护工作,保障了主机设备的高效、稳定运行。

3.4 应用系统方面

用户现有30多个应用系统,其中有四个系统是关键业务系统,保障这些承载着用户重要业务应用系统的安全运行是整个运维工作的重中之重。运维人员以日常巡检为基础,结合故障诊断、安全监控、系统优化等维护手段,从多方面保障了这些应用系统的安全、稳定、连续运行。

3.5 数据维护方面

数据安全是保障用户生产和办公业务的核心,是用户最重要的信息资产,也是中心生产业务得以高效完成的基础素材。运维人员根据用户对数据的保护要求,制定了一套较为合理的数据备份计划,同时通过对数据备份结果进行定期检查,对数据库进行合理优化,有效地保障了中心数据的可靠性和安全性。

3.6 运维管理方面

用户根据等级保护三级要求已建立了一套信息安全管理制度。运维人员结合用户信息化现状,对管理制度进行了完善与修订,初步形成了适应用户信息系统的安全运维体系,有效地提升了用户运维工作的管理水平,为日后运维工作的进一步发展提供了有力支撑。

运维工作统计表:











四、项目给客户带来的价值

结合客户信息化现状与特点,制定具有针对性的服务内容及服务方式,以提供完善的运维服务解决方案为基础,协助客户保障各业务系统、网络系统的稳定运转,有效解决了日常运维工作中面临的沟通不畅、效率低下、服务质量无保障以及被动救火等问题,一改过去各自为政、分散运维的状况,形成了客户日常运行管理的对外统一服务窗口和内部技术支撑管理平台,有效地提升了整个信息系统的运维管理水平。增强了为业务应用服务的意识,更好地实现了建设服务型组织的目标。同时也实现了客户运维服务的体系化和流程化,为其后续运维工作的进一步完善打下了良好基础。


如果觉得内容不错,欢迎关注微信公共号(ID:WeYanXY)获得后续更新;如需阅读以前文章,请在公共号后台查看历史消息。

编辑于 2019-04-12 21:21