美文网首页
723观白皮书

723观白皮书

作者: Vychod | 来源:发表于2019-07-24 11:39 被阅读0次

《数据中心运维管理技术白皮书》

第一章:数据中心运维白皮书简介

本章介绍了数据中心发展现状及远景,说明运维白皮书产生的背景、紧迫性、必要性。

第二章:数据中心ITIL运维框架

本章介绍的重要ITIL流程包括:事件管理,问题管理,变更管理,服务请求管理,资产和配置管理,安全管理,服务级别管理,服务持续性管理,容量管理,发布管理,财务管理和可用性管理

ITIL:IT基础架构标准库

国际IT服务管理领域的实施标准
强调基于“以客户为中心,以流程为导向”的IT管理观念,将传统的IT管理活动按照流程的方式重新加以组织,并强调根据客户的业务需求提供质量可靠、成本合理的IT服务。

PPT原则

即受过良好培训的人员(People),通过执行明确定义的、以技术(Techonology)驱动的流程(Process),为它所支持的业务提供高质量的服务。

数据中心事件管理(Incident Management)

一. 事件管理概述
事件管理的目标就是在出现时间时尽可能快地恢复服务的正常运作,避免其造成业务中断,把对业务的负面影响降为最低,以确保服务质量和可用性满足SLA(Service-Level Agreement,服务等级协议)中定义的正常服务级别。为了实现这个目标,事件管理流程必须最佳地利用资源支持业务、开发和维护有效的事件记录,以及设计和应用统一的事件报告方法。
所谓事件是指可能会导致服务中断或服务质量下降的,不属于标准服务的事件。事件不经包括了与软件和硬件有关的错误,还包括服务请求。
事件管理不是找到引起系统异常的根本原因,而是尽快恢复系统业务功能,找到异常根本原因事问题管理流程的目的。
事件管理的主要任务是及时识别并跟踪发生的事件;对事件进行分类并提供初步支持;对事件进行调查分析,识别引发事件的潜在原因;解决事件并恢复服务;跟踪和监督所有事件的解决过程,并随时进行沟通。因此,研究事件管理对解决目前IT运维中存在的服务问题具有重要的意义,事件管理时效性将直接影响整个企业的IT服务质量和整体运营状况。

二. 事件管理的关键点

  • 事件记录
    事件管理记录详细的事件信息,如事件发生的时间、受事件影响的服务等。在大多数情况下,事件会由服务台进行记录,所有的事件都应该被迅速记录下来。要避免对同一事件进行重复记录的情况出现。因此在记录某一事件时,需要进行一项检查来确定是否已有相似的记录。

  • 事件分类
    事件分类的目的是为了确定事件的来源以便采取相应行动,尽可能快地恢复用户的正常工作,尽量避免或者减少事件对IT服务质量的影响。一般来说许多事件事重复出现的,因此,当某个事件再次出现时,只需要根据已有的经验和措施采取行动即可。当新的事件出现时,就有一个与其问题和知名错误(知识库)相匹配的过程,如果匹配成功就可直接用已有的方案将其解决,而不需要进一步调查,否则就要继续进行下面提到的其他几个步骤。
    三级分类机制:分类、子分类、项目。
    可以根据所报告的事件的故障情况,对事件进行分类(为事件指派类型)。根据时间的类型、状态、影响度、紧急度、优先级、SLA等来对其进行编码,由此向用户提供建议来解决或处理问题,哪怕仅仅事临时性的。

  • 事件状态定义
    事件状态反映了其在整个生命周期的当前状态,有时候值其在工作流中的位置。任何人都应该意识到每个时间的状态以及它所代表的含义。通常情况下,事件状态的例子有:

  • 新建
  • 已接收
  • 已计划
  • 已分配/已指派给专业人员
  • 激活状态
  • 已暂停
  • 已解决
  • 已终止
  • 事件级别定义
    在确定事件的类别后,需要确定事件的优先级以确保支持小组对问题予以足够的关注。决定事件级别的要素主要有三个,分别是影响度(Impact)紧急度(Urgency)优先处理级(Priority)

影响度是指所影响的用户或业务数量而言,时间偏离正常服务级别的程度;
紧急度是在解决故障时,对用户或业务来说可接受的耽搁时间;
优先级是根据影响度和紧急度决定了处理事件和问题的先后问题,优先级通常用一个数字来表示,优先级=紧急度x影响度

  • 事件诊断处理
    经过事件的查明和记录,对事件进行初步诊断后通过技术或管理手段快速恢复。事件管理的咪表首先是快速解决问题,恢复业务的正常运作,而不是寻找问题的跟不愿意。对于未出现过的事件,一线人员无法解决,则启动事件升级,目标依然是快速恢复系统和服务。过程中往往会采用变通的解决方案(Workaround)。对于事件发生的根本原因(root cause)直至问题被彻底解决,不再重复发生,这部分属于问题管理范畴。

  • 事件升级机制
    对于事件不能在规定的时间内由一线支持小组解决,那么更多的有经验的人员和有高权限的人员将不得不参与进来,这就是升级。它可能发生在事件解决过程的任何时间和任何支持级别。升级分为职能升级管理升级

职能升级:需要具有更多时间、专业技能或接入特权(技术机构)的人员来参与事件的解决。这种升级可能会超越部门界限而且可能回包括外部支持者。
管理升级:当经授权的当前级别的机构不足以保证事件能及时、满意的得到解决时,需要更高级别的机构也参与进来。

  • 事件关闭
    事件解决和恢复服务后,事件到达关闭阶段,这个阶段要跟用户确认事件解决是否成功。在事件解决后,要确保所有的事件信息都得到了更新并准确被记录;同时根据事件产生的根本原因对事件的分类进行调整;对于根本原因未找到的时间确认是否已经转入问题管理。在用户同意事件解决方案和方案执行的最终结果的基础上,该事件可以被关闭。

三. 事件管理关键点的具体实例

1. 数据中心事件的分类
数据中心运维过程中发生的事件种类繁多,我们主要根据故障种类以及事件定级方法,对数据中心事件进行分类。从故障角度划分的事件包括:

供配电系统事件、制冷系统事件、物理环境事件、物理安全事件、监控系统、网络故障、IT系统故障、自然灾害等;

结合事件定级因素,将事件分为一级、二级、三级和四级等不同的等级。有的企业会划分为三级,有的为五级。

级别 状态描述
一级事件 关键服务中断,影响SLA的大达成
二级事件 关键服务组件出现故障,导致不满足冗余条件或服务水平下降,有潜在影响SLA的可能性
三级事件 非关键服务组件故障,不影响SLA的达成
四级事件 非关键服务的质量下降,造成轻微影响或影响可以忽略

2. 数据中心事件的升级
在实际事件升级中,没有统一的强制标准,是由具体的业务和管理要求决定的。

三级事件 二级事件 一级事件
现场工程师 5分钟报告现场经理 5分钟报告现场经理 5分钟报告现场经理
机房经理/客服经理 10分钟报告事件管理经理、客服经理 10分钟报告事件管理经理、客服经理
事件经理 15分钟报告运维总监 15分钟报告运维总监
运维总监 30分钟报告运维总监 15分钟报告运维副总裁
运维副总裁 15分钟报告运维总监
目标值 一级事件 二级事件 三级事件 四级事件
响应时间(分钟) 5 5 15 15
派单时间(分钟) 10 15 15 15
接单时间(分钟) 15 60 工作时间 工作时间
管理升级时间(分钟) 5 15 N/A N/A
技术升级时间(分钟) 15 30 12小时 24小时
解决时间(分钟) N/A N/A N/A N/A

3.数据中心事件的记录

描述___________________________________________
事件名称 事件的名字
严重级别 事件的严重级别
优先级 事件的优先级级别
生成时间 事件产生的时间
重复次数 事件发生的重复次数
拥有人 事件处理拥有人
描述 事件的描述
开始时间 当前事件开始时间
结束时间 当前事件结束时间
第一次发生的时间 事件第一次发生时间
最后一次发生的时间 事件最后一次发生的时间
状态 当前事件实际状态
事件ID号 事件ID号
事件显示数 事件计数
计数器名 计数器名
实例名 实例名
事件数据 事件数据内容






LIFE IS SHORT, YOU NEED PYTHON

while(alive){
      eat();
      sleep();
      code();
      repeat();
}

相关文章

  • 723观白皮书

    《数据中心运维管理技术白皮书》 第一章:数据中心运维白皮书简介 本章介绍了数据中心发展现状及远景,说明运维白皮书产...

  • 723

    被真相伤害总比被谎言欺骗的好 得到了再失去 总是比从来就没有得到更伤人

  • 723

    我记得太阳 似乎每天都一样 我记得月亮 好像时圆时半弯 我也记得你 一直在为事业忙碌 我也没忘记 每天翻你的日志 ...

  • 723

    总觉得这个日子会比较特殊。 我的话越来越少,心中的响声却越来越大。 孤独也好,劳累也好,都是成为一个男人所必须经历...

  • 723

    7/23 看着你们越走越远 越笑越灿 精彩 丰富 可我却只想偎在这群从我睁开眼就在的人旁边 时间它从没说过谎 只是...

  • 723

    感赏儿子主动练习字,感赏儿子答应和我一块出去逛逛。感赏儿子今天中午发脾气,过了会就好了。感赏儿子今天说,我发现有的...

  • 723

    所有的情绪情感,最终都要跟时间妥协。不是命运的魔掌,是时间的魔掌。不论是723还是730,都已经是历史以来最久的一...

  • 〔723〕

    2021/11/8 周一 晴2℃ 冬天到了以后,西北风呼呼的,着实的冷啊! 明天小孩们要去打疫苗了,他们害怕着...

  • 723

    今天发生了很多事情,明天慢慢说来,出门了,刺激了,不刺激不成长吧,内心脆弱不堪,竟被高中生欺,这种可笑,也不想过于...

  • 健康意识增强,医疗保健消费升级

    易观分析重磅发布《中国数字经济全景白皮书》。白皮书通过详实的数据对数字经济进行全方位解读与复盘,帮助企业在数字化转...

网友评论

      本文标题:723观白皮书

      本文链接:https://www.haomeiwen.com/subject/rtstrctx.html