人可以来人可以去,但我永远去。 135年前Alfred Tennyson勋爵用同名诗宣布Brook数据大呼小叫, 数据继续流经德州200多数据中心, 连冬季暴风乌里大肆破坏,
时事物未顺利行进多数数据中心无阻发布 并设法在暴风雨中保持恒定一些人甚至能够提供外部帮助。
智能CIOs视数据中心为资本资产,并有自己的预算编制和管理目标定期升级必备.云计算指数增长 移动应用 iOTEUC远程工作IT领导者仍必须管理外部和内部风险以避免故障,这可能导致每天损失数以百万计美元。
保护和维护IT生态系统需要战略性长期数据中心基础设施管理规划,以减轻多区风险组织可朝此方向采取一些确定性步骤
谁需要数据中心风险管理
基本上这是一个冗余问题自数据库裸式设施内商业关键数据应用, 风险巨大, 不论它们是企业内建设运行的, 由MSP管理, 或由云服务提供商托管
定期数据中心风险评估和灾难测试对需要遵守法律、合同或规范要求的组织不可避免没有一个风险管理计划可导致整个数据中心下降,因为架构中任何地方都有一个故障点,导致运行严重中断并随之损耗收入。
面向全组织综合风险管理
数据中心,据我们今天所知 25多年前出现 试图处理时单曲工作量2021年合用私有云托管服务增加方便性并降低大小企业成本,但复杂性问题仍然是主观性问题。
EEC、BYOD远程作业实践和云应用爆炸后,组织需要重新全局看待它们面临的风险,包括自然灾害、设施内风险、数据风险和供方或供方特有风险
表示单个风险因素可能不单适用于数据中心,而影响全组织数据中心风险管理计划应同时绘制外部、局部和全组织风险之间的联系并准备每个风险或多事件同时发生
识别并减轻全方位风险需要综合风险管理进程Gartner定义IRM为“一组实践和过程,并辅以风险意识文化与赋能技术,通过综合观察组织管理独特风险集的优劣改善决策和性能”。
组织需要正确的工具过程监控每一个移动部分数据中心并处理随时出现的任何风险 包括恶意网络攻击大数据分析有助于准确综合评估数据中心促成的各种操作风险,如数据存取、应用运动和DevOps系统还帮助执行动态灾难恢复计划
然而,人-进程-在创建这些计划方面起中心作用。
有像IT管理员这样的专家 负责日常IT运维图希那戈尔产品营销高级主管 业务持续和灾难恢复Nutanix
决策者如CIOVP或IT主管最终负责数据中心风险管理拥有预算和其他资源投资右安全性措施、工具化和员工培训
内一篇关于数据中心知识的文章IT咨询公司Capgemini高级交付中心主管Kevin Read展示了他开发风险管理方法的方式,该方法旨在识别风险、概率、潜在商业影响和估计减低成本模型随时间变化
At Capgemini系统月度风险管理日志记录所有风险和问题投资预算提供
评估前管理
任何风险管理计划都需在灾难发生前到位风险评估审计是第一步首先是从设施设计、IT架构和图理学以及操作可持续性的角度评价现有自有和运营设施
再者,如果过去曾出现故障,则需要验尸和根本原因分析,以查明并解决生态系统受影响部分特有缺陷问题
最后,如果组织有混合基础设施多数据中心并计划扩展或合并 每项资产需要逐个评估恢复能力
帮助创建图表或表方便引用,列出主要风险类别,指出所有关键系统每个类别受到影响,估计损耗和回收成本,并明确说明发生事件时应做什么
类型数据中心风险
不容易分类或甚至列举数据中心面临的各种风险因此,CTO和IT团队有许多不确定因素需要担心
IT故障有多重原因, 断电和人为错误仍居顶端,近一年IT实践者远程工作时, 网络安全攻击明显上升, 导致意外故障时间, Goel表示, 当请求列举数据中心最重大问题时,
并教教如何减轻这些危险
地理威胁地形风险和气候风险应在选择数据中心位置时评价,然后在设施规划阶段评价。高风险自然灾害区如地震、飓风、洪水和林火无法避免时, 考虑在楼内使用强建材来抵消风险
幸运的是,许多自然灾害可以预测并准备更冷酷气候中建的数据中心有自然再生节能和冷却选择,正因如此北欧国家是建数据中心热点
除自然危害外,数据中心管理员还应该考虑人为危险机场电网 化工厂 军事基地 水体安全距离相邻有消防站、医院和派出所则有帮助
断电率 :断电对任务关键数据中心构成生存威胁组织需要确保有足够的恢复能力搭建UPS支持电路连接每个机架和冷却系统拥有双电源并直接连接多变电网对网站是一种最小保护,以防本地变电站故障除此以外,备用发电机可待命作为最后手段
水渗出量 :水是数据中心双刃剑连几滴关键硬件都可能造成不可弥补永久损害同时,冷却消防系统水供应和存储需要保持最优水平
声波学:长时间接触高debel声音是建立数据中心时最被忽视风险之一硬驱动器和存储系统特别易受噪声影响-高频声音振荡可大大降低读写性能,可能损损损数据质量和完整性
数据中心应远离机场、竞技场等声波抑制技术在减少设备接触高分层噪声源,如安全报警器和消防报警器或院内或院外其他装置方面发挥着关键作用。
fire:数据中心起火大都由电机电流推波所引起一火可以摧毁千元值设备 if not检测并立即扑灭起火早期阶段 烟量极低 无法通过烟雾检测器检测再者,空调循环系统快速驱散解决方案是快速检测烟雾并提醒用户尽快跨出最小阈值
安全性 :数据中心安全故障可能包括网络破解到破坏和破坏等由现场个人造成的任何东西最大威胁之一是网络攻击导致账号数据泄漏或个人识别信息(PII)属于客户
某些应用或系统故障可能导致安全人员无法验证卡持有者身份或授权他们前往某些地区视频摄像头和存取控制门也可能失去与中央系统的联系
赎金软件造成的漏洞和威胁只能处理使用多层方法保护数据有三个方面:预防、检测和恢复特殊防御机制包括教育终端用户、定期脆弱度扫描、角色访问控制以及定期数据备份
系统故障 :最多事物都有可能出错 高频关键是要识别并修复整个IT基础设施中所有单点故障(可能影响数据中心)
启动时有弹性网络架构和连通性冗余光学连通性是数据中心金本位服务器多租户或多程序运行集群化、镜像化和重复化有助于确保持续存取和交付并尽量减少故障的可能性
现代HCI驱动数据中心并交付IT基础搭建为弹性安全自愈合平台
备份数据和文件是大多数组织例行程序,但在中断时立即恢复实时或事务数据应该是数据中心优先处理的事项不同公司根据适用于本行业的规范标准以不同方式实现这一点。归并多备份解决方案努坦尼斯矿组织可简化数据生命周期管理并完全可见并控制数据
另一种风险是软件应用在数据中心反作用并拆系统服务器IT需要确保这些应用程序可无缝运行整个基础设施免引起位于数据中心或任何其他环境的服务器故障
差灾难恢复规划识别并最小化所有风险并非故事的终结任何值盐风险管理计划应确切知道何时(非万一)发生灾难并包括逐步恢复计划首先是建立系统监测关键环境因素并提醒相关人员某些阈值跨出
万一发生突发灾难 损失会升级
组织误入歧途 灾难攻击时异常频繁多数灾害原因不仅被组织低估,而且预算不足导致意外故障准备不足,Goel悲叹
灵活自动化平台在发生灾难时对非中断恢复至关重要NutanixXiDR管弦解析简单部署管理并适应局部或云址消除数据仓并便利从单用户接口复制和恢复
平衡生态系统与数据中心风险管理
数据中心有千位移动部件自然而然地它是一个组织轮子微小偏差打乱全组织 跨部均衡
因此,减少风险是一项共同责任。每位雇员或利益攸关方都可帮助企业保持最优水平运行,要么执行规则,学习如何同时做得更好。IT领导者应确切知道在哪里和花多少钱使每个人接受训练并获取执行数据中心任务所需要的资源职责由CTO或CIO确定期望并澄清这些行动
数据中心或IT基础设施本身不独立运行花在数据中心风险管理上不一定是所有管理者的最高优先-大多数部门目标与实现收入目标相比相形见绌
冲突目标难解决, 最有效方法之一是建立高效过程 持续识别风险并需要一种可预测可靠更新系统方法而不影响组织总体业务目标”,Gavin Millard说,VP产品营销Tenable
和IT中所有事物一样 人和数据中心管理技术一样重要DevOps等标准化流程和方法可帮助精简工作流程和流程,并使数据中心设施管理的所有构件与更广泛的业务目标相匹配