交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
行业精选无线系列
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
制造业
高教/职教
医疗卫生
交通
公共安全
如今,数字系统已经成为各大企业的“中枢神经”,和企业生产、运行息息相关。一旦出现故障,就可能造成无法计算的损失。但业务及应用系统繁多、基础架构环境复杂、问题难以定位,这是运维工程师面临的现实问题。常常加班、到处“救火”,疲于奔命,这似乎是运维人员的工作常态。
如何保障企业的“中枢神经”高效、稳定运行?下面的案例或许可以给出一个答案。??
突发:BPMS系统故障!组织效率全面下降
2019年9月19日下午5点,某大型制造类企业,大量员工电话报障到IT部门反映BPMS系统出现打不开页面的情况。BPMS系统是该企业的核心业务应用,该业务出现问题时,产品流程管理、人力资源管理、财务管理、市场营销、采购与供应链等生产活动都会受到严重影响,这一问题属于重大故障。
通常情况下,运维人员在处理此类事故时,都会先登录网络确认问题,再通过网络、主机、应用一一检查,但当这些都正常时,依然找不访问异常情况。从发现故障、分析定位到处理故障、再到持续优化,整个过程通常要耗费1小时以上的时间,组织工作效率全面下降,增加企业运营的隐性成本,部门间的抱怨投诉不断升级……
猎豹出击,只需3分钟解决问题
幸运的是,该企业在今年年初部署了猎豹,在这次故障发生的时刻,猎豹已经产生告警并通知了运维人员。全程只用了3分钟,业务就恢复了正常。下面我们来看一下猎豹是怎么做到的?
第1分钟:运维人员通过邮件或者短信接收到猎豹发出的告警通知,发现问题。
第2分钟:运维人员通过猎豹业务分段定位功能,检测网络、DNS都没有问题,故障源直接锁定业务应用本身。
第3分钟:运维人员通过猎豹的历史回溯分析,找到本起故障的主要原因——服务器拒绝用户的访问请求,导致用户无法访问BPMS系统。最终经排查原来是由于数据库性能下降导致的。
以上,只需要3分钟,就完成从问题的发现、分析到处理的故障处理全过程,问题解决的成本从小时级降低到分钟级,大大降低了业务故障的持续时间,也降低了企业因业务中断带来的损失。
客户这样反馈
该企业CIO(首席技术官)张总这样评价猎豹:分段定位功能非常实用,可以帮我们缩小范围,快速定位到责任人;而且通过对历史数据的回溯分析,帮助我们事后分析时有据可依,这一点上也符合等保2.0的需求。
这些问题,也可以通过猎豹解决
除了上述的情况,还有许多类似问题,也可以通过猎豹快速解决:
运维团队频频被投诉,甚至被领导投诉,希望能够做到主动运维,在领导之前感知到问题;
业务访问异常时,网络正常,网络运维人员需要自证;
故障恢复了,无法还原,无法分析,最后不了了之;
需要过等保2.0,等保2.0中有关于流量回溯方面的考核加分。
猎豹智能运维平台,是锐捷RIIL推出的又一运维利器,他可以:
站在最终用户的视角上评估业务应用的好坏,及时感知用户的访问体验;
快速界定责任人,是网络问题,还是业务问题,以便快速处理;
记录并存储用户与业务应用的全量交互数据,以便于对历史数据的回溯分析。
总结一下就是:量化体验、及时感知、精准定位、历史回溯,除此之外,猎豹还有故障自愈功能,在一定时期内帮助运维人员实现无人值守。
悄悄告诉你,猎豹智能运维平台将在锐捷网络2019年共建渠道大会上的“智能运维”展区亮相哟,欢迎围观,还有萌萌哒故障医生——大保,以及运维助理——R妹在现场等着你!
图:RIIL“野生”代言人