• 首页
  • 产品中心

    日志精灵 EZLogic 业务链路追踪 MGTrace 业务运维产品 EZSonar 安全运营产品 EZAccur 风险监控产品 EZUBA

  • 解决方案

    快速故障定位 业务性能分析 业务可视化 SOC 安全运营 RPO灾备数据管理 金融反欺诈 Algosec防火墙策略

  • 用户案例

    中信银行 深圳农商行 民生银行 中原银行 渤海银行

  • 新闻资讯

    公司新闻 行业洞察 技术前沿 媒体报道

  • 社会责任
  • 关于我们

    公司简介 发展历程 公司文化 荣誉资质 团队风采 梧桐苑 工作机会 联系我们

中文 English
  • 首页
  • 产品中心

    日志精灵 EZLogic 业务链路追踪 MGTrace 业务运维产品 EZSonar 安全运营产品 EZAccur 风险监控产品 EZUBA

  • 解决方案

    快速故障定位 业务性能分析 业务可视化 SOC 安全运营 RPO灾备数据管理 金融反欺诈 Algosec防火墙策略

  • 用户案例

    中信银行 深圳农商行 民生银行 中原银行 渤海银行

  • 新闻资讯

    公司新闻 行业洞察 技术前沿 媒体报道

  • 社会责任

  • 关于我们

    公司简介 发展历程 公司文化 荣誉资质 团队风采 梧桐苑 工作机会 联系我们

新闻资讯

相关阅读

不畏“数据”遮望眼,只缘云开见月明 “阳敌”护体!主动运维系统无忧 从世界杯黑科技聊聊可观测性能力的构建 提升分布式数据库运维能力,你需要这样做 双十一保障完美收官!华青融天幕后守护每一个.. 关基安全标准首发,融天助力用户筑牢安全防线..

按照新闻年份查询

2022年 2021年 2020年 2019年

按照新闻类别查询

听风辨器,神功护体——IT运维人员的九阳神功(中)

时间:2020-07-01 来源:
微博 微信 头条

今天恰逢2020年下半年第一天。2020太难了,上半年忙着见证历史,人人都不易。希望大家保持乐观,下半年一切都会好起来!


言归正传,继续说运维。修炼至此,大家都已具备九阳神功前三重的功力,浪迹IT江湖三十年的融哥带大家继续乘风破浪、精益求精。


页面打不开、系统卡顿、应用宕机……每天IT运维人员被各种飞来横祸困扰,如六大派狠人围攻光明顶。要想搞定业务运行过程中的种种问题,你必须变成一个小号的魔教教主,打通任督二脉、调动全身功力,方能转危为安,世界和平。


九阳神功第四重:缩骨大法


他心中只一个念头:“这小子比我高大,他能钻过,我当然更能钻过。”想法原本不错,只是有一点却没料到:张无忌已练成了九阳神功中的缩骨之法。——《倚天屠龙记》


缩骨大法者,化大为小,小中见大,见微知著也。


魔鬼往往在细节中。对于业务系统的监控,基本的监控粒度有多大,决定了故障定位的精度。上一期融哥曾经给大家讲过监控系统的数据来源,以旁路镜像数据流为最佳选择,数据流中全部业务系统之间的数据流纠缠在一起,剪不断理还乱,必须化大为小,从大的数据流中拆分一个个小的逻辑对象,才能锁定真正的问题。




举个例子,上面是一个的典型银行应用。


粗看起来,每分钟2000笔的交易量,平均响应时间100ms,成功率90%,响应率90%,看起来还不错。大部分业务监控系统,只能做到这一步了。


但如果我们细看不同的渠道发出的请求,就会发现,应用细分为网银、柜面、第三方支付和理财平台四个部分,其中前三个是正常的,但理财平台的成功率和响应率都只有10%,已经是严重故障了。


因为理财平台的这200笔交易,只占了总交易量的10%,问题被其他交易掩盖了。如果这些细微的隐患不及时发现,以后会逐渐演变为更大范围、更严重的问题。


这就是细化监控对象、化大为小、见微知著的价值所在。作为一个运维人员,必须练就一双慧眼,有一套神器,方能及时杜绝小隐患引发的大麻烦。


运维人员使用的软件工具,必须具备细分监控对象的能力。华青融天的EZSonar系统(鹰眼),一个重要特点就是微监控,在数十家金融机构得到广泛应用。


九阳神功第五重:龟息大法


这乾坤一气袋密不通风,他在袋中耽了这许多时候,早已气闷之极,仗着内功深湛,以绵绵龟息之法呼吸,需气极少,这才支持了下来。——《倚天屠龙记》


融哥听说有气长命长之说,龟一次呼吸45秒一般寿命500年,人一次呼吸5秒一般寿命80年。要是看见一个人大口喘气,上气不接下气,估计离挂掉不远了。


所谓龟息大法,就是内功高手对生命节奏的掌控。从容淡定,方能应付裕如、行稳致远也。


作为一个IT系统的运维人员,最重要的就是不要让自己被虚假的无意义的信息淹没,忙的四脚朝天,反而忽视了重要的问题。我们经常看到,大量软硬件平台和应用系统不断发出告警信息,快速刷屏,在这种情况下,如何对告警进行高效的精准处理,分级、压缩和降噪,去伪存真,及时识别真正的故障和隐患,就是最重大的课题了。


第一是减少误告警。比如,某一时刻交易量突然降低,但只是暂时性波动,很快又恢复正常,这种异常是没必要告警的。有些批处理也可能导致某一刻交易量突发,这种也属正常情况,往往也不需要告警。



第二是准确把握业务的正常规律,精准地对异常业务流发出告警。这张图显示了对交易量的监控,利用大数据和机器学习技术,根据历史数据产生动态基线,以基线来反映正常交易量的规律,如果真实的交易量与基线的差异过大,则说明发生了异动,此时才触发告警,避免误告警的发生。


第三是提升每一个告警的有效性,减少告警数量和频次,通过告警关联功能找出事件之间的联系,去除告警杂音,让告警更加精准有效。


凡此种种,在告警的处理上要寻找一种平衡,通过智能的算法,反映实际业务的规律和异常事件间的关系,不漏报不误报,让运维人员应对从容。这就是华青融天EZSonar强调的“轻告警”。


九阳神功第六重:壁虎游墙


赵敏笑道:“张公子,你的壁虎游墙功当真了得,这陷阱是纯钢所铸,打磨得滑不留手,连细缝也没一条,你居然游得上去!”——《倚天屠龙记》


一说到墙,干运维的同学们就乐了。我们习惯什么都上墙,有什么话咱对着墙说。融哥在运营商工作十多年,参观运营商总部的保留项目就是去看运维中心的大墙,几十块大屏,全部专业网络运作情况一目了然,尽收眼底,极具视觉冲击力。


如今的墙更是今非昔比,不仅可视化效果美轮美奂,实时性也可以达到秒级,网络、服务器和应用的问题,第一时间上墙。数字和红绿点线游动跳跃,如同壁虎游墙。



不用多解释,可视化做的好,各种实时数据集中直观地显示,是大屏的最大优点,领导喜欢我也喜欢。一般都是从大屏发现了问题,才一步步向下钻取,挖掘到问题的根源,所以一块丰富而直观的大屏、实时性的数据展现、随心所欲的视图定制、方便快捷的钻取功能,是每个运维人员的梦想,也是衡量一个监控系统好坏的关键。


行文至此,九重神功说到了三分之二,后事如何,且听融哥下回分解。


上一篇:内外双修,人剑合璧——IT运维人员的九阳神功(大结局)

下一篇:玩转流量,天下无锅——IT运维人员的九阳神功(上)

联系我们
  • 产品中心

    日志精灵 EZLogic

    业务链路追踪 MGTrace

    业务运维产品 EZSonar

    安全运营产品 EZAccur

    风险监控产品 EZUBA

  • 解决方案

    快速故障定位

    业务性能分析

    业务可视化

    SOC 安全运营

    RPO灾备数据管理

    金融反欺诈

    Algosec防火墙策略

  • 用户案例

    中信银行

    深圳农商行

    民生银行

    中原银行

    渤海银行

  • 新闻资讯

    公司新闻

    行业洞察

    技术前沿

    媒体报道

  • 社会责任

  • 关于我们

    公司简介

    发展历程

    公司文化

    荣誉资质

    团队风采

    梧桐苑

    工作机会

    联系我们


微 信
© 2017 华青融天(北京)软件股份有限公司  京ICP备07501934号-1  京公网安备11010802010597号
法律声明 隐私保护