快速故障定位 业务性能分析 业务可视化 SOC 安全运营中心 RPO灾备数据管理系统 金融反欺诈 Algosec防火墙策略
新闻资讯
相关阅读
按照新闻年份查询
按照新闻类别查询
随着IT架构越来越庞杂,一次请求往往涉及到多个服务,有可能分布在几千台服务器上,横跨多个数据中心。
因此,对重要的业务种类进行全局的端到端监控,以便发生故障时,快速定位和解决问题。
这就是今天我们要讲的——全链路业务监控。
▼
全链路监控
全链路监控,是指从业务的发起端到后台核心系统,可监控每一个业务指标,对同一类业务集中监控展现,当问题发生时,可快速发现、定位问题。
全链路是站在业务视角来看整个IT应用系统的,其核心价值是对业务系统进行节点级的根源定位,更容易看到问题短板,帮用户做更好的运营,高效解决问题,提升IT的业务价值。
全链路的核心用户价值:节点级故障定位
全链路监控,可实现节点级的故障定位。
当庞大的业务系统出现问题时,可以顺藤摸瓜,迅速确定是哪个业务节点引起的。
以银行业务系统为例,包括手机银行、网银、第三方支付等来自各类业务终端的交易有很多种,当出现问题时,如果能分门别类的了解这些渠道的链路、交易状态,就能很快定位故障。
从手机银行渠道 - ESB – 核心
图中可以清楚显示,从手机银行web最前端开始到后台核心之间的链路关系,每个阶段的交易时间、交易笔数、成功率、响应率。
当任意一个节点出现问题,可精准定位、秒级发现、分钟级解决。
如果手机银行没有单独展现业务链路,将柜面业务、网银业务、第三方业务等混为一谈,那究竟是哪个业务系统出现问题的?就需要花费大量时间和人力参与再逐一验证,这个效率和沟通成本就非常低了。
比如,一个连锁商超的一家门店出现交易异常,这对于“交易总量”来说是微不足道的,但是对这间门店的客户体验来说确是灾难性的。
所以,必须要进行更细化的业务种类监控。
以银行核心系统为例,如图:
从图中可以看出:
如果只做总量监控,可看到从前置应用到核心应用所有交易的成功率90%,响应率90%,平均响应时间100毫秒,似乎还可以。
但是如果把来自不同渠道的交易请求全链路梳理出来后,发现柜面、网银、第三方支付系统的业务性能都正常,但来自理财平台的成功率只有10%,响应率也只有10%,这样就能更快速发现和定位问题。
全链路业务监控,就是将这些不同种类的业务单独进行监控,从业务发起到后台核心系统,一条链路清晰的展现。
全链路成功的关键:全量分析
目前,全链路监控使用的数据源大多数是日志,华青融天采用的是旁路镜像获取流量的方式,全量解码、全量分析,对业务系统零干扰,是一种创新且开销较小的技术形式。
在全量解码时,除了IP、端口,我们把任意特征字段的数据都进行了索引保存;在全量分析时,可任意调用这些数据,使得全链路业务监控得以实现。
比如,通过网上银行VIP客户账号,可以查询客户任意一笔业务在各个节点的运行状态和结果。既帮助运维人员提升用户体验,也能够使业务人员掌握客户在办理业务过程中每一个环节的成功率和到下一个环节的转化率。
在实施全链路时,结合相关的业务路径,梳理出用户的核心业务是什么,有哪些类,以及核心业务关键依赖的系统服务有哪些。掌握这部分内容后,从整体维度到局部维度展示各项业务指标,接下来在全量分析的基础上,就可以实现全链路业务监控的目标了。
上一篇:华青融天自适应安全技术愿为您护航