新闻资讯
相关阅读
按照新闻年份查询
按照新闻类别查询
2022年10月10日
《业务驱动的生产运维——从业务视角重新定义生产运维》白皮书,在华青融天十五周年庆典仪式上正式公开发布。围绕生产系统运维的现状和挑战,业务驱动的生产运维关键技术能力、应用场景、解决方案、评价标准及落地实践,全面阐述了如何从业务视角出发,实现生产运维的升级转型。
01、重新定义生产运维
什么是业务驱动的生产运维
从业务视角出发,运用数字化技术去改变运维,就是业务驱动的生产运维。
为了提升数字化业务的竞争力和用户体验,IT运营团队必须自上而下地监控业务、应用、网络和基础设施,而不是自下而上从基础设施、网络、应用入手。
业务关注什么指标,客户需要什么服务,IT运营团队就应该监控和保障什么指标和服务,通过对业务指标和用户体验的实时洞察,从技术可观察性转变为业务可观察性,从单一应用系统的可观察性转变到全业务链路的可观察性。
业务驱动的生产运维,使数字化业务可观察、可度量和可追踪:
• 可观察:快速聚焦业务目标和用户体验,以业务和客户为中心;
• 可度量:实时监控业务可用性和性能,提高业务运行质量和效率;
• 可追踪:主动追踪业务过程和结果,及时定位问题和防范风险
业务驱动的生产运维客户价值
业务驱动的生产运维,不再从IT基础设施的可观察性入手,而是从业务的可观察性入手,自上而下地将业务目标与IT监控数据相结合,实时监控业务的可用性和性能指标,确保数字化业务成功和高效;
业务驱动的生产运维,及时发现影响业务的异常和故障,主动追踪业务过程和结果,快速定位影响业务的最关键问题,有效提高平均故障恢复时间(MTTR),减少业务故障和风险,提高用户满意度;
业务驱动的生产运维,连接开发、测试和业务,成为技术与业务团队沟通的桥梁,提高业务系统开发、测试、上线、运维、优化的效率,降低运营成本;
业务驱动的生产运维,保障新业务上线、新产品推广、重要客户渠道的性能和业务高峰期的用户体验,将技术指标转化为业务收益,实时分析业务运营数据,促进业务发展。
02、生产系统运维的现状和挑战
为了适应业务发展的需要,分布式架构、云原生应用正在替代传统的集中式架构和单体式应用,这些都给生产系统的可用性、可靠性和安全性提出了更高的要求。从业务的视角出发,生产系统运维仍然面临着很多局限和挑战。
缺乏统一的业务视角生产运维体系
太多竖井式的工具,而缺乏统一的业务视角的生产运维体系。有些企业在其环境中使用了十几种,甚至几十种监控工具,这些工具包括网络、服务器、数据库、应用系统、日志和其他监控工具。当出现业务问题时,运维团队在这些工具之间转换,花费了太多的时间和资源,却无法找到问题的根本原因。业务问题往往是跨多个应用系统的,因此需要一个跨多个应用系统的业务处理过程的清晰视图。
技术团队关注问题与业务目标不一致
运维监控指标与业务团队所关心的目标之间存在严重脱节。技术团队关注应用性能指标、服务调用成功和错误、系统资源使用率等,而业务团队更关注业务可用性指标、业务执行结果和用户体验,如业务吞吐量、成功率、响应率、最终用户满意度、部署新业务的上线时间以及诊断和解决问题的时间等。生产运维的真正目标是保证业务的可用性和效率,而不是系统本身的可用性和效率。
AI和机器学习技术的使用还不成熟
人们对AIOps寄予了很高的期望值,希望通过算法可以自动解决当前运维面临的难题。然而,现阶段多数企业仍处于智能运维场景的探索和实践阶段,AI在运维领域中的多数使用场景还不够成熟。AIOps的重点还在于数据的采集和规范化方面,解决的问题主要集中在事件关联和异常检测上,要想真正替代人工实现高级分析功能还有很长的路要走。
03、业务驱动的生产运维关键技术能力
建立统一、全面、敏捷、智能的业务驱动的生产运维体系,需要具备以下关键技术能力:
业务数据孪生
数据是实现业务驱动生产运维的基础。数字孪生就是在一个设备或系统的基础上,创造一个数字版的“克隆体”。它的主要目的是为物理世界创建一个平行的“数字世界”。
业务数据孪生是指在生产系统的数字世界之外,建立生产系统的一个“克隆体”,通过这个“克隆体”去还原、观察和分析生产系统的运行状态。 华青融天创新性地提出5T数据模型,结合AI技术,实现业务数据实时孪生。
•Telemetry 遥测数据 – 指标、日志和网络流量是典型的遥测数据,反映了业务系统当前的运行状态,并记录了详细的事件和会话,包括业务连续性指标、性能指标和返回结果等;
•Topology 业务拓扑 - 是业务运行的拓扑结构,包括应用系统调用关系和执行步骤等,而不只是应用系统的网络拓扑;
•Transaction 业务交易数据 - 一个业务的请求与响应,它可以是银行业务中的一笔交易;可以是企业系统中的一个生产制造的处理流程;也可以是政府服务中用户的一次数据申报;以及所有与这个业务操作相关的系统之间和系统内部的调用;
•Time 时间 – 每一个业务数据的时间序列标签,包括请求时间、响应时间等,反映了业务随时间的变化和趋势;
•Trace 追踪 - 一个业务请求执行过程的追踪结果,包括实时、动态的执行过程和在每一个步骤的状态、结果。这个过程通常是跨多个系统,甚至有可能跨多个机构。
对上述来自不同应用系统和数据源的数据进行采集、范式化和治理,与业务关联,并在这个“克隆体”上去构建监控和分析模型。
从宏观到微观
获得了业务数据孪生的可观测数据,从业务视角,按照业务目标和属性细化监控对象和监控指标,并能够从中发现真正的业务问题是业务驱动生产运维的关键。
生产运维应该与业务目标保持一致。业务关注交易量,运维就应该监控不同时间点交易量的变化,特别是在双11等重要的业务时间点;业务关注交易渠道,运维就应该监控不同的交易渠道;业务关注交易类型,运维就应该监控重要的交易类型;业务关注投放市场的新产品,运维就应该监控新上线的产品。
应用系统和服务器维度的指标看似正常,业务就真的正常吗?如图所示,从银行前置系统到核心系统的总体指标看似没有异常,而通过业务视角的细粒度监控,可以发现签约业务的成功率已经下降到0%了。可见,只有从宏观深入到微观的业务观察,才能提早发现和消除那些潜在的问题隐患。
基于大数据平台的全量数据集中管理和全量数据集中分析,实时流式数据处理技术,以及批量的统计分析引擎,使业务视角的细粒度监控成为可能。
从单一应用系统到全业务链路
业务驱动的生产运维,单纯以应用系统为监控对象是不够的。因为应用系统之间存在业务关联性,一般业务发生异常时,相关联的应用系统会同时受到影响并且产生报警。如果关联系统之间的告警信息相对独立,就会导致无法快速定位故障根源节点,延长了应急处置时间。
以银行跨系统的转账交易为例,一笔转账交易需要跨过2个数据中心,涉及5个以上的应用系统、10个以上的服务节点和5个以上后台数据库等。这就需要从单一应用系统的可观察性提升到全业务链路的可观察性。
对于企业存量的重要业务系统进行链路日志改造是一项复杂的系统性工程,而且对于企业用户来说,只做调用链级别的追踪还不够,还需要站在业务和用户视角,去追踪每个客户请求、每种业务类型都经过哪些步骤,每个步骤的执行结果,在哪个步骤出现问题和异常等,以实时感知每个业务的执行结果、用户旅程和客户体验。
智能分析
大型企业运维部门采集的数据种类和数量呈现出指数级的增长,完全依赖人工分析无法完成,IT运维的复杂性已经从收集数据转移到了理解数据,智能化成为企业在动态和复杂的IT环境中实现生产运维的必需品。
智能分析是手段而不是目标,它需要服务于业务驱动生产运维的目标。现阶段,机器学习可以解放运维人员在特定场景下的常规性和重复性工作,如减少人工手动设置阈值,减少告警噪声,发现事件之间的关联关系,实现异常检测等,帮助运维人员提高效率和数据质量,未来在更深刻的综合分析能力和高度自动化方面还有很大的潜力。
缩短平均故障恢复时间
企业生产运维的一个首要目标是减少故障发生次数,缩短平均故障恢复时间(MTTR),保证业务系统的可用性和连续性。
有效的告警是缩短MTTR的第一步,要做到告警有效就要减少漏报和误报。提高告警的有效性,需要围绕业务目标、监控对象、指标、触发条件和优先级五个要素进行告警设计,既要形成对业务目标纵深的监控,又要持续地迭代和优化。从业务视角入手,关注业务中断、业务服务质量下降、用户体验下降等真正影响业务的问题,可以让运维团队减少告警噪声,而且先于用户发现问题。
产生告警之后根据故障等级快速分析和定位问题是缩短MTTR的关键。通过全量数据的分析,包括跨多个应用系统的全业务链路追踪,快速定位根源。在现阶段依靠机器和算法完全替代人工还不现实,需要人工和算法推荐结合,进行快速定位和决策,所以从业务视角去分析尤为重要。
每一个告警都应该有一个闭环的处置流程,严重影响业务的故障需要启动应急响应,在定位问题之后快速通过自动化脚本恢复生产,或者通过灾备切换、版本回退、限流等方式止损,事后再进行深入复盘,分析故障的根因并进行改进优化;对于其他的告警信息也要进行分析和反馈,有助于事前发现和预警可能存在的潜在问题,通过优化和修复这些问题,防患于未然。
支持云原生应用
云原生应用是下一代IT技术架构和数字化业务的基石。越来越多企业的业务系统上云,构建容器化、服务网格、微服务和可扩展的云原生应用,系统和软件的架构更加复杂了,而且还要面对应用系统的快速迭代和频繁变更,更需要有业务视角的可观察性。
未完待续
本文节选自白皮书部分章节内容,对全文感兴趣的小伙伴请联系:
王洋 13041250779