新闻资讯
相关阅读
按照新闻年份查询
按照新闻类别查询
01业务驱动的生产运维应用场景
业务驱动的生产运维覆盖生产系统的整个生命周期,包括从开发、测试、上线,到生产运行的全过程。
生产运行阶段管理包含广义的范畴,不仅仅是业务的可用性和连续性,也包含业务的正确性和可靠性、安全性、合规性,以及用户体验和用户满意度等。
业务可用性保障
业务可用性对于大部分系统来说是指在业务时间段内业务可用时间占比。许多线上业务要求7*24小时可用,可用性=业务的正常可用时长/业务服务总时长。
评价业务可用性的四大核心指标是业务量、业务响应时间、成功率、响应率。其中,业务量和成功率反映业务吞吐量,业务响应率和响应时间反映业务的服务质量、效率和用户体验。
业务可用性保障的具体场景包括但不限于:
· 业务总体可用性和健康度评价;
· 厘清业务系统之间的调用关系,追踪业务执行过程;
· 全天候实时监控每个业务节点的可用性和性能指标;
· 当业务不可用、出现故障和异常时及时产生告警;
· 快速定位故障根源节点和业务影响范围;
· 应用系统变更前后监控和对比分析,保障上线成功;
· 业务性能压测监控,为应用系统性能优化提供数据支撑;
· 双/多中心切换演练的实时监控和保障;
· 分布式数据库集群的端到端监控;
· 业务重要时期的运维保障;
· 业务运行数据的实时展示和输出,为业务运营和监管报送服务。
业务正确性保障
业务正确性即业务结果的准确性和一致性。
随着分布式和微服务架构的广泛采用,业务正确性比原有单体应用架构时面临更大的挑战。经常会出现每个应用系统都可用,但是跨多个应用系统的业务处理逻辑和执行结果却发生异常的情况。这种异常往往是由于应用系统设计缺陷、程序错误、接口调用返回结果失败、响应超时、返回信息不清晰等多种原因造成的。
例如,用户在手机银行客户端购买理财产品,如果银行账户扣除的金额与理财申购买入的金额出现偶发性不一致错误,不仅会影响用户体验和银行信誉,也可能导致用户或银行资金风险。目前,业界缺少有效的手段及时发现此类异常并快速止损,往往都是通过事后用户投诉或者日终对账时才能发现。
只有通过业务驱动的生产运维体系,从业务视角才能及时发现此类业务处理过程不正确和不一致的异常情况,并快速修正和止损,以避免造成业务风险,对用户体验和企业信誉产生不良的影响。
监管合规检查
大型企业科技运营部门管理的各类IT资产,以大型商业银行为例,包括信息系统百余套,各类设备万余台,各类用户万余个,数据容量PB级。生产系统运维人员平均每天登录系统几千次,涉及对信息系统软硬件及业务数据的各类操作。
面对当前复杂的生产运维环境,以及国家“严监管、重处罚”的监管要求,企业的内外部合规压力越来越大,需要及时发现数据泄露、数据篡改、违规越权、系统异常等事件甚至案件,满足企业及监管机构的合规要求。
目前,监管合规主要依靠人力按照流程进行事后检查,对过程行为的事中“技控”不足,面对大量数据时,存在时效性差,覆盖率低、效率不高等问题,亟需在生产系统运维的同时具备自动化合规检查的能力。
同时,对违规行为进行分级分类。高风险违规行为实时报警,实时介入处置;低风险违规行为事后跟踪,专职合规人员反馈结果并处置。形成集“查-改-跟-验”为一体的监管合规闭环管理机制。
信息系统安全运营
信息系统安全防护和应急响应是保障生产系统业务连续性的重要环节。
近年来网络安全事件频发,企业虽然部署了防火墙、IDS/IPS、桌面防病毒、堡垒机、漏洞扫描等多种内外部安全防范和审计设备,但这些安全防线仅仅抵御来自某个方面的安全威胁,形成了一个个“安全防御孤岛”,无法产生协同效应,难以发现真正的安全隐患。
另一方面,企业管理者很难量化安全投入带来的实际效果,不清楚IT架构的安全运行态势,很难在进一步的安全建设中进行有的放矢的投入。而日益变换的隐秘性高、目的性强的攻击形式,以及不断增强的业务持续性需求,都对企业的安全管理提出了严峻的挑战。
业务驱动的生产运维体系,从业务视角将整个网络中的各种设备、用户、资源,纳入一个统一的安全运营管理中心,对企业所面临的内外部攻击及违规行为,进行实时检测告警、快速定位、准确溯源、自动处置,从而实现“风险可知、事件可控、态势可见、效率提升”的目标。
安全运营中心的应用场景包括:
· 安全事件的告警、定位与溯源
· 安全威胁分析与高阶威胁研判
· 安全事件的持续监测和自动化响应处置
· 安全态势感知
· 攻防演习保障
· 资产管理
· 合规审计
· 网络安全服务保障。
数字化运营
业务驱动生产运维的建设过程,既是生产运维的数字化转型,同时也为业务数字化转型赋能。
通过数字化业务的可观察、可度量和可追踪,获得实时的业务运行状态和运营数据,有助于企业了解每个业务的用户来源、访问渠道、用户量、交易金额等,帮助企业优化业务流程和产品设计;了解每个用户的行为、喜好和使用习惯,针对不同用户提供最好的服务和产品,提升用户体验;同时实现研发、测试、运维、运营的协同,提高运营效率,降低运营成本。
数字化运营有不同行业通用的场景,也有不同行业特定的场景,通用的场景如:
· 业务高峰期、敏感期(双11电商购物节、保险行业开门红、税务征收期等)重点保障和实时运营数据分析;
· 用户数、活跃用户数、访问量、访问渠道的实时监控和趋势分析;
· 新产品、新服务、新功能上线保障和数据跟踪;
· 业务性能容量规划,业务峰值的统计和预测;
· 业务部门、人员工作绩效分析和优化;
· 客户满意度、客户旅程分析等。
02业务驱动的生产运维解决方案
华青融天经过十几年在业务运维、安全运营和风险洞察领域的深耕,形成的以数据为基础、以业务为驱动的生产运维一体化解决方案,包含业务视角监控、服务流程和自动化执行的完整过程。
技术架构
业务驱动的生产运维解决方案以业务视角打破测试开发、IT运维、运营与监管的壁垒,为企业的科技运营人员、业务运营人员、开发测试人员、监管合规人员、安全运营人员、企业决策者和行业监管机构等提供服务。
总体技术架构自下而上依次分为:数据源、采集层、处理层、存储层和应用层。其中,数据源、采集层、处理层和存储层共同构成了统一的数据平台和技术平台,主要完成数据采集、解析、存储和分析处理。
数据架构
业务驱动的生产运维解决方案依赖于对多源异构数据的采集、解析、标准化处理以及深层次挖掘和关联分析,使各种IT数据资产发挥出更大的运营和业务价值,进而为企业的数字化业务赋能。
数据标准化:将采集到的多源异构数据发送到实时消息队列Kafka,数据解析和预处理模块消费Kafka中的数据,进行数据的结构化、清洗增强、标准化和关联匹配等处理,易于理解、挖掘、分析和使用。
数据价值化:依托大数据技术和机器学习技术,利用搜索引擎、计算引擎、规则引擎、机器学习引擎等,对数据进行检索、实时流式计算、批量运算、检测和链路追踪等处理。处理后的数据和告警保存到实时、近线和历史数据存储中,包括关系型数据、非关系型的事件、文档和统计分析类的数据,将数据转化为有价值的信息,为企业数字化IT运营和业务运营提供数据支撑。
数据业务化:主要为业务驱动的生产运维应用场景建立模型和服务,将数据场景化、业务化,包含业务的可用性、正确性和可靠性、安全性、合规性、用户体验和用户满意度等。
(了解详细技术方案请咨询400-160-8007)
03业务驱动的生产运维评价标准
从技术驱动的生产运维向业务驱动的生产运维转变,首先是目标和理念的转变,其次才是工具和方法的转变。
我们从运维模式、运维工具、覆盖范围、业务和用户的感知能力、业务故障定位能力、故障处理方式、平均故障恢复时间MTTR和应用场景等多个维度,将业务驱动的生产运维的发展过程定义为5个级别。从Level 1 至Level 5,每个级别作为向下一个级别持续演进的基础。
华青融天对银行、政府、保险、基金、医疗、制造、烟草等行业的100多个客户进行调研,发现多数客户的生产运维水平处在“业务驱动的生产运维水平”的Level 2级别,一些领先的客户处在Level 3或Level 4级别,这意味着业务驱动的运维发展既是一种趋势,也存在巨大的提升空间。
04业务驱动的生产运维落地实践
业务驱动的生产运维体系已在某大型股份制商业银行成功落地实践。监控范围覆盖客户的300+套业务系统,其中包括1000+业务子系统,支持总行和超过100家的全部分行。监控的总交易量日均在10~20亿笔,每分钟峰值交易量高达1000万笔,采集日详细交易数据在10~20TB。有效保证行内业务系统稳定运行,并全方位地为业务的高质量发展赋能。
方案落地
· 多源数据采集与治理
· 业务可用性保障
· 业务正确性保障
· 自动化监管合规检查保障
· 信息系统安全运营保障
客户价值
· 数据中心全方位赋能业务,运维能力和效率跨越式提升
· 保障业内领先的分布式核心系统顺利投产,平稳运行
· 运维工作方式向全面自动化、智能化转型
· 操作风险和合规检查向事中化、自动化转型
· 形成智能化、一体化、协同式的安全运营体系
客户评价
“完成运维转型,构建业务级别的智能免疫体系。以业务视角重新定义生产运维,建立业务级别的实时监控、预判、识别、告警、自愈、处置和持续进化等智能免疫能力;建设技术运营平台,以基于数据的运营更深度地连接技术和业务,逐步实现运维向运营的转变。”
本文节选自白皮书部分章节内容,对全文感兴趣的小伙伴请联系:
王洋 13041250779