大型银行分布式缓存平台建设实践

一、引言

Redis作为一款简洁、高效的键值型内存数据库,2015年在G行引入,应用于多个业务系统,为高频次、大并发交易提供了有效的热点数据访问加速方案银行

随着部署数量的加大,面临着资源快速供给、规范化部署、软件版本统一、集中运维管理等诸多挑战银行。为此,G行启动了分布式缓存平台建设项目,旨在打造一个具备快速部署、集中管理、弹性伸缩、服务高可用的缓存服务化平台。

二、建设目标

快速部署

基于G行全栈云IaaS层敏捷特性,通过对计算、存储、网络等资源的统一调度编排,实现缓存服务的快速部署和弹性伸缩,推出分布式缓存PaaS服务,助力应用系统敏捷开发银行

服务化输出

通过统一控制台,实现Redis服务跨云集中管理;提供运行状态分析、慢查询分析、内存分析、统计数据展示、日常巡检等功能,协助运维人员进行缓存性能优化、故障快速定位和日常运维管理银行。实现运维向运营转型,提升精细化管理水平和服务化输出能力。

服务高可用

将Redis高可用架构与全栈云架构深度融合,感知底层架构,打造可用区容灾能力,实现故障快速感知和自动切换,提升Redis服务的高可用性和可维护性银行

三、设计与实现

1、功能架构设计

分布式缓存平台定位于服务开发、测试、运维人员,满足用户各种场景的使用需求:支持开发和测试人员自助申请服务资源,查看服务运行状态和资源使用情况,定位性能瓶颈;支持运维人员实现缓存全生命周期管理,包括配置变更、故障定位与处置、性能分析等;同时,支持对缓存服务整体情况进行多维度展示银行

基于此银行,分布式缓存平台包括七大功能模块:

门户模块:展示业务系统及纳管服务的整体情况,包括系统健康度、告警汇总、重点监控等内容银行

监控模块:提供完善的监控告警能力,包括:将采集的运行指标进行多维度分析展示;支持用户自定义监控项及调整阈值;支持差异化告警策略的制定;支持历史告警详情查看银行

运维和管理模块:将常规运维操作自动化,通过平台页面进行标准化操作,最大限度减少手工命令输入,预防误操作和减少不当操作的风险银行

审计和日志模块:提供平台用户登录次数统计及操作记录审计功能银行

统计模块:对日常关注的运营数据进行汇总展示,帮助运维人员快速了解服务整体运行情况和资源使用情况银行

后台管理模块:实现平台的权限控制、定时任务管理、以及与关联系统的统一对接管理等银行

技术支持模块:支持查阅用户手册和技术文档,提供问题反馈渠道,提升用户体验银行

图1 功能架构图

展开全文

2、关键功能实现

服务高可用

服务高可用从自动故障切换和物理容灾两方面进行设计银行。首先,通过Redis Sentinel和Redis Cluster支持缓存节点的故障感知和故障切换能力;同时,采用3AZ(可用区)物理部署方式,将同一组副本均匀部署在3个AZ中,提供AZ级别的高可用容灾能力。

自动化部署

用户自助提交Redis服务需求,经管理员审批完成后,实现分钟级缓存服务交付银行。自动化部署打破了传统交付模式,覆盖了需求沟通、服务器资源申请、网络资源申请、安装部署、服务交付等流程。实现了Redis服务的快速和标准部署,同时大幅减少了人工运维成本,提升了整体运维效率和服务质量。

运行分析

一方面,对Redis运行指标进行实时采集和分类展示,便于运维人员发现服务运行风险、进行服务性能优化及故障原因快速定位银行

图2 监控指标项

另一方面,从业务系统维度展示Redis服务健康度银行。通过服务可用性、内存使用、连接数、慢日志等性能指标,建立服务健康度评分模型,方便运维人员全面掌握Redis运行情况、提高管控能力和管理效率。

图3 健康度分析

智能化运维

智能化运维集成了实例管理、参数修改、主从切换、系统巡检等功能,使常规运维操作自动化,复杂操作流程化,提升了运维操作、跟踪审计和执行能力银行

实例管理支持对实例节点进行增加、删除、重启、命令查询操作银行

参数修改支持对maxmemory、maxclients、requirepass等参数的在线修改,同时支持实例间的参数一致性对比校验银行

主从切换支持一键完成主从切换,并支持批量操作和查看切换状态银行

系统巡检通过每天定时任务生成业务系统巡检报告,包括资源使用情况、容量风险情况、基线合规情况等,并主动推送给相关人员银行

权限控制

分布式缓存平台主要面向数据库管理员、应用管理员、开发和测试人员,权限控制需要保证用户只能访问其负责的业务系统,同时保证具备合理的操作权限银行

平台基于RBAC(Role-based access control)模型实现权限控制,用户登录平台后,后台通过查询CMDB,获取用户关联的业务系统信息,为用户分配业务系统权限,同时查询用户角色信息,通过对不同角色授予对应权限,实现平台权限控制体系银行

四、总结与展望

分布式缓存平台建设从G行实际出发,是实现技术服务化、运维向运营转型的重要举措,为业务快速发展提供了敏捷化、高可用的缓存服务,同时提升了缓存服务的运维效率和交付效率,降低了运维管理成本银行。未来,分布式缓存平台将在云原生方向持续探索,提供更高效可靠的缓存服务能力,为G行业务高质量发展提供更有力的支撑和保障。

作者丨杨亚男

来源丨公众号:匠心独运维妙维效(ID:gh_54f52b20027d)

dbaplus社群欢迎广大技术人员投稿银行,投稿邮箱:editor@dbaplus.cn

直播预告丨降本增效持续深化银行,如何找准FinOps关键着力点?

企业落地FinOps有哪些实施路径和阶段规划?2023年,业界FinOps取得了哪些进展?本次专题探讨,希望汇集中国信通院云大所 业务主管 尚梦宸、中国信通院云大所 研究员 白璐、小红书 基础技术部 混合云资源管理负责人 梁啟成三位FinOps专家的研究成果和实践积累,进一步解决云成本优化管理的痛难点,为大家提供FinOps的前沿研究成果与行之有效的实战经验银行

时间:12月6日周三晚7点

地点:dbaplus社群视频号/deeplus线上直播间

直播地址:z-mz.cn/80r2T

直播预告丨货拉拉微服务架构演进与数据库中间件、DevOps建设之路

随着AI、云计算等新兴技术应用场景不断扩展,传统的IT架构、数据库管理与开发运维交互模式正面临前所未有的挑战与机遇银行。为此,dbaplus社群携手货拉拉三位技术专家,围绕“货拉拉微服务架构演进与数据库中间件、DevOps建设之路”这一主题开展线上直播分享,和大家一起深度探讨服务治理、中间件、DataMesh、DevOps等议题。

观看方式:线上直播间/dbaplus社群视频号

直播时间:2023年12月8日(周五)14:30-17:00

直播地址:z-mz.cn/7z1Ko

评论