公司新闻

叶光芳:中小银行构建自主可控的运维自动化体系

作者: 发布时间:2018-04-18

2018年3月21-22日,由中国信息通信研究院主办的"OSCAR云计算开源产业大会"在国家会议中心举行。运维开源论坛作为分论坛之一,于3月21日下午召开。作为当下火热的市场热点,开源技术和运维结合将碰撞出怎样的火花?结果就在开源运维论坛见!

图片1

(赣州银行系统数据库团队负责人叶光芳)

赣州银行系统数据库团队负责人叶光芳出席会议,并带来《中小银行构建自主可控的运维自动化体系》的精彩分享。

叶光芳介绍到,赣州银行是一家位于江西赣州的城市商业银行,在2017年中国城商行排名第56位。

图片2

他表示,传统企业的运维自动化建设最常见的两种方式分别是购买和自建,相比之下,中小银行却面临着财力投入有限、技术人员有限和地处三线城市的三大困境,在此背景下,在开源软件产品基础上进行开发以实现自主可控成为中小银行的主要解决之道。

图片3

叶光芳指出,赣州银行的运维自动化建设主要分为以下三个阶段:一是自动化监控。这个阶段主要实现对应用系统的全方位的自动监控;二是运维操作自动化。在这个阶段的主要任务是把手工执行繁琐的操作通过工具编排成作业自动执行;三是运维开发。这阶段主要是通过运维开发更多的自动化工具,比如故障自愈,实现故障的自动处理,来真正实现运维自动化。

他从这方面入手,对运维自动化建设进行了详细介绍:

图片4

开源的监控平台包括zabbix、nagios、openflacon等,而根据企业的实际情况去建设一套适合自己的监控平台则更为重要。叶光芳表示,赣州银行在建设监控平台时主要关注以下几方面:

一是能够快速实现自定义监控,这也是最重要的一点。一方面在应用运维中会面临多种个性化的监控需求,而CPU、内存等基础的监控是远远不够的,同时这些监控需求会随着业务的发展不断增加;另一方面,即便是最基础的监控有时也需要进行个性化的调整,这就要求我们的监控平台能快速实现这些个性化的监控需求。

二是对监控数据的进行分析。叶光芳表示,监控平台会产生大量的监控数据,对这些运维数据进行分析可以了解应用系统的整体的运行趋势,这样能及早的发现应用系统的一些隐患,从而避免故障的发送。

三是能灵活的配置告警。监控不同,告警需求也不同,这就决定了需要监控平台能灵活配置支持各式各样的告警。

四是界面简洁易懂。叶光芳指出,因为赣州银行的机房运行值班人员并不是专业技术人员。而简洁的界面可以方便值班人员查看整个数据中心的运行状态。

图片5

运维操作自动化方面,叶光芳说道,他们团队主要负责系统和数据库的运维,在系统数据库这些基础架构的运维方面,通过脚本和ansible很早就实现了自动化运维,数据库一键安装、一键批量巡检、一键系统补丁安装、数据库的自动扩容等等。

但应用运维之前主要还是登录到服务器上纯手工操作,且对应用维护人员的依赖性较强,当应用出现故障时,将导致故障恢复时间比较长,人工操作效率低下、容易误操作成为两大困境,除此之外,当面临某些重大变更或者灾备演练时,中小银行的ECC监控中心难以满足需求,这一背景下,赣州银行开启了应用运维自动化。

图片6

在此基础上,赣州银行进行了三方面的工作。一是脚本化、标准化,要求所有应用运维统一基础的操作命令,这样就解决了应用运维依赖性强的问题;二是批量调度的工作。使用Ansible实现多系统的批量操作;

图片7

图片8

图片9

三是WEB自动化。叶光芳介绍到,蓝鲸作业平台按应用系统来控制权限,操作简单方便,支持多种语言,能够快速定制作业,还能够分发文件、定时作业,而且还记录了每次执行的详情,做到了可追溯的操作审计。应用蓝鲸平台,可帮助提高应用运维效率。

他表示,通过蓝鲸作业平台来统一管理定时任务,效率更高,也方便查看执行的详情。赣州银行利用监控平台监控了蓝鲸的基础进程的状态,还监控了蓝鲸作业平台定时作业执行的情况。叶光芳对如何通过job查询数据库去监控蓝鲸作业平台中定时作业的执行情况进行了分享。他说道,通过查询数据库中定时任务执行情况能够很方便的知道一天有多少定时任务,执行成功的有多少,失败的有多少。如有执行失败的定时任务则马上通过自动监控平台进行告警!

图片10

在蓝鲸作业平台推广后,为实现故障自动处理,团队对蓝鲸的ESB文档进行了学习,并开发了一个故障自愈小程序,以实现监控平台和作业平台的联动。“当自动监控平台监控到应用故障时,故障自愈程序自动去判断这是应用的故障,而不是网络的故障或监控自身的故障。在确认故障后自动的调用预先配置好的故障处理作业,自动处理,实现快速恢复。”

故障自愈不仅能实现最常用的应用自动重启,能够实现什么完全在于应用运维自己去定义,而且可以帮助应用实现加密机的高可用。

图片11

2014年,赣州银行的服务器就已全面虚拟化了,在生产和开发上使用了大量的虚拟机。叶光芳表示,基于蓝鲸的开发框架他们快速开发一个saas应用。“我们目前就基于蓝鲸Django开发框架,利用vmware官方推出的python sdk,开发了一个saas应用:云管理平台,实现了我们基础设施的运维自动化。”

同时改变了日常运维当中的大量的虚拟机安装部署流程,通过云管平台申请后完成直接审批,之后就可进行一键安装,然后自动交付给开发,实现了基础资源的快速交付。

图片12

据了解,赣州银行目前拥有2个数据中心,相隔5公里,通过DWDM构建了同城双活数据中心的光传输网络,为跨中心数据传输提供了高带宽、低时延、高可靠的通道。“存储层通过Vplex实现了存储双活,两个中心各有10余台X86服务器共同组成了一个vmware集群,集群里跑了我们的数据库、应用的虚拟机,这些虚拟机可以在线的在2个数据中心切换,但如何让同一个应用系统的虚拟机合理的分布一直是我们的一个难题。”

图片13

图片14

蓝鲸作业平台的另一项重要功能是实现了虚拟机的自动合理分布。叶光芳解释,他们通过开发的云管理平台,根据各物理主机资源的使用情况来合理分布各应用系统的虚拟机,确保各应用系统的虚拟机不跑在同一物理主机上,并实现了三种模式的一键切换:(1)主中心模式:一键合理的把所有虚拟机分布在主中心的物理服务器上;(2)同城模式:一键合理的把所有虚拟机分布在同城中心的物理服务器上;(3)双活模式:一键合理的把所有虚拟机分布在2个数据中心。

这样,通过云管理平台实现了vmware平台虚拟机的合理分布和自动化管理。而基于蓝鲸统一开发平台开发的saas应用,从接触蓝鲸到完成云管理平台的开发上线,3个人只花费了10个月的时间就完成了,实现了快速、低成本的建设运维自动化体系的目标。

 

关联阅读

Cloud Foundry的两大价值:助力企业数字化转型和真正实现开源共享

工信部下发2018年第7批CDN与云服务牌照 13家企业获得

进入负毛利时代 CDN行业如何破局?

 

 

                【原创 未经允许禁止转载】

收缩