欢迎您光临机械网,如有问题请及时联系我们。

运维监控能够实现自动化吗?

作者:机械网
文章来源:本站

  

运维监控能够实现自动化吗?

  一个非常好的问题。运维监控能够实现自动化,而且建议实现自动化。

  云服务已经成为IT技术的核心基础设施,充分利用云服务带来的弹性和分布式优势,赋能自动化运维。

  CI/CD持续化集成和自动化部署,比如常用的Jenkins,配置Git代码提交时触发构建,然后自动部署。

  Docker将应用以及依赖打包到一个可移植的镜像中,可以实现虚拟化,有助于快捷高效的交付应用。

  搭建阿里云容器镜像服务+Git+Docker自动构建系统,结合资源编排服务,实现自动部署更新,不再需要常用的Jenkins构建服务器。

  配置一定的触发条件,满足时自动增加或者释放服务器资源。比如当CPU使用率达到80%或者内存占用率达到80%时,根据配置好的服务器和数量,自动触发。

  1,ELK是常见的日志收集管理系统,包括ElasticSearch, LogStash, Kibana三个服务,架构示意图如下:

  2,在ELK系统中,Kibana是一个图形化展示工具,配置查询条件,运维人员随时可以搜索指定日志信息,分析处理故障。

  1,云监控CloudMonitor

  主流云服务商都将监控功能集成到了基础架构中,以阿里云为例,云监控提供了多种配置,多维度全方位监控。

  比如配置CPU使用率到达80%时,自动触发动作,增加服务器实例,同时邮件通知运维人员。

  2,应用监控

  以监控宝为例,配置服务地址,选择分布在不同地区和运营商的监测点。当监测点不能正常调用配置的服务地址时,将收到警告信息,可以选择邮件、短信、电话等通知方式。

  云原生是指从开始设计应用时,就充分考虑并且利用云服务的特点,比如弹性和分布式,可以简单的理解为:云原生 = 微服务 + DevOps + 持续交付 + 容器化。

  在云原生应用系统里,运营、维护和监控,完全是自动化的。

  我是工作多年的Web应用架构师,陆续发布关于软件开发方面的文章,欢迎关注我,了解更多IT专业知识。

  

刚好有这个东西,这是一个适合快速安装,易用,轻量级的运维监控工具——WGCLOUD监控系统

  属于服务器性能监控可视化类项目,在github上star数量2.2K,码云star数量600左右

  和zabbix不同,WGCLOUD这款工具的特点初衷就是轻量,易用,无模板,无脚本,安装后不用特别配置,默认启动后就开始全自动监控,不用费劲到处找资料,再学习培训啦

  轻量并不代表它功能简单,WGCLOUD支持主机各种指标监控(cpu/温度,内存,硬盘空间/IO,系统负载,网络流量,硬件信息等),数据监控可视化,大屏展示,API接口检测,docker监控,公众看板服务,自动生成网络拓扑图,端口监控,日志监控,告警信息推送(默认邮件,可集成钉钉微信短信等)

  WGCLOUD服务端基于轻量级springboot架构,采集端基于go,是高性能高并发的分布式监控系统。也有商业版本,当然商业版也有免费版本,免费版对我们中小企业足够用,可以应对平时使用场景,即使突发情况也可以

  WGCLOUD可以做到秒级监控,采集端每隔30秒扫描一次主机状态,然后上报给server端

  以下是WGCLOUD部分功能截图

  你好,很高兴回答你这个问题。作为运维工程师,非常理解你的这个问题,我们也希望通过监控的自动化来提高运维的效率,把更多的精力放到业务上;但是这需要各子系统及流程的配合,才能达到更好的效果。换句话说就是运维自动化不是孤立的,必须依赖上下游系统,基于规范和流程才能完成

  你好,很高兴回答你这个问题。作为运维工程师,非常理解你的这个问题,我们也希望通过监控的自动化来提高运维的效率,把更多的精力放到业务上;但是这需要各子系统及流程的配合,才能达到更好的效果。换句话说就是运维自动化不是孤立的,必须依赖上下游系统,基于规范和流程才能完成

  下面咱们来举个简单场景来分析下吧。

  需求:产品部门需要上线一个业务子系统。

  运维需要的工作主要为以下三步:

  1.上架新的服务器或虚拟机;

  2.业务子系统部署上线;

  3.上线完成后添加监控;

  以上三步中涉及到监控系统的有:

  1.上架的新机器的自动录入到监控系统,进行统一纳管;

  2.对录入机器及业务系统需要从几个维度的监控:硬件监控、基础状态监控、应用监控、业务日志监控、流量监控;

  3.与监控平台联动的平台也要及时进行数据更新;

  对于运维监控自动化来说,我们需要从以上几个维度出发去考虑如何实现自动化。无论是从哪个维度出发,必须都要有一套自动化脚本或模板去统一实现,因此我们需要制定规范去配合脚本或模板的自动化执行,才能顺利完成。如果监控系统依赖其他上下游平台,在自动化过程中还要联动其他平台。

  

  总结

  通过以上的描述,如果我们在各个监控维度,有统一的规范、统一的模板、完善的流程以及各个平台的API(或统一的ESb),那么我们肯定是能够实现自动化的。当然监控系统的自动化远不止于此,例如故障自愈、智能监控等,现在很多大厂也都已经实现。但我觉得无论多么高大上,都需要打好基础。

  好了,我的回答就到这吧,希望对你有帮助。

  运维监控也能够实现自动化,运维人员需要增加相应的编程知识,比如Python、Shell脚本等。随着IT技术的进步及业务需求的快速增长,服务器也由几十台上升到成百上千台,IT运维自动化是一个必然的趋势。Python是当今最流行的编程语言之一,由于Python语言本身的优势,因此在编写自动化程序时简单、高效,实用效果立竿见影。目前开源软件社区优秀的自动化运维软件,如Ansible、Airflow、Celery、Paramiko等框架都使用Python语言开发,甚至一些大型商用的自动化部署系统都有Python的应用。因此,学好Python,不仅可以自己编写自动化运维程序,而且可以对开源的自动化运维工具进行二次开发,这样才能在就业严峻的市场环境中具备较强的职场竞争力。

  照例我还是推荐几本书,因为提高技能的方法就是看书+实践。

  《Python自动化运维快速入门(第2版)》

  目前市场上介绍Python自动化运维的图书并不多,真正从实际应用出发,通过各种典型应用场景和项目案例来指导读者提高运维开发水平的图书就更少。本书以实战为主旨,通过Python运维开发中常见的典型应用(近百个场景),让读者全面、深入、透彻地学习Python在自动化运维领域的各种热门技术及主流开源工具的使用,提高实际开发水平和项目实战能力。

  本书分为16章,内容包括Python自动化运维概述、Python基础运维技能、实战多进程、实战多线程、实战协程、自动化运维工具(Ansible)、定时任务模块(APScheduler)、执行远程命令的工具(Paramiko)、任务调度神器(Airflow)、分布式任务队列(Celery)、Docker容器技术、主流的自动化配置工具、开源配置管理平台搭建、统一监控平台Zabbix、运维开发技术、DevOps方法论等。

  《Linux命令行与Shell脚本编程》

  本书使初学者掌握Linux系统下提高运维效率的工作技巧,这就是使用Shell实现更多的自动化运维。掌握Shell脚本基本编程技能已经成为各大公司面试运维人员的主要要求。也就是说,只有学好了Shell脚本,才能更高效地做好Linux的日常维护工作。

  目前图书市场上关于Shell编程开发的图书不少,但真正从实际应用出发,能够详尽地介绍相关知识,以供没有任何Linux基础的读者来学习的图书却很少。本书使用Ubuntu Server 20系统,以简明和入门为主旨,讲解从易到难、由浅及深,让读者全面、深入地理解Shell编程开发以及Linux系统管理的基本知识,从而从根本上提高读者的系统管理水平,帮助读者掌握利用脚本进行自动化运维的技能。

  《Zabbix监控系统入门与实战》

  顺便介绍一下这本书。凭借其既丰富又优秀的特性,在国内外的监控市场蓬勃发展,投靠Zabbix阵营的用户不计其数。面对Zabbix的蔓延,与其逡巡观望,不如尽早加入抢占先机!本书详细介绍Zabbix各项功能,包括安装、配置、告警、可视化、分布式监控、自动化等。 本书分为14章,由浅入深地对Zabbix的基础和高级功能进行细致地讲解。第1~6章主要讲解Zabbix背景、基本原理、安装方法和基础配置方式。第7~11章主要介绍事件与通知、图形、Web监控、正则表达式、权限、宏。第12~14章介绍数据可视化、Zabbix API、性能优化和常见问题解决方案。

  运维监控大致可以分为以下几个大类:

  1、服务器资源监控(CPU,内存,磁盘)

  2、网络质量监控(延时,丢包,流量)

  3、业务监控(端口,进程,api接口)

  4、内容监控(某个页面响应时间, 某个页面的关键字等)

  5、数据库监控(数据库相关的性能参数监控)

  6、自定义监控(比如日志监控等)

  如果是把 现有的一些监控项做自动化,那是可以的。

  我以 zabbix 为例子,把固定的一些监控项做成模板,新服务器可以实现自动注册,自动添加监控项。

  但是如果要完全自动化,那比较困难,因为在实际工作中经常会有一些新需求,这些都是需要先手工进行配置的。

  

通过可视化大屏

 

  (案例为图扑软件Hightopo 的天然气 3D 可视化)

  园区监控

  使用写实风格建立天然气站三维效果,可通过大屏、PC 或移动设备拖动界面改变当前视角,也可进行界面缩放。鼠标悬停在对应设施上将展现出设备详情标签,支持实时查看设备运作信息。

  智能巡检

  无人园区中,巡检智能机器人根据指定线路,对点位设备进行逐个巡检排查,采集实时可视化运作数据并进行分析,将异常数据第一时间反馈给控制中心,为管理人员提供应对依据。

  结构扫描

  透明化建筑外观,采用建筑模型线框,可直观查看设备设施整体布局结构、运行状态。设施出现故障时,会变为红色预警样式,以可视化的方式提醒管理人员做到及时防控与采取对应措施。

  现场视频

  通过接入设立在园区各个点位的监控设备,支持实时查看厂区实时影像,为管理部门提供及时有效的信息。

  消防模拟

  天然气作为可燃物对于存储量极大的天然气站来说是非常危险的,对其安全性的要求也是非常高。预先规划的消防线路、人员施救方案等,通过三维场景仿真模拟现场消防施救,为消防施救工作提供可靠有效的信息。

  研判流程

  主要介绍了在火灾发生时,在火灾信息接报后,预警系统的预案研判流程,包括预警流程、判断是否达到应急启动方案、应急启动、应急处置与应急终止等信息。

  可视化、数字化、智能自动化化监管是未来产业的发展趋势,大大提高了管理效率,省去了许多人力物力。在信息化飞速发展的现在,利用 HT 可视化技术和智能监管相结合,配合有效的预警方案,可以保障了生产的安全高效有序进行。

  先要理解企业运维监控目的,然后寻找优秀的运维监控“帮手”,充分利用工具进行监控管理。监控的目的是防患于未然,通过监控,运维人员能够及时了解到企业网络的运行状态。

  一旦出现安全隐患,系统及时对运维人员进行预警告警,提供研判流程,让运维监控人员有时间处理和解决,避免影响业务系统的正常使用,提供详实的数据用于追查定位问题,将一切问题的根源扼杀在摇篮当中。

  由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,监控技术的使用不在这个范围之内。

  Hightopo 的 HT for Web 自主开发的基于 HTML5 的 2D、3D 渲染引擎,为可视化提供丰富的展示效果。在 2D 和 3D 配置中,HT for Web 可供选择多种图标图源,涵盖所有行业。

  通过三维可视化,使整体结构、设备分布立体化,同时提供空中、漫游、自动巡逻等多种演示方式,满足多种展示要求,真实地展现环境形象。通过扩大管理规模、管理工具多样化、信息管理和数据管理的量化展示,支持多维数据的深度挖掘和智能分析。将实际生产业务无缝集成到平台上,使日常管理任务标准化、自动化和企业智能、专业管理。

  数据可视化引入企业运行维度功能、建立完善的兼容系统、利用科技手段进行记录,不仅可以提高现场运行效率,有效减少系统的负面安全影响和经济损失,还可以为智能化做好积极准备。实现站内设备连续性数据统计,揭示数据规律的变化,深入挖掘数据,科学准确地安排运营工作。

  推进中央控制站建设,可以加快构建“无人值守集中监控”的运维新模式的转换升级,提高设备监控强度、运行维护的精细度和生产信息化程度,能够彻底解决运维质量较低和人员数量不足等问题。

  当然了。相信大家都走过人肉运维的痛苦阶段,尽管运维工程师 7*24 轮班待命,但客户仍然投诉不断,系统问题不断。云帮手通过监控报警功能,将故障的平均发现时间从 1 小时缩短到1分钟,让运维可以在故障发生前,提前预警并采取行动,并实现无人值守监控全过程。

  每个人由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。

  对系统不间断的实时监控:实际上是对系统不间断的实时监控(这就是监控);

  实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的状态,是正常、异常、或者故障。

  保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行

  保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。

  针对以上目标大多数开源监控系统都已经很不错了,Zabbix是一个分布式监控系统,支持多种采集方式和采集客户端,有专用的Agent代理,也支持SNMP、IPMI、JMX、Telnet、SSH等多种协议,它将采集到的数据存放到数据库,然后对其进行分析整理,达到条件触发告警。其灵活的扩展性和丰富的功能是其他监控系统所不能比的。相对来说,它的总体功能做得非常优秀。各种监控系统的对比来看,Zabbix都是具有优势的,其丰富的功能、可扩展的能力、二次开发的能力和简单易用的特点,读者只要稍加学习,即可构建自己的监控系统。

  另外最近两年小米的openfalcon,prometheus也逐渐成熟可以在自动化监控中尝试。

来源:文章来源于网络,如有侵权请联系我们及时删除。本文由机械网转载编辑,欢迎分享本文!