咨询热线
400-900-8622
行业资讯
news
新闻资讯
行业资讯
数据驱动的智能运维平台
发布日期:2018-08-14  浏览量:345  点击:返回

      作者:日志易

      伴随着各类高新技术的出现,“人工智能”一词越来越多地出现在人们的日常生活中,而运维朋友常听到与自身工作息息相关的便是智能运维了。

      但在当前,国内大部分的智能运维并没有完全落地,整个行业处在一个初期的探索阶段。因此,很多运维人或多或少都有这样的疑问:一个传统企业的智能运维之路该如何走?AIOps 的架构设计与组成究竟从哪里落地?

      怎么构建一个 AIOps 平台?我们先要确定目的,然后再谈如何达到目的。

      在定义 AIOps 时画了一张图,除了中间有机器学习、BigData、Platform 外,外层的内容就是监管控,这也就是做 AIOps 的目的。只不过是在做监管控时,要使用一些新的方式,以减轻运维的工作量。


      与传统运维相比,智能运维可以更灵活、更易用,并且快速探索数据。比如有 1000 台服务器,如果没有一个统一的平台,要发现问题会非常麻烦。

      探索和实验平台是什么意思呢?这其实是总结了运维人员的一个工作状态:猜测、试错,如果试错不对,再进行下一次试错,即一个探索发现的过程。如果这个过程执行不够快,就意味着解决故障的速度会慢下来。因此,我认为,这个快慢问题对于运维来说非常重要的一个点。




      实际情况来看,AIOps 平台里应该有哪些东西?我觉得下面的描述很有趣,数据湖,即存储采集数据,还有自动化系统、记录系统、交互系统、监控生态圈。




      将这几个系统拆分一下,我们可以发现,监控系统和交互系统在运维的分类中比较混淆。一般来说,监控系统负责的只是把数据抓下来,然后去判断是不是有问题,但是实际上监控系统还要负责一个重要的流程,也就是这个问题和其他问题有没有联系?应该把这个问题发给谁?发送时只能告诉有这么一个问题,还是描述更多信息?这段流程要比数据采集部分更重要。要做好支撑运维目的的平台,就需要将其单独拆分考虑。

      这张幻灯看起来好像和 AI 没有太大的关系,只要具备这些系统,就可以承认这是一个 Ops 平台了,但是在这个平台中,AI 是什么?




      下图是阿里云 AI 平台的一张截图,类似于这种的机器学习 Web 平台,市面上应该有三四十种,但这种平台对运维来说并没有实际的意义。




      我们运维人真正需要的是机器学习在运维工作中的运用。AppDynamics 的 2016 年度总结中提出一些对于 APM 厂商来说可以做出的 AI 场景,可以对这些内容进行拆解,得出运维人的真正需求。




      我这里提供一种很好的拆解方式,下图是《 Google SRE book 》书中的一张图,对于运维人员来说,最重要的还是要去解决底层需求,包括监控、事件响应、根因分析、CICD、容量规划、部署,将这张图与上图中 AI 应用场景进行对照,便会得到从技术到需求应用之间的关系。




      从对应的关系中可以看出,很多链条是相通的,而最终的目的都是要做好一个监控,即最底层的需求。此外,还有一条链是“根因分析-智能报警-自动化”。也就是上面的链条发现故障,最后一条链发出报警,并明确后续流程。








技术支持 英铭科技