怎样给丈量数据插手报警机制?
发布日期:2023-04-09浏览量:109
用于报警的监控零碎差别于丈量数据采集零碎,nagios就是一个经常和丈量数据采集零碎合营运用的监控报警工具。
丈量数据采集零碎专注于数据采集的益处,是有威力发现那些相干点(integrationpoints),对这些点的异样值进行报警。flickr运用ganglial作为丈量数据采集零碎,nagios作为监控及报警零碎。在某些情况下,将二者严密连系起来,以建立庞大的报警前提。使nagios.感知 ganglia采集的数据,就能够具备更为高档的监控伎俩,如许,不只单点到达阈值(threshold)时会发生异样,在知足多值亚阈值形式(multiple-value subthresholdpattem)的情况下,也会发生异样。
比方,假设一个运转 apache的web服务器集群,这些web服务器访问运转mysql或poster的后端数据库,获失信息生成页面。一个经常发生的情况是数据库查询运转时间过长,且起因不明,如许,因为连贯不克不及尽快关闭,数据库总的勾当连贯数就会添加。后果是,在这些连贯上等候的 apache进程也会添加。因为web服务器和数据库的进程数都有最大值的限定,以是要别离配置web服务器和数据库的告诫(warning)和紧迫(critical)阈值,将阈值别离配置为最大值的某个适宜的百分比。
对web服务器和数据库集群中的每一个节点的每一个值(apache的繁忙进程和数据库的翻开连贯)有异样都要报警吗?假设这类异样只发生在一台数据库(或一个数据库集群),或一部分web服务器上,会怎么样呢? flickr的做法是将ganglia采集的各类数据集成到nagios,咱们就能够做灵活的报警配置,即繁忙的web服务器(指繁忙的 apache进程数到达紧迫阈值的web服务器)的数目到达必然百分比时,才报警,也仅在繁忙的数据库服务器(指繁忙的连贯数到达紧迫國值的数据库服务器)的数目到达必然百分比时,才报警。
能够处置这些以至更庞大的零碎与数据的耦合,象征着低落了报警的噪声,只在发生尽人皆知而又庞大的情况时,呼机才会在三更三更响起来。
另外一个例子是对值的飙升进行报警,报警零碎不像采集零碎那样记载了汗青数据的细节。比方,若是应用程序提供了照片或视频上载的功用,运用形式也相对于正常(如逐日的波峰和波谷),并且对上下线上的变革能够报警,在美国岸进入梦乡时,你能够会猜想到照片上载量会降落,日峰和日谷之间的变革能够会到达40%。但你会想到一小时以内上载量会降落409%吗?不是降落到0,而是短期以内的激烈降落!这类情况就值得报警。
这类将网站制作监控零碎和采集零碎集成起来的做法很常见,这方面有大量的开放源代码项目和文档 :
集成nagios (http://www.monitoringexchangeorg/inventory/check-plugins software/misc/check ganglia)
nagios和 cacti(http://trac2.assemblacom/npc/)
nagios和munin (ht://munin-monitoring.org/wiki/howtocontactnagios
开放源代码groundwork(集成nagios、ganglia、cacti,http//www.groundwork-pensource.com/community/open-source/).
相关文章: