優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利

如何給測(cè)量數(shù)據(jù)加入報(bào)警機(jī)制?

用于報(bào)警的監(jiān)控系統(tǒng)不同于測(cè)量數(shù)據(jù)采集系統(tǒng),Nagios就是一個(gè)常常和測(cè)量數(shù)據(jù)采集系統(tǒng)配合使用的監(jiān)控報(bào)警工具。

測(cè)量數(shù)據(jù)采集系統(tǒng)專注于數(shù)據(jù)采集的好處,是有能力發(fā)現(xiàn)那些相關(guān)點(diǎn)(Integrationpoints),對(duì)這些點(diǎn)的異常值進(jìn)行報(bào)警。Flickr使用Ganglial作為測(cè)量數(shù)據(jù)采集系統(tǒng),Nagios作為監(jiān)控及報(bào)警系統(tǒng)。在某些情況下,將兩者緊密結(jié)合起來(lái),以建立復(fù)雜的報(bào)警條件。使Nagios.感知 Ganglia采集的數(shù)據(jù),就可以具有更為高級(jí)的監(jiān)控手段,這樣,不僅單點(diǎn)達(dá)到閾值(threshold)時(shí)會(huì)產(chǎn)生異常,在滿足多值亞閾值模式(multiple-value subthresholdpattem)的情況下,也會(huì)產(chǎn)生異常。



例如,假設(shè)一個(gè)運(yùn)行 Apache的Web服務(wù)器集群,這些Web服務(wù)器訪問運(yùn)行MYSQL或Poster的后端數(shù)據(jù)庫(kù),獲取信息生成頁(yè)面。一個(gè)經(jīng)常發(fā)生的情況是數(shù)據(jù)庫(kù)查詢運(yùn)行時(shí)間太長(zhǎng),且原因不明,這樣,由于連接不能盡快關(guān)閉,數(shù)據(jù)庫(kù)總的活動(dòng)連接數(shù)就會(huì)增加。結(jié)果是,在這些連接上等待的 Apache進(jìn)程也會(huì)增加。由于Web服務(wù)器和數(shù)據(jù)庫(kù)的進(jìn)程數(shù)都有最大值的限制,所以要分別設(shè)置Web服務(wù)器和數(shù)據(jù)庫(kù)的警告(warning)和緊急(critical)閾值,將閾值分別設(shè)置為最大值的某個(gè)合適的百分比。

對(duì)Web服務(wù)器和數(shù)據(jù)庫(kù)集群中的每個(gè)節(jié)點(diǎn)的每個(gè)值(Apache的忙碌進(jìn)程和數(shù)據(jù)庫(kù)的打開連接)有異常都要報(bào)警嗎?假如這種異常只發(fā)生在一臺(tái)數(shù)據(jù)庫(kù)(或一個(gè)數(shù)據(jù)庫(kù)集群),或一部分Web服務(wù)器上,會(huì)怎么樣呢? Flickr的做法是將Ganglia采集的各種數(shù)據(jù)集成到Nagios,我們就能夠做靈活的報(bào)警設(shè)置,即忙碌的Web服務(wù)器(指忙碌的 Apache進(jìn)程數(shù)達(dá)到緊急閾值的Web服務(wù)器)的數(shù)量達(dá)到一定百分比時(shí),才報(bào)警,也僅在忙碌的數(shù)據(jù)庫(kù)服務(wù)器(指忙碌的連接數(shù)達(dá)到緊急國(guó)值的數(shù)據(jù)庫(kù)服務(wù)器)的數(shù)量達(dá)到一定百分比時(shí),才報(bào)警。

能夠處理這些甚至更復(fù)雜的系統(tǒng)與數(shù)據(jù)的耦合,意味著降低了報(bào)警的噪聲,只在發(fā)生眾所周知而又復(fù)雜的情況時(shí),呼機(jī)才會(huì)在半夜三更響起來(lái)。

另一個(gè)例子是對(duì)值的飆升進(jìn)行報(bào)警,報(bào)警系統(tǒng)不像采集系統(tǒng)那樣記錄了歷史數(shù)據(jù)的細(xì)節(jié)。例如,如果應(yīng)用程序提供了照片或視頻上載的功能,使用模式也相對(duì)正常(如每日的波峰和波谷),而且對(duì)高低線上的變化能夠報(bào)警,在美國(guó)東海岸進(jìn)入夢(mèng)鄉(xiāng)時(shí),你可能會(huì)料想到照片上載量會(huì)下降,日峰和日谷之間的變化可能會(huì)達(dá)到40%。但你會(huì)想到一小時(shí)之內(nèi)上載量會(huì)下降409%嗎?不是下降到0,而是短時(shí)間之內(nèi)的劇烈下降!這種情況就值得報(bào)警。

這種將網(wǎng)站建設(shè)監(jiān)控系統(tǒng)和采集系統(tǒng)集成起來(lái)的做法很常見,這方面有大量的開放源代碼項(xiàng)目和文檔 :

集成Nagios (http://www.monitoringexchangeorg/inventory/check-plugins Software/Misc/check ganglia) 

Nagios和 Cacti(http://trac2.assemblacom/npc/) 

Nagios和munin (ht://munin-monitoring.org/wiki/Howtocontactnagios

開放源代碼GroundWork(集成Nagios、Ganglia、Cacti,http//www.groundwork-pensource.com/community/open-source/).

本文地址:http://m.hbbqcd.cn//article/3312.html
相關(guān)文章:
最新文章: