我們的第一個(gè)問題是“有問題嗎”。如前所述,這種監(jiān)控指標(biāo)并不多,大約三到七種,它們既能提供預(yù)測性的指標(biāo),又能提供當(dāng)前的指標(biāo),用于說明即將有問題或現(xiàn)在已經(jīng)有問題了。由于我們要跟蹤的項(xiàng)目數(shù)量較少,所以數(shù)據(jù)保留應(yīng)該不是個(gè)大問題。最好能每分鐘或每小時(shí)繪制一次這種數(shù)據(jù),并至少與前兩周中相似時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行對比。如果今天是周二,那么我們可能需要前兩個(gè)周二的有價(jià)值的數(shù)據(jù)。也許我們只需保留前兩周的數(shù)據(jù)即可,但在我們匯總數(shù)據(jù)之前,也可以把范圍擴(kuò)展到保留一個(gè)月的數(shù)據(jù)。從長遠(yuǎn)來看,這些數(shù)據(jù)不會(huì)占用大量空間。此外,在預(yù)測與確定是否要發(fā)生問題或已經(jīng)發(fā)生了問題方面,這些數(shù)據(jù)會(huì)給我們節(jié)省很多時(shí)間。
接下來我們要問的問題是“哪里有問題”。我們的金字塔表明,盡管問題的具體程度在縮小,但數(shù)據(jù)量卻在增長。這應(yīng)該弓起我們的注意,因?yàn)槲覀円獙?shí)現(xiàn)這一點(diǎn),就需要更多的監(jiān)控指標(biāo)。這種監(jiān)控指標(biāo)的數(shù)量可能在10到100之間,遠(yuǎn)遠(yuǎn)多于我們原始的監(jiān)控指標(biāo)。在非常大型的復(fù)雜的分布式系統(tǒng)中,監(jiān)控指標(biāo)的數(shù)量可能更多。我們?nèi)匀恍枰c以前相似日期中的數(shù)據(jù)進(jìn)行比較,理想狀況是分層對比。但在我們的匯總和歸檔/刪除策略中,我們需要激進(jìn)得多。理想的做法是,我們首先按照小時(shí)匯總數(shù)據(jù),然后把數(shù)據(jù)納人均線的計(jì)算。也許我們會(huì)繪制和保留圖形,而隨著時(shí)間逐漸刪除原始數(shù)據(jù)。我們當(dāng)然不想無限制地保存原始數(shù)據(jù),因?yàn)樗鼈冎械拇蠖鄶?shù)再被用到的可能性很低,因而價(jià)值很低,成本卻很高。
最后,我們要問的是“什么問題”。我們所需的網(wǎng)站建設(shè)監(jiān)控指標(biāo)數(shù)比上一個(gè)監(jiān)控方案又至少提高了一個(gè)數(shù)量級(jí)。我們會(huì)加上原始輸出日志、錯(cuò)誤日志以及其他數(shù)據(jù)。這類數(shù)據(jù)增加得很快,尤其是在一個(gè)對話多的環(huán)境中。我們可能希望保留兩周的數(shù)據(jù),這里假設(shè)了從兩周的數(shù)據(jù)中能抓住大部分問題。也許對于保留什么和刪除什么你有更好的信息,但我們要強(qiáng)調(diào)的是,你不能要求隨時(shí)隨地都可以檢查任何指標(biāo),這會(huì)有損股東價(jià)值,因?yàn)檫@種要求幾乎需要無窮多的花費(fèi),而得到的回報(bào)卻非常非常低。
本文地址:http://murenxiang.com.cn//article/3907.html