您好,登錄后才能下訂單哦!
這是有關監視數據可視化的系列文章中的第二篇。這篇文章著重于摘要圖。
在本系列的第一部分中,我們討論了時間序列圖-顯示基礎結構指標隨時間變化的可視化效果。在本文中,我們將介紹摘要圖,這些摘要圖是將特定時間段展平以提供基礎架構摘要窗口的可視化效果:
對于每種圖形類型,我們將說明其工作方式和使用時間。但是首先,我們將快速討論理解基礎結構摘要圖所必需的兩個概念:跨時間聚合(您可以將其視為“時間變平”或“快照”)和跨空間聚合。
為了提供指標的摘要視圖,可視化必須通過將時間維度壓縮到視線范圍之外,將時間序列展平為單個值。這種跨時間的聚合可能意味著僅顯示度量查詢返回的最新值,或者更復雜的聚合以在移動時間窗口內返回計算值。
例如,您可能不希望顯示度量標準查詢的最新報告值,而是希望顯示每個主機在過去60分鐘內報告的最大值,以解決有問題的峰值:
[
并非所有指標查詢都有意義,可以按主機,容器或其他基礎結構單元劃分。因此,您通常需要跨空間進行一些聚合,以創建可合理反映您的基礎結構的度量可視化。這種聚合可以采用多種形式:通過消息隊列,數據庫表,應用程序或主機本身的某些屬性(操作系統,可用性區域,硬件配置文件等)來聚合度量。
跨空間的聚合使您可以對基礎架構進行切片和分割,以準確地隔離可觀察關鍵系統的指標。
與上面的示例中列出的主機級別的Redis峰值延遲相比,查看基于Redis構建的每個內部服務的峰值延遲可能更有用。或者,您只能顯示基礎結構中任何主機報告的最大值:
![Redis延遲圖]跨空間聚合:按服務名稱對主機進行分組(頂部)或將主機列表壓縮為單個值(底部)
時間序列圖中的跨空間聚合也很有用。例如,很難理解Web請求的主機級圖表,但是當按可用性區域匯總指標時,可以輕松解釋相同的數據:
![Redis延遲圖]從未聚合的(折線圖,頂部)到跨空間的聚合(堆疊的面積圖,底部)
標記指標的主要原因是啟用跨空間聚合。
單值摘要使用條件格式(例如綠色/黃色/紅色背景)顯示給定度量查詢的當前值,以傳達該值是否在預期范圍內。單值摘要顯示的值不必表示瞬時測量。窗口小部件可以顯示報告的最新值,或者顯示在整個時間窗口內根據所有查詢值計算得出的匯總值。這些可視化為您的基礎架構提供了一個狹窄但明確的窗口。
[
什么 | 為什么 | 例 |
---|---|---|
給定系統的工作指標 | 使關鍵指標立即可見 | 每秒Web服務器請求 |
關鍵資源指標 | 概覽資源狀況和健康狀況 | 負載均衡器背后的健康主機 |
錯誤指標 | 快速引起對潛在問題的關注 | 致命數據庫異常 |
與以前的值相比,計算的度量標準更改 | 清晰傳達關鍵趨勢 | 使用中的主機與一周前相比 |
排行榜是有序列表,可讓您按主機,群集或基礎結構的任何其他網段的指標值對其進行排名。因為它們很容易解釋,所以頂層列表在高級狀態面板中特別有用。
與單值摘要相比,頂列表在空間上具有附加的聚合層,因為按組劃分了指標查詢的值。每個組可以是單個主機或相關主機的集合。
[
什么 | 為什么 | 例 |
---|---|---|
來自不同主機或組的工作或資源指標 | 一目了然地發現異常值,表現不佳或資源過度消費的人 | 每個應用服務器處理的積分 |
自定義指標作為值列表返回 | 以易于閱讀的格式傳達KPI(例如,用于壁掛式顯示器上的狀態板) | 正在使用的Datadog代理版本 |
頂列表為您提供了最近度量標準值的摘要,而變化圖則將度量標準的當前值與其過去某個時間點的值進行比較。
變更圖與其他可視化之間的主要區別在于,變更圖采用兩個不同的時間范圍作為參數:一個用于評估窗口的大小,另一個用于設置回溯窗口。
[
什么 | 為什么 | 例 |
---|---|---|
每天,每周或每月上升和下降的循環指標 | 將指標趨勢與定期基準分開 | 數據庫寫吞吐量,與上周同期相比[ |
高級基礎架構指標 | 快速識別大規模趨勢 | 主機總數,與昨天同期相比[ |
主機地圖是一種獨特的方式,使您可以一目了然地觀察整個基礎架構或其任何部分。但是,如果對基礎結構進行切片和切塊(按數據中心,按服務名稱,按實例類型等),您將看到所選組中的每個主機都是六邊形,并按這些主機報告的任何度量標準進行了顏色編碼和大小調整。
這種特定的可視化類型是Datadog獨有的。這樣,它是專門為基礎結構監視而設計的,與本文其他地方描述的通用可視化相反。
[
什么 | 為什么 | 例 |
---|---|---|
資源利用率指標 | 一目了然地發現過載的組件 | 每個應用程序主機的負載(按群集分組)[ |
識別資源分配不當(例如,任何實例是否過大或過小) | 每個EC2實例類型的CPU使用率[ | |
錯誤或其他工作指標 | 快速識別降級的主機 | 每個服務器的HAProxy 5xx錯誤[ |
相關\指標**** | 在單個圖中查看相關性 | 應用服務器的吞吐量與使用的內存[ |
分布圖顯示了跨基礎架構部分的指標值的直方圖。圖表中的每個條形圖代表一個合并值的范圍,其高度對應于該范圍內報告值的實體數。
分布圖與熱圖密切相關。兩者之間的主要區別在于,熱圖顯示了隨時間的變化,而分布是時間窗口的摘要。像熱圖一樣,分布可以方便地可視化報告特定度量的大量實體,因此它們經常用于在單個主機或容器級別上繪制度量圖形。
[
什么 | 為什么 | 例 |
---|---|---|
大量實體報告的單一指標 | 一目了然地傳達總體健康狀況 | 每個主機的網絡延遲[ |
查看小組成員之間的差異 | 每個主機的正常運行時間[ |
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。