您好,登錄后才能下訂單哦!
這篇文章主要介紹“Cluster算法指標是什么”,在日常操作中,相信很多人在Cluster算法指標是什么問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Cluster算法指標是什么”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
外部評價方法意味著評判聚類算法的結果是基于一種預先指定的結構。這種結構反映了人們對數據集聚類結構的直觀認識。每個數據項的分類標記已知。下面介紹兩種常用的兩種
它組合了信息檢索中查準率( precision) 與查全率( recall) 的思想來進行聚類評價。一個聚類j 及與此相關的分類i 的precision 與recall 定義為
\[P = precision( i, j) = N_{ij} /N_{i}\]
\[R = recall( i, j) = N_{ij} /N_j \]
其中: \(N_{ij}\)是在聚類j 中分類i 的數目;\( N_j\)是聚類j 中所有對象的數目; \( N_i\) 是分類i 中所有對象的數目。分類i 的F-measure 定義為
\[F( i) = \frac{2PR}{( P + R) }\]
對分類i 而言, 哪個聚類的F-measure 值高, 就認為該聚類代表分類i 的映射。換句話說, F-measure 可看成分類i 的評判分值。對聚類結果來說, 其總F-measure 可由每個分類i 的F-measure加權平均得到:
\[ F=\frac{\sum_i{|i| \cdot F(i)}}{\sum_i{|i|}} \]
其中: |i|為分類i 中所有對象的數目。
設數據集X 的一個聚類結構為C ={C1 , C2 , ?, Cm} , 數據集已知的劃分為P ={ P1 , P2 , ?, Ps } , 可通過比較C 和P 以及鄰近矩陣與P 來評價聚類的質量。對數據集中任一對點( Xv, Xu) 計算下列項 :
SS———如果兩個點屬于C 中同一簇, 且P 中同一組;
SD———如果兩個點屬于C 中同一簇, 但P 中不同組;
DS———如果兩個點不屬于C 中同一簇, 而P 中屬同一組;
DD———如果兩個點不屬于C 中同一簇, 且P 中不同組。
設a、b、c、d 分別表示SS、SD、DS、DD 的數目, 則\(a +b + c +d=M\)為數據集中所有對的最大數, 即\(M=N( N- 1) /2\)。其中:N為數據集中點的總數。C 與P 之間的相似程度可由如下有效性指數定義:
Rand 指數 \[R = ( a + d) /M \]
Jaccard 系數\[ J = a/( a + b + c) \]
上述兩指數取值均為[ 0, 1] 。當m = s 時, 有最大值。其余指數定義以及鄰近矩陣與劃分P 的比較方法可以參考文獻 。
內部評價方法是利用數據集的固有特征和量值來評價一個聚類算法的結果, 數據集的結構未知 。
對層次聚類算法來說, 其產生的層次圖可用Cophenetic 矩陣Pc表示, 矩陣中元素Pc ( i, j 表示數據xi和xj首次在同一個簇中出現的鄰近層, 則可以定義一個Cophenetic 相關系數來度量Pc與鄰近矩陣P 的相似程度:
\[ CPCC =\frac{ 1}{ \sqrt{ \frac{ 1}{M}\sum^{N- 1}_{i =1}{\sum^{N}_{j= i +1}{d_{ij}^2- \mu^2_p }}}}\cdot \frac{\frac{1}{M} \sum^{N- 1}_{i = 1}{\sum^N_{j= i +1}{d_{ij} c_{ij} – \mu_P \mu_C}}}{\sqrt{ \frac{ 1}{M} \sum^{N- 1}_{i = 1} {\sum^N_{j= i +1}{c^2_{ij} – \mu^2_C}}}}\] \[ – 1≤ CPCC≤1 \]
其中: \(M= N( N- 1) /2\); N為數據集中點的總數; μP 和μc 分別是矩陣Pc 與P 的均值; dij 和cij分別是矩陣Pc 與P 中元素( i,j) 。CPCC 的取值為[ – 1, 1] , 其接近于0 時說明兩個矩陣具有較大的相似性。
對包含k 個簇的單個聚類結果C, 其質量評價可通過比較C 與鄰近矩陣P 之間的一致性程度進行。這個方法定義的指數為Huberts \(\Gamma\)統計。
\[\Gamma= \frac{ 1}{M}\sum^{N- 1}_{i =1}{\sum^N_{j =i + 1}{X( i, j) Y( i, j) }}\]
其中: X 為數據集矩陣; 矩陣Y 定義為
\[ Y( i, j) =\begin{cases} 1, & \mbox{if } x_i \mbox{ and } x_j \mbox{ belong to different clusters; }i, j =1, …, N \\0 , & \mbox{otherwise}\end{cases} \]
\(\Gamma\)的值越大, 表明X 與Y 之間的相似性越大。
到此,關于“Cluster算法指標是什么”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。