決策邊界可視化，讓你的分類合理有序

發布時間：2020-08-12 20:02:51 來源：ITPUB博客閱讀：298 作者：云編欄目：互聯網科技

作者——Navoneel Chakrabarty

在數據科學領域，分類問題是一個非常普遍和重要的問題。例如:糖尿病視網膜病變、情緒分析、數字識別、癌癥類型預測(惡性或良性)等。這些問題往往通過機器學習或深度學習來解決。像糖尿病視網膜病變或青光眼檢測這樣的項目中，紋理分析經常被使用，而不是傳統的圖像處理或深度學習等。雖然根據研究論文，深度學習在處理糖尿病視網膜病變方面有著極強的優越性。

補充：紋理分析指通過一定的提取出紋理特征參數，從而獲得紋理的定量或定性描述的處理過程·紋理分析方法按其性質而言，可分為兩大類：統計分析方法和結構分析方法。紋理分析在遙感圖像、 X、細胞和處理方面有廣泛的應用。關于紋理，還沒有一個統一的數學模型。它起源于表征紡織品表面性質的紋理概念，可以用來描述任何物質組成成分的排列情況，例如醫學上X 射線照片中的、血管紋理、航天(或航空)地形照片中的巖性紋理等。圖像處理中的視覺紋理通常理解為某種基本模式（色調基元）的重復排列。

現在，我們再回到主題。相關研究論文如下：

"糖尿病視網膜病變檢測的深度學習方法"鏈接：https://ieeexplore.ieee.org/document/8596839

在分類問題中，一個特定類的預測往往要涉及多個類。換句話說，它還可以以這樣一種方式構建:將特定實例(特征空間幾何中的數據點)保存在特定區域下(某一類)，并且與其他區域分離(其他類)。這種與其他區域的分離的"現象"我們稱之為決策邊界的可視化。在特征空間中決策邊界的可視化是在散點圖上完成的。其中每個點表示數據集的一個數據點，軸線表示特征。決策邊界將數據點劃分為多個區域，這些區域就是（我前面所談及的）數據點所屬的類。

決策邊界的重要性/意義：

在使用數據集訓練機器學習模型之后，我們通常需要可視化特征空間中數據點的類。散點圖上的決策邊界就是出于這個目的。而散點圖更是包含著屬于不同類別的數據點(用顏色或形狀表示)，決策邊界可以通過多種不同的策略繪制：

單線決策邊界:在散點圖上繪制決策邊界的基本策略是找到一條將數據點分隔成不同類區域的單線。現在，利用訓練過的模型找到與機器學習算法相關的參數，進而找到這條直線。然后利用得到的參數和機器學習算法找到直線坐標。如果你不知道ML算法的工作原理，那么你將無法繼續進行下去。

基于輪廓的決策邊界:另一種策略是繪制輪廓，這些輪廓是用匹配或緊密匹配的顏色包圍數據點的區域——描繪數據點所屬的類，以及描繪預測類的輪廓。這是最常用的策略，因為它不使用模型訓練后得到的機器學習算法的參數和相關計算。但另一方面，我們并不能很好地用一條直線來分離數據點，也就是說這條直線只能通過訓練后得到的參數及其坐標計算得到。

單線決策邊界的范例演練：

在這里，我將演示基于邏輯回歸的機器學習模型的單線決策邊界。

進入邏輯回歸假設