資料內容:
我們的數據集里面有一半是“朱”(圖中淺色的點〉,另一半是“ 墨”(圖中深色的點)。
現(xiàn)在有了一個新的數據點,顏色未知,我們怎么判斷它屬于哪一個分類呢?
對于K 最近鄰算法來說,這個問題就很簡單:新數據點離誰最近,就和誰屬于同一類,從圖
3-1 中我們可以看出,新數據點距離它8 點鐘方向的淺色數據點最近,那么理所應當地,這個
新數據點應該屬于淺色分類了,如圖3 -2 所示。
看起來, K 最近鄰算法真是夠簡單的,這么輕松就完成了分類的工作。別急,我們還沒說完。
剛才只是舉的最簡單的例子,選的最近鄰數等于1 。但如果我們在模型訓練過程中讓最近鄰數
等于1 的話, 那么非??赡軙噶?ldquo; 一葉障目,不見泰山 "的錯誤,試想一下,萬一和新數
據點最近的數據恰好是一個測定錯誤的點呢?
所以需要我們增加最近鄰的數量,例如把最近鄰數增加到3 ,然后讓新數據點的分類和3 個當