机器学习——k近邻
KNN的原理
分类:KNN(K邻算法)是分类方法,是根据已知类别的数据预测类别归类
KNN算法步骤:

  1. 计算测试集的点与训练点之间的距离
  2. 按距离递增排序
  3. 选择K个最近邻点,返回距离最近的k个点
  4. 统计K个点的类别标签,按类别返回预测结果
    算法思路:自己预测最近的K个点(K一般为奇数)的分类,并可以用待算数据的属性确定自适应K值。

如果考虑嵌入KNN算法中K的取值:
k取1:待预测数据点只与P按标记与之最近的点,分类结果随机性大;
k太大:边际端情况,会被掩盖,如模型一棵大树当K值过大或过小选K最为有效

工程中数据处理问题及思路内容

  1. 数据归一化处理
  2. 剔冗降噪及标准化
  3. 划定模型与训练适用