机器学习 - 监督


监督学习是训练机器所涉及的重要学习模型之一。 本章详细讨论了相同的内容。


监督学习算法

有几种算法可用于监督学习。 一些广泛使用的监督学习算法如下图所示 −

  • k-最近邻
  • 决策树
  • 朴素贝叶斯
  • 逻辑回归
  • 支持向量机

随着本章的推进,让我们详细讨论每种算法。


k-最近邻

k-最近邻,简称为 kNN,是一种统计技术,可用于解决分类和回归问题。 让我们讨论使用 kNN 对未知对象进行分类的情况。 考虑如下图所示的对象分布 −

最近的邻居

资料来源:

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

该图显示了三种类型的对象,用红色、蓝色和绿色标记。 当您在上述数据集上运行 kNN 分类器时,每种类型对象的边界将被标记如下所示 −

数据集边界

资料来源:

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

现在,考虑一个您想要分类为红色、绿色或蓝色的新未知对象。 如下图所示。

Depicted Figure

如您所见,未知数据点属于一类蓝色对象。 从数学上讲,这可以通过测量这个未知点与数据集中每个其他点的距离来得出结论。 当你这样做时,你会知道它的大多数邻居都是蓝色的。 到红色和绿色物体的平均距离肯定会大于到蓝色物体的平均距离。 因此,这个未知物体可以归类为蓝色类。

kNN 算法也可以用于回归问题。 kNN 算法在大多数 ML 库中都可以直接使用。


决策树

流程图格式的简单决策树如下所示 −

流程图

您将编写代码以根据此流程图对输入数据进行分类。 流程图是不言自明的和微不足道的。 在这种情况下,您尝试对传入的电子邮件进行分类以决定何时阅读它。

实际上,决策树可能很大而且很复杂。 有几种算法可用于创建和遍历这些树。 作为机器学习爱好者,您需要了解和掌握这些创建和遍历决策树的技术。


朴素贝叶斯

朴素贝叶斯用于创建分类器。 假设您想从水果篮中挑选(分类)不同种类的水果。 您可以使用水果的颜色、大小和形状等特征,例如,任何红色、圆形、直径约 10 厘米的水果都可以被视为苹果。 因此,要训练模型,您将使用这些特征并测试给定特征匹配所需约束的概率。 然后将不同特征的概率组合起来,得出给定水果是苹果的概率。 朴素贝叶斯通常需要少量的训练数据进行分类。


逻辑回归

看下图。 它显示了数据点在 XY 平面上的分布。

分布数据点

从图中,我们可以直观地检查红点与绿点的分离。 您可以画一条边界线来分隔这些点。 现在,要对新数据点进行分类,您只需要确定该点位于直线的哪一侧。


支持向量机

看下面的数据分布。 这里三类数据不能线性分开。 边界曲线是非线性的。 在这种情况下,找到曲线方程就成了一项复杂的工作。

Non-linear

资料来源: http://uc-r.github.io/svm

在这种情况下,支持向量机 (SVM) 在确定分离边界时非常方便。